心肺復(fù)蘇模型

新聞分類

從話語學(xué)角度看詞嵌入模型

從話語學(xué)角度看詞嵌入模型

發(fā)布日期:2022-11-10 作者:康為 點(diǎn)擊:

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Moving beyond the distributional model for word representation.

作家 | Tanay Gahlot

翻譯 | 喬叔叔

校對 | 醬番梨 整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8

從話語學(xué)角度看詞嵌入模型


1.jpg


在任意1個(gè)基于機(jī)械學(xué)習(xí)的自然話語解決(NLP)流水線中,詞的向量化是此中典型的1個(gè)方法,由于咱們不可直接給計(jì)算機(jī)“喂單詞”。在詞的向量化流程中,咱們?yōu)?個(gè)單詞指定1個(gè)N維的向量,拿來表示它的詞義。結(jié)果,這成了解決流程中最為首要的1個(gè)方法之一,由于1個(gè)“壞的”表示會造成落敗并且為接下來的NLP任務(wù)帶來不愿看見的牽連。

在詞向量化的最常用的技術(shù)之一就是詞的散布式表示模型。它基于的1個(gè)如果是1個(gè)詞的意義可以從它所在的高低文中推理出去。大部份深度學(xué)習(xí)論文應(yīng)用基于該散布式理論而來的詞向量,由于它們是“任務(wù)普適”(它們不是對于特定任務(wù))況且“話語普適”(它們不是對于特定話語)。不幸的是,散布式方式并非是詞向量化任務(wù)的魔效兵器。在本博文中,咱們會指出這個(gè)方式的許多問題并供應(yīng)許多潛在的處理計(jì)劃,以改進(jìn)詞向量化的流程。


2.jpg


散布式表示模型有下列的問題,讓人感覺十分苦痛:

稀有詞:針對在語料中顯現(xiàn)頻率過低的詞,它們不能通過度布式表示學(xué)習(xí)獲得1個(gè)較好的表示。

多義混雜:它們將1個(gè)詞的一切詞義混成1個(gè)表示。比如,單詞“bank”,在英文中能夠指“河岸”或者是“金融機(jī)構(gòu)(銀行)”。散布式模型卻將一切的這類詞義混合在1個(gè)表示中。

形式缺失:在表示學(xué)習(xí)的時(shí)候,它們并沒有參考1個(gè)單詞多種形式。例如,“evaluate”和“evaluates”擁有類似的意義,可是散布式表示模型卻將它們視為2個(gè)不同的單詞。(譯者注:在英語中,1個(gè)單詞也許有多種形式,特別是動詞,偶爾態(tài)、人稱、被動主動等相應(yīng)的不同形式。在本例中evaluates是evaluate的第三人稱雙數(shù)的通常如今時(shí)的形式。)

幸運(yùn)的是,為了解決這類問題,大家進(jìn)行了十分全面的研發(fā)。大抵上,這類處理方法能夠劃為3個(gè)首要類型。咱們將會根據(jù)以下的次序一一簡介:

形式敏感嵌入

在詞嵌入中,將話語或性能束縛進(jìn)行加強(qiáng)。

多詞義解決

形式敏感嵌入

這類技術(shù)在學(xué)習(xí)詞嵌入的時(shí)候,將詞的形式進(jìn)行了參考。Fasttext就是這類技術(shù)的1個(gè)典型代表。它將1個(gè)單詞表示成了n-grams(n元模子)字符的匯總。比如單詞where就能夠表示成

在應(yīng)用這類方式(下表的sisg)對許多詞匯形式充足的話語,例如德語(De)、法語(FR)、西班牙語(ES),俄語(RU)和捷克語(Cs),進(jìn)行話語建模的時(shí)候,經(jīng)評價(jià),相較于沒有應(yīng)用預(yù)訓(xùn)練詞向量的LSTM,并且應(yīng)用了預(yù)訓(xùn)練詞向量卻沒有有關(guān)詞根數(shù)據(jù)的LSTM模型(下表的sg),成效都有了改進(jìn)。


3.jpg


況且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因而它就能為那些語料庫中從來沒有顯現(xiàn)過的詞供應(yīng)嵌入。在許多行業(yè)如生命科學(xué)行業(yè),因?yàn)樵~匯表十分有限(長尾情況),語料中大部份的單詞都納入到未知類型中,該技術(shù)就顯得特別有用。

Morphfitting供應(yīng)了此外1個(gè)技術(shù)選項(xiàng)拿來將詞的形式填寫到詞嵌入模型中。在這項(xiàng)工作中,他們用“相吸相斥”(Attract-Repel)方式來“后解決”(post-process)詞嵌入,該方式“聚焦”波折形式(通過詞的形態(tài)改變來表示有意思的句法數(shù)據(jù),例如動詞時(shí)態(tài),卻不變化詞義),而“排擠”派生形式(新形態(tài)的單詞顯現(xiàn)同時(shí)詞義也產(chǎn)生遷移改變)。在下一部份咱們會全面研討“相吸相斥”方式。


4.jpg


通過注入話語形式學(xué)的束縛,Morphfitting在SimLex和SimVerb2個(gè)信息集上的有關(guān)系數(shù)評價(jià)中都超越了下表給出的10個(gè)規(guī)范嵌入模型。


5.jpg


在詞嵌入中,將話語或性能束縛進(jìn)行加強(qiáng)

此外一種詞空間定論的方式是在詞嵌入的后解決中進(jìn)行話語/性能束縛。在上一節(jié)中咱們已然看見這種方式的1個(gè)例子—Morphfitting。在這一節(jié),咱們將會開拓一下Morphfitting中應(yīng)用的定論詞嵌入的方式—相吸相斥法(Attract-Repel)。

相吸相斥法(Attract-Repel)是一類后解決技術(shù),它依據(jù)話語束縛將預(yù)訓(xùn)練的詞嵌入進(jìn)行進(jìn)一步定論。比如,在Morphfitting中,話語束縛是以兩類合集的形態(tài)來表示,再次給出表格2如下:

表格的上半部份是“相吸合集”(譯者注:由多個(gè)詞義相近的單詞對構(gòu)成的合集),下半部份是“相斥合集”(譯者注:由多個(gè)詞義不同的單詞對構(gòu)成的合集)。借用這類合集,1個(gè)迷你批次就生成了,它能夠拿來優(yōu)化以下的損失函數(shù): 

損失函數(shù)中的第一項(xiàng)相應(yīng)的是相吸合集,第二項(xiàng)相應(yīng)的是相斥合集。第三項(xiàng)則保留了散布式表示。況且,前面兩項(xiàng)也會引入負(fù)樣例,這是采取了PARAGRAM模型的主意。損失函數(shù)(又:本錢函數(shù))的前兩項(xiàng)由下式給出:

第三項(xiàng)由下式給出:

人們能夠用“相吸相斥”法注入用相吸相斥集來表示的話語束縛,例如“同義與反義”或者“波折形式與派生形式”。而對應(yīng)地,那些不能借用話語束縛來表示的“類似性”或者“非類似性”,人們就不可進(jìn)行詞嵌入定論了。比如,不同“治愈”型號的聯(lián)系,就不能用相吸相斥法來捕捉。為了順應(yīng)如此的性能聯(lián)系,咱們簡介此外一類方式叫做“性能改裝”(Functional Retrofitting)。

在性能改裝方式中,聯(lián)系的語義學(xué)習(xí)與詞空間的學(xué)習(xí)是同步進(jìn)行的。而獲取這一點(diǎn)的方式,首要是將相吸相斥法中的點(diǎn)積更換成1個(gè)優(yōu)化學(xué)習(xí)流程得來的函數(shù)。

上式中的第一項(xiàng)保留了散布式嵌入,第二項(xiàng)和第三項(xiàng)則引入了常識圖譜中的正向聯(lián)系空間(E+)與負(fù)向聯(lián)系空間(E-)(譯者注:負(fù)向聯(lián)系空間是沒有在常識圖譜中表明的聯(lián)系的合集),最終一項(xiàng)在學(xué)習(xí)函數(shù)中施行正則化性能。

通過在國際體系醫(yī)學(xué)術(shù)語集(SNOMED-CT)之上預(yù)判2個(gè)實(shí)體(i,j)之間的聯(lián)系(r)而做的鏈路預(yù)判,性能改裝方式的語義學(xué)習(xí)成效獲得了驗(yàn)證。四種不同型號的性能改裝方式分別對四種聯(lián)系( “擁有發(fā)掘部位Has Finding Site”、 “擁有病理流程Has Pathological Process”、 “誘因Due to”、 “病癥Cause of”)進(jìn)行了預(yù)判,其結(jié)果如下表所示:


6.jpg


更多對于性能改裝的數(shù)據(jù),你能夠考慮一篇由Christopher Potts寫的優(yōu)質(zhì)blog。假設(shè)你須要性能或話語束縛來進(jìn)一步定論你的詞嵌入,請?jiān)囉肔inked Open Data Cloud上優(yōu)質(zhì)的、擁有互聯(lián)聯(lián)系的本體匯編。

上述的方式刷新了各次匯報(bào)的詞嵌入。假設(shè)你對定論全部詞空間感興致,你能夠用反向傳遞來如此做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中倡議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。


7.jpg


多詞義解決

最終一種詞嵌入定論技術(shù)是參考詞的多義性,或者是參考詞的高低文,或者是借用詞義庫。讓咱們先以前一種方式開啟 – ELMO。

在ELMO中,詞是基于高低文而被向量化的。因而為了可以用向量表示1個(gè)詞,人們也須要指定某個(gè)詞顯現(xiàn)的高低文。與那些沒有參考高低文的向量化技術(shù)相較為,這個(gè)方式已然證實(shí)是十分有效的。下例較為了ELMO(biLM)和Glove的較近鄰。


8.jpg


ELMO背后的根本意識是得出雙向話語模型(BiLM)逐個(gè)旁邊層的內(nèi)部狀況加權(quán)匯總并且最終一層的字符卷積網(wǎng)絡(luò)表示。

ELMO的詞嵌入在3個(gè)下游任務(wù)SQuAD、SNLI和SRL中進(jìn)行了測驗(yàn),相較于基準(zhǔn)它有了明顯的改善。


9.jpg


更多對于ELMO的數(shù)據(jù),請考慮這篇AllenNLP寫的博文。假設(shè)你想從散布式詞表示中應(yīng)用詞匯資源來壓縮語義,你能夠用DECONF。在這個(gè)方式中,Mohammad Taher Pilehvar提出了一類體制來應(yīng)用以下的優(yōu)化規(guī)范,進(jìn)而從散布式嵌入中壓縮語義嵌入:

上式中,第一項(xiàng)保留了語義散布表示的近似,第二項(xiàng)會將詞義嵌入向產(chǎn)生偏移的詞義推得愈加挨近許多。這個(gè)流程能夠很清楚地用下圖來描繪。


10.jpg


偏移詞集是用1個(gè)定制的Page Rank算法基于1個(gè)詞匯術(shù)語(借用詞匯資源創(chuàng)立而來)的語義網(wǎng)絡(luò)計(jì)算而來的。

咱們應(yīng)用4個(gè)單詞類似度基準(zhǔn)方式分別做了皮爾森有關(guān)有關(guān)性和斯皮爾曼有關(guān)性評價(jià),DECONF在絕大多數(shù)任務(wù)中都獲得了最超前的結(jié)果,如下表所示:


11.jpg


論斷

假設(shè)如處在沒有充足訓(xùn)練信息來重新學(xué)習(xí)詞嵌入的景況,我高度舉薦應(yīng)用上面提及的詞表示的方式來獲得許多百分比的改進(jìn)。對于本話題更深入的研討,我高度舉薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。

要想持續(xù)查閱該篇文章有關(guān)鏈接和考慮文獻(xiàn)?

長按鏈接點(diǎn)擊翻開或點(diǎn)擊【從話語學(xué)角度看詞嵌入模型】:

https://ai.yanxishe.com/page/TextTranslation/1181

AI研習(xí)社每天刷新精彩內(nèi)容,觀看更多精彩內(nèi)容:

這5種計(jì)算機(jī)視覺技術(shù),更新你的世界觀遷移學(xué)習(xí):怎樣將預(yù)訓(xùn)練CNN當(dāng)做特點(diǎn)提煉器新人必讀:深度學(xué)習(xí)是什么?它的工作原理是什么?Python頂級方法:用一行代碼減小一半內(nèi)存占用

等你來譯:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

預(yù)訓(xùn)練模型及其運(yùn)用 一文帶你讀懂線性分類器 (Python)3D人臉解決工具face3d 讓你的電腦具有“視力”,用卷積神經(jīng)網(wǎng)絡(luò)就能夠!



本文網(wǎng)址:http://www.sem136.com/news/1863.html

相關(guān)標(biāo)簽:體系醫(yī)學(xué)術(shù)語集

最近瀏覽:

相關(guān)產(chǎn)品:

相關(guān)新聞:

在線客服
分享