深度學習9: Word2vec模型、GloVe模型、fastText 模型、ELMo模型、語義向量優劣評估、文句嵌入、BERT模型及BERT-family 蘇豐文 教授

深度學習9: Word2vec模型(Skip gram 及CBOW)、GloVe模型(Global Vectors)、fastText 模型、ELMo模型(Embeddings from Language Model)、語義向量優劣評估、文句嵌入(sentence and document embedding)、BERT模型及BERT-family 蘇豐文教授

如何完成自然語言分析的重要任務「語義向量化」?有諸多生成詞向量的經典語言模型:(1)Word2vec模型,由Google研究團隊提出,可分為透過中心詞來預測附近詞的Skip gram 及透過附近詞來預測中心詞的CBOW;(2)GloVe模型(Global Vectors)模型,由Stanford研究團隊提出,致力克服Word2vec模型會因文句距離過遠而無法訓練的情形,著重全文資訊、並以條件機率作為關聯性衡量判準;(3)fastText 模型,由Facebook研究團隊提出,旨在克服Word2vec模型無法在詞向量中表示出類似字首字尾詞向量的缺點,因此其將單字進一步細分,如antinuclear、antibody字首「anti」即可切分出來,以進行類推學習、提高效能,但缺點是所需存儲空間也較大;(4)ELMo模型(Embeddings from Language Model)則採先以雙向長短期記憶模型(BiLSTM)預處理再進行訓練的方式,達到依據上下文調整語義的認知、解決多義詞問題、形成動態模型的效果;(5)BERT模型(Bidirectional Encoder Representations from Transformers)則再度由Google研究團隊提出,同樣達到雙向動態模型效果,不同的是其捨棄LSTM特徵抽取方式而改採雙向transformer,改善特徵抽取所導致向量拼接的上下文融合力弱問題,BERT提出後也衍生出許多由其核心原理發展的研究。單詞向量化後,逐漸開始出現更長篇幅的文句嵌入(sentence and document embedding),分析句子間或文章間的關聯性。

Leave a Reply

Your email address will not be published. Required fields are marked *

© 2024 EVERYTHING CHATGPT - WordPress Theme by WPEnjoy