簡體   English   中英

使用 FastText 模型時,從我的領域特定 pdf 中查找詞匯表外 (OOV) 單詞列表

[英]Find list of Out Of Vocabulary (OOV) words from my domain spectific pdf while using FastText model

使用 FastText 模型時,如何從我的領域特定 pdf 中查找詞匯表外 (OOV) 單詞列表? 我需要用我的領域特定詞來微調 FastText。

FastText 模型已經能夠為 OOV 詞生成向量。

因此,不一定需要在您的 PDF 中列出特定的 OOV 單詞,也不需要“微調”為 FastText 模型。

你只需向它索要向量,它就會將它們返回。 從相關培訓材料中訓練的完整詞匯表的向量可能是最好的,而從與培訓材料共享的詞片段(字符 n-gram)中為 OOV 詞合成的向量只是粗略的猜測 - 比沒什么,但不是很好。

(訓練一個好的詞向量需要一個詞使用的許多不同的例子,與它的許多“對等”詞的類似好例子交織在一起——傳統上,在一個統一、平衡的訓練課程中。)

如果你認為你需要做更多,你應該擴展你的任務,詳細說明為什么你認為這是必要的,以及你試圖匹配的現有先例(在文檔/教程/論文中)。

我還沒有看到一種有據可查的方法來隨意微調或逐步擴展現有 FastText 模型的已知詞匯表。 這需要很多專家權衡,在許多情況下,簡單地用足夠的數據訓練一個新模型可能是一種更安全的方法。

任何尋求這種微調的人都應該清楚地知道:

  • 他們的增量數據可能能夠添加到現有模型中
  • 他們將使用什么流程/代碼,以及為什么該流程/代碼可能會通過其特定的起始模型和新數據給出有意義的結果
  • 如何評估任何此類過程的結果,以確保與替代方案相比,額外的微調步驟是有益的

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM