標簽[oov] - 堆棧內存溢出

使用 FastText 模型時，從我的領域特定 pdf 中查找詞匯表外 (OOV) 單詞列表

[英]Find list of Out Of Vocabulary (OOV) words from my domain spectific pdf while using FastText model

使用 FastText 模型時，如何從我的領域特定 pdf 中查找詞匯表外 (OOV) 單詞列表？我需要用我的領域特定詞來微調 FastText。 ...

[英]How to tune FastText parameter for OOV word?

我已經聽說 FastText 正在使用其 n-gram 生成 OOV 詞向量。它已經自動內置在 FastText 架構中，還是我們想調整特定參數？就像 Keras 標記器中的 oov_tokens。我已經在尋找要在 Fast Text 中調整的參數，但找不到任何參數。如果有人知道並想分享他 ...

如何用詞袋處理詞匯以外的詞

[英]How to handle out of vocab words with bag of words

我正在嘗試在基於文本的數據集上使用 ML 之前的 BoW。但是，我不希望我的訓練集影響我的測試集（即數據泄漏）。我想在測試集之前在訓練集上部署 BoW。但是，我的測試集與我的訓練集具有不同的特征（即單詞），因此矩陣的大小不同。我嘗試在測試集中保留也出現在訓練集中的列，但是 1）我的代碼不正確 ...

查找與 OOV 詞最相似的詞

[英]Find most similar words for OOV word

我正在使用 gensim 尋找與詞匯外 OOV 詞最相似的詞。像這樣的東西：有沒有辦法實現這個任務？也歡迎使用 gensim 以外的選項。 ...

無法從其 vector_ngrams 中重現預訓練的詞向量

[英]Cannot reproduce pre-trained word vectors from its vector_ngrams

只是出於好奇，但我正在調試 gensim 的 FastText 代碼以復制詞匯外 (OOV) 單詞的實現，但我無法完成它。因此，我遵循的過程是用玩具語料庫訓練一個小模型，然后比較詞匯表中單詞的結果向量。這意味着如果整個過程沒問題，輸出數組應該是相同的。這是我用於測試的代碼：對於比較數組 ...

在GoogleNews-vectors-negative300.bin中處理OOV單詞

[英]Handling OOV words in GoogleNews-vectors-negative300.bin

我需要為標記的句子的每個單詞計算單詞向量，如下所示：如果我使用的是經過預訓練的[fastText] [1]嵌入：facebook的cc.en.300.bin.gz。我可以通過OOV得到。但是，當我從GoogleNews-vectors-negative300.bin使用Goog ...

fasttext：有沒有辦法導出ngram？

[英]fasttext: is there a way export ngrams?

我是DL和NLP的新手，並且最近開始通過gensim使用預先訓練的fastText嵌入模型（cc.en.300.bin）。我希望自己能夠通過將單詞拆分為n-gram並為每個n-gram查找矢量來計算詞匯量以外的單詞的向量。我找不到導出模型中n元語法向量的方法。我知道它們是散列 ...

iOS上的語音識別-將OOV單詞轉換為iOS上的音素？

[英]voice recognition on iOS - convert OOV words to phonemes on iOS?

我已經嘗試過，如StackOverflow上所建議的那樣，成功完成了Openears，並從NSSTRINGS數組生成了自定義詞匯表。但是，我們還需要從通訊簿中識別名稱，並且在這種情況下，后備方法不可避免地會經常失敗，並且會失敗…… 我可以編寫一個解析器，然后動態地將文本（主要是法語和荷 ...

未知和已知單詞的詞性

[英]Part of speech for unknown and known words

未知單詞的語音標記部分和已知單詞的語音標記部分之間有什么區別？是否有任何工具可以預測單詞的詞性標注。 ...

如何處理tf-idf中非常罕見的術語？

[英]How to deal with very uncommon terms in tf-idf?

我正在實施一個天真的“關鍵字提取算法”。我是自學成才，所以我缺乏在線文學中常見的術語和數學。因此我找到了文檔中“最相關的關鍵字”：我計算當前文檔中每個術語的使用頻率。我們稱之為tf 。我查看了在整個文檔數據庫中使用這些術語的頻率。我們叫這個df 。 ...

詞性標注：標記未知單詞

[英]Part of speech tagging : tagging unknown words

在詞性標注器中，使用HMM by確定給定句子的最佳可能標簽但是當“Word”沒有出現在訓練語料庫中時，P（Word / Tag）在給定所有可能的標簽時產生ZERO，這就沒有留下選擇最佳標簽的空間。我嘗試過幾種方法， 1）為所有未知單詞分配少量概率，P（UnknownWor ...

將未知單詞解析為已知單詞的有效方法？

[英]Efficient way of resolving unknown words to known words?

我正在設計一個文本處理程序，它將從一個長的逐項文本文檔生成一個關鍵字列表，並組合相似的詞語條目。有指標，但我有一個新的問題，處理我正在使用的字典中沒有的單詞。我目前正在使用nltk和python，但我在這里的問題更具抽象性。給定一個不在字典中的單詞，將它解析為字典內的單詞的有效方 ...