標簽[lemmatization] - 堆棧內存溢出

[英]Lemmatization taking forever with Spacy

我正在嘗試使用 spacy 對 dataframe 中的聊天記錄進行詞形還原。我的代碼是：我有大約 600.000 行，應用需要兩個多小時才能執行。是否有更快的包/方式來進行詞形還原？（我需要一個適用於西班牙語的解決方案）我只嘗試過使用 spacy package ...

如何使用數據集啟動馬來語的 python 詞形還原器？

[英]How to start a python lemmatizer for Malay language with a dataset?

我有一個數據集，我想執行馬來語詞形還原器。可以指導我如何做這個項目嗎？為馬來語創建詞形還原器的代碼是什么。它還可以允許用戶輸入單詞並確定輸入單詞的詞條。 ...

對數據框中的標記列表進行詞形還原

[英]Lemmatize a list of tokens in dataframe

我正在嘗試對包含每個單元格中的標記列表的列進行詞形還原。我為此使用以下代碼。任何人都可以建議應該進行哪些更改以獲得預期的輸出？從 nltk.stem 導入 WordNetLemmatizer wordnet_lem = WordNetLemmatizer() df['lemmatized_ ...

Python：我可以根據文本系列的一列中的搜索條件創建一個虛擬對象嗎？

[英]Python: Can I create a dummy based on search conditions in one column with text series?

我想知道如何為以下條件創建一個虛擬變量：“lemmatised”列至少包含來自“innovation_words”的兩個詞。 Innovation_words 是我自己定義的一個列表：詞形還原列看起來像這樣（如果需要，我可以更改類型或格式）：用於條件的數據因此，如果任何觀察包括例如local ...

NLP - 為情感分析添加詞干提取或詞根化時結果更差

[英]NLP - Worse result when adding stemming or lemmitization for Sentiment Analysis

我正在嘗試為 IMDB 評論的較小子集（僅 2k pos，2k neg）創建完整的情感分析結果管道，因此我嘗試在每個階段顯示結果即沒有任何預處理，然后進行基本清理（刪除特殊符號、停用詞、小寫字母），然后在基本清理之上（分別）測試詞干提取和詞形還原。基本清潔后，我從 50%（只有二元分類才有意義）跳 ...

SVO 中的詞形還原動詞

[英]lemmatizing verbs in SVOs

我看過建議的類似問題，我認為這個問題有足夠的特異性，值得被問到，但如果有人能指出一個已經回答的問題來解決我的問題，我完全沒問題。我有一個文本語料庫，我將其呈現為（textacy）SVO，然后保存到數據框，結果發現如果有問題的動詞被詞形還原會更好，這樣“talk”、“talked”、“ was ta ...

為什么 nltk 詞形還原器不適用於 Python 中的每個單詞？

[英]Why does the nltk lemmatizer not work for every word in Python?

第一個例子將與“goes”一起工作。 output 是：“走”。第二個不起作用。我得到 output“正在轉型”，但應該是“轉型”。 ...

不要運行 nltk package 的詞形還原

[英]do not run lemmatize of nltk package

您好，我有一個用於對 python 中的字符串進行詞形還原的代碼。代碼如下但是當它編譯和運行時發生了一些錯誤錯誤是：我已經使用以下命令安裝了 NLTK package 我該如何解決？我希望 function 能正常工作 ...

nltk.lemmatizer 即使是簡單的輸入文本也不起作用

[英]nltk.lemmatizer doesn't work for even a simple input text

抱歉，我是 NLP 的新手，我正在嘗試將 NLTK Lemmatizer 應用於整個輸入文本，但它似乎不適用於一個簡單的句子。 ...

對 NLP 使用 spacy 時的特殊情況 Lemmatization ValueError

[英]Special Case Lemmatization ValueError while Using spacy for NLP

對 NLP 使用 spacy 時的特殊情況 Lemmatization ValueError 問題（我認為正在發生的事情）在探索特殊情況的詞形還原時，我遇到了 ValueError（如下所示）。我實際上想修改文本，將“Friso”更改為“San Francisco”。有誰看到我在這里做錯了什 ...

在 Pyspark Dataframe 的列上應用 UDF 時出現問題

[英]Trouble with applying a UDF on a column in Pyspark Dataframe

我的目標是清理 Pyspark DF 中列中的數據。我寫了一個 function 來清洗。當我測試它時，這些功能似乎工作正常。當我做我看到了我想要的確切結果。但是，當我嘗試將此 function finalpreprocess() 應用於 pyspark dataframe 中的列時。我 ...

有沒有更簡單的方法來進行自定義詞形還原？

[英]Is there an easier way to do custom lemmatization?

我有兩列的 dataframe。第一個 ["lemm"] 如果出現要更改的單詞。第二個[“word”]，將它們更改為什么。我是新手，所以我花了很多時間編寫我認為草率的代碼，因為它遍歷 df 並且速度很慢。但是，我只是想知道是否有更好的方法來為我自己的學習做這件事。 lemm 是具有兩列的 ...

在對語料庫進行詞形還原並拆分和加入時，它顯示 Word List Corpus Reader not callable 錯誤

[英]While lemmatizing the corpus and splitting and joining it , it shows Word List Corpus Reader not callable error

我得到錯誤的代碼如下：我無法找到 Word List Corpus Reader 是什么並且不知道如何使用它，只是使用教程看到了這個。請告訴正確的語法，我該如何解決這個錯誤？ ...

spacy 版本 3.3.1 中的 ModuleNotFoundError 嘗試了前面提到的解決方案不起作用

[英]ModuleNotFoundError in spacy version 3.3.1 tried previous mentioned solution not working

輸出應該是輕笑。使用版本 3.1.1 ...

如何創建一個字典，其鍵：值對是兩個不同字典列表的值？

[英]How to create a dictionnary whose key:value pairs are the values of two different lists of dictionnaries?

我有 2 個由 pymongo 提取產生的字典列表。包含 id（字符串）和引理（字符串）的字典列表： lemmas = [{'id': 'id1', 'lemma': 'lemma1'}, {'id': 'id2', 'lemma': 'lemma2'}, {'id': 'id3', 'l ...

更快的 Python 詞形還原

[英]Faster Python Lemmatization

我一直在測試不同的詞形還原方法，因為它將用於非常大的語料庫。下面是我的方法和結果。有沒有人有任何技巧可以加快這些方法的速度？ Spacy 是最快的，包含詞性標簽（首選），其次是 lemminflect。我會以錯誤的方式解決這個問題嗎？這些功能正在通過 pandas.apply() 應用於包 ...

在 Python 中對數據框中的動詞列表進行詞形還原

[英]lemmatizing a verb list in a data frame in Python

我想向 Python 奇才提出一個看似簡單的問題（我是一個新手，所以不知道這個問題有多簡單/復雜）！我在數據框中有一個動詞列表，如下所示：身份動詞 15 相信 64開始 90 相信我想對其進行詞形還原。問題是大多數詞形還原都帶有句子字符串。我的數據沒有提供確定其詞性的上下文，因為我只需 ...

WordNet 有級別嗎？

[英]Does WordNet have Levels?

我正在閱讀一篇說要使用 WordNet 3 級的論文，因為如果他使用 5 級會丟失很多，但我看不出如何使用這些假定的級別。我沒有他的代碼，所以我不能分享它們，但我可以分享論文。你們能幫我弄清楚這是否可能以及如何做到這一點？在此處輸入鏈接描述第 16 頁 “在選擇對名詞進行分組的概念級別時，我 ...

stemmer 和 lemmatizer 似乎都不太好用，我該怎么辦？

[英]Neither stemmer nor lemmatizer seem to work very well, what should I do?

我是文本分析的新手，正在嘗試創建一個詞袋模型（使用 sklearn 的 CountVectorizer 方法）。我有一個數據框，其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木質”、“木質”等詞。我認為“acid”和“wood”應該是最終 output 中包含的唯一詞，但是詞干提取 ...

Python 詞形還原字符串列表理解中的語法錯誤

[英]Python syntax error in list comprehension on string for Lemmatization

我試圖只對字符串中超過 4 個字母的單詞執行詞形還原。以下代碼中所需的 output 應該是“us american”，但我收到了無效的語法錯誤。 ...