![](/img/trans.png)
[英]Lemmatization taking forever with Spacy
我正在嘗試使用 spacy 對 dataframe 中的聊天記錄進行詞形還原。 我的代碼是: 我有大約 600.000 行,應用需要兩個多小時才能執行。 是否有更快的包/方式來進行詞形還原? (我需要一個適用於西班牙語的解決方案) 我只嘗試過使用 spacy package ...
[英]Lemmatization taking forever with Spacy
我正在嘗試使用 spacy 對 dataframe 中的聊天記錄進行詞形還原。 我的代碼是: 我有大約 600.000 行,應用需要兩個多小時才能執行。 是否有更快的包/方式來進行詞形還原? (我需要一個適用於西班牙語的解決方案) 我只嘗試過使用 spacy package ...
[英]How to start a python lemmatizer for Malay language with a dataset?
我有一個數據集,我想執行馬來語詞形還原器。 可以指導我如何做這個項目嗎? 為馬來語創建詞形還原器的代碼是什么。 它還可以允許用戶輸入單詞並確定輸入單詞的詞條。 ...
[英]Lemmatize a list of tokens in dataframe
我正在嘗試對包含每個單元格中的標記列表的列進行詞形還原。 我為此使用以下代碼。 任何人都可以建議應該進行哪些更改以獲得預期的輸出? 從 nltk.stem 導入 WordNetLemmatizer wordnet_lem = WordNetLemmatizer() df['lemmatized_ ...
[英]Python: Can I create a dummy based on search conditions in one column with text series?
我想知道如何為以下條件創建一個虛擬變量:“lemmatised”列至少包含來自“innovation_words”的兩個詞。 Innovation_words 是我自己定義的一個列表: 詞形還原列看起來像這樣(如果需要,我可以更改類型或格式): 用於條件的數據因此,如果任何觀察包括例如local ...
[英]NLP - Worse result when adding stemming or lemmitization for Sentiment Analysis
我正在嘗試為 IMDB 評論的較小子集(僅 2k pos,2k neg)創建完整的情感分析結果管道,因此我嘗試在每個階段顯示結果即沒有任何預處理,然后進行基本清理(刪除特殊符號、停用詞、小寫字母),然后在基本清理之上(分別)測試詞干提取和詞形還原。 基本清潔后,我從 50%(只有二元分類才有意義)跳 ...
[英]lemmatizing verbs in SVOs
我看過建議的類似問題,我認為這個問題有足夠的特異性,值得被問到,但如果有人能指出一個已經回答的問題來解決我的問題,我完全沒問題。 我有一個文本語料庫,我將其呈現為(textacy)SVO,然后保存到數據框,結果發現如果有問題的動詞被詞形還原會更好,這樣“talk”、“talked”、“ was ta ...
[英]Why does the nltk lemmatizer not work for every word in Python?
第一個例子將與“goes”一起工作。 output 是:“走”。 第二個不起作用。 我得到 output“正在轉型”,但應該是“轉型”。 ...
[英]do not run lemmatize of nltk package
您好,我有一個用於對 python 中的字符串進行詞形還原的代碼。代碼如下 但是當它編譯和運行時發生了一些錯誤錯誤是: 我已經使用以下命令安裝了 NLTK package 我該如何解決? 我希望 function 能正常工作 ...
[英]nltk.lemmatizer doesn't work for even a simple input text
抱歉,我是 NLP 的新手,我正在嘗試將 NLTK Lemmatizer 應用於整個輸入文本,但它似乎不適用於一個簡單的句子。 ...
[英]Special Case Lemmatization ValueError while Using spacy for NLP
對 NLP 使用 spacy 時的特殊情況 Lemmatization ValueError 問題(我認為正在發生的事情) 在探索特殊情況的詞形還原時,我遇到了 ValueError(如下所示)。 我實際上想修改文本,將“Friso”更改為“San Francisco”。 有誰看到我在這里做錯了什 ...
[英]Trouble with applying a UDF on a column in Pyspark Dataframe
我的目標是清理 Pyspark DF 中列中的數據。 我寫了一個 function 來清洗。 當我測試它時,這些功能似乎工作正常。 當我做 我看到了我想要的確切結果。 但是,當我嘗試將此 function finalpreprocess() 應用於 pyspark dataframe 中的列時。 我 ...
[英]Is there an easier way to do custom lemmatization?
我有兩列的 dataframe。 第一個 ["lemm"] 如果出現要更改的單詞。 第二個[“word”],將它們更改為什么。 我是新手,所以我花了很多時間編寫我認為草率的代碼,因為它遍歷 df 並且速度很慢。 但是,我只是想知道是否有更好的方法來為我自己的學習做這件事。 lemm 是具有兩列的 ...
[英]While lemmatizing the corpus and splitting and joining it , it shows Word List Corpus Reader not callable error
我得到錯誤的代碼如下: 我無法找到 Word List Corpus Reader 是什么並且不知道如何使用它,只是使用教程看到了這個。 請告訴正確的語法,我該如何解決這個錯誤? ...
[英]ModuleNotFoundError in spacy version 3.3.1 tried previous mentioned solution not working
輸出應該是輕笑。 使用版本 3.1.1 ...
[英]How to create a dictionnary whose key:value pairs are the values of two different lists of dictionnaries?
我有 2 個由 pymongo 提取產生的字典列表。 包含 id(字符串)和引理(字符串)的字典列表: lemmas = [{'id': 'id1', 'lemma': 'lemma1'}, {'id': 'id2', 'lemma': 'lemma2'}, {'id': 'id3', 'l ...
[英]Faster Python Lemmatization
我一直在測試不同的詞形還原方法,因為它將用於非常大的語料庫。 下面是我的方法和結果。 有沒有人有任何技巧可以加快這些方法的速度? Spacy 是最快的,包含詞性標簽(首選),其次是 lemminflect。 我會以錯誤的方式解決這個問題嗎? 這些功能正在通過 pandas.apply() 應用於包 ...
[英]lemmatizing a verb list in a data frame in Python
我想向 Python 奇才提出一個看似簡單的問題(我是一個新手,所以不知道這個問題有多簡單/復雜)! 我在數據框中有一個動詞列表,如下所示: 身份動詞 15 相信 64開始 90 相信 我想對其進行詞形還原。 問題是大多數詞形還原都帶有句子字符串。 我的數據沒有提供確定其詞性的上下文,因為我只需 ...
[英]Does WordNet have Levels?
我正在閱讀一篇說要使用 WordNet 3 級的論文,因為如果他使用 5 級會丟失很多,但我看不出如何使用這些假定的級別。 我沒有他的代碼,所以我不能分享它們,但我可以分享論文。 你們能幫我弄清楚這是否可能以及如何做到這一點? 在此處輸入鏈接描述第 16 頁 “在選擇對名詞進行分組的概念級別時,我 ...
[英]Neither stemmer nor lemmatizer seem to work very well, what should I do?
我是文本分析的新手,正在嘗試創建一個詞袋模型(使用 sklearn 的 CountVectorizer 方法)。 我有一個數據框,其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木質”、“木質”等詞。 我認為“acid”和“wood”應該是最終 output 中包含的唯一詞,但是詞干提取 ...
[英]Python syntax error in list comprehension on string for Lemmatization
我試圖只對字符串中超過 4 個字母的單詞執行詞形還原。 以下代碼中所需的 output 應該是“us american”,但我收到了無效的語法錯誤。 ...