cost 391 ms
與 Spacy 一起永遠進行詞形還原

[英]Lemmatization taking forever with Spacy

我正在嘗試使用 spacy 對 dataframe 中的聊天記錄進行詞形還原。 我的代碼是: 我有大約 600.000 行,應用需要兩個多小時才能執行。 是否有更快的包/方式來進行詞形還原? (我需要一個適用於西班牙語的解決方案) 我只嘗試過使用 spacy package ...

如何使用數據集啟動馬來語的 python 詞形還原器?

[英]How to start a python lemmatizer for Malay language with a dataset?

我有一個數據集,我想執行馬來語詞形還原器。 可以指導我如何做這個項目嗎? 為馬來語創建詞形還原器的代碼是什么。 它還可以允許用戶輸入單詞並確定輸入單詞的詞條。 ...

對數據框中的標記列表進行詞形還原

[英]Lemmatize a list of tokens in dataframe

我正在嘗試對包含每個單元格中的標記列表的列進行詞形還原。 我為此使用以下代碼。 任何人都可以建議應該進行哪些更改以獲得預期的輸出? 從 nltk.stem 導入 WordNetLemmatizer wordnet_lem = WordNetLemmatizer() df['lemmatized_ ...

Python:我可以根據文本系列的一列中的搜索條件創建一個虛擬對象嗎?

[英]Python: Can I create a dummy based on search conditions in one column with text series?

我想知道如何為以下條件創建一個虛擬變量:“lemmatised”列至少包含來自“innovation_words”的兩個詞。 Innovation_words 是我自己定義的一個列表: 詞形還原列看起來像這樣(如果需要,我可以更改類型或格式): 用於條件的數據因此,如果任何觀察包括例如local ...

NLP - 為情感分析添加詞干提取或詞根化時結果更差

[英]NLP - Worse result when adding stemming or lemmitization for Sentiment Analysis

我正在嘗試為 IMDB 評論的較小子集(僅 2k pos,2k neg)創建完整的情感分析結果管道,因此我嘗試在每個階段顯示結果即沒有任何預處理,然后進行基本清理(刪除特殊符號、停用詞、小寫字母),然后在基本清理之上(分別)測試詞干提取和詞形還原。 基本清潔后,我從 50%(只有二元分類才有意義)跳 ...

SVO 中的詞形還原動詞

[英]lemmatizing verbs in SVOs

我看過建議的類似問題,我認為這個問題有足夠的特異性,值得被問到,但如果有人能指出一個已經回答的問題來解決我的問題,我完全沒問題。 我有一個文本語料庫,我將其呈現為(textacy)SVO,然后保存到數據框,結果發現如果有問題的動詞被詞形還原會更好,這樣“talk”、“talked”、“ was ta ...

不要運行 nltk package 的詞形還原

[英]do not run lemmatize of nltk package

您好,我有一個用於對 python 中的字符串進行詞形還原的代碼。代碼如下 但是當它編譯和運行時發生了一些錯誤錯誤是: 我已經使用以下命令安裝了 NLTK package 我該如何解決? 我希望 function 能正常工作 ...

對 NLP 使用 spacy 時的特殊情況 Lemmatization ValueError

[英]Special Case Lemmatization ValueError while Using spacy for NLP

對 NLP 使用 spacy 時的特殊情況 Lemmatization ValueError 問題(我認為正在發生的事情) 在探索特殊情況的詞形還原時,我遇到了 ValueError(如下所示)。 我實際上想修改文本,將“Friso”更改為“San Francisco”。 有誰看到我在這里做錯了什 ...

在 Pyspark Dataframe 的列上應用 UDF 時出現問題

[英]Trouble with applying a UDF on a column in Pyspark Dataframe

我的目標是清理 Pyspark DF 中列中的數據。 我寫了一個 function 來清洗。 當我測試它時,這些功能似乎工作正常。 當我做 我看到了我想要的確切結果。 但是,當我嘗試將此 function finalpreprocess() 應用於 pyspark dataframe 中的列時。 我 ...

有沒有更簡單的方法來進行自定義詞形還原?

[英]Is there an easier way to do custom lemmatization?

我有兩列的 dataframe。 第一個 ["lemm"] 如果出現要更改的單詞。 第二個[“word”],將它們更改為什么。 我是新手,所以我花了很多時間編寫我認為草率的代碼,因為它遍歷 df 並且速度很慢。 但是,我只是想知道是否有更好的方法來為我自己的學習做這件事。 lemm 是具有兩列的 ...

在對語料庫進行詞形還原並拆分和加入時,它顯示 Word List Corpus Reader not callable 錯誤

[英]While lemmatizing the corpus and splitting and joining it , it shows Word List Corpus Reader not callable error

我得到錯誤的代碼如下: 我無法找到 Word List Corpus Reader 是什么並且不知道如何使用它,只是使用教程看到了這個。 請告訴正確的語法,我該如何解決這個錯誤? ...

如何創建一個字典,其鍵:值對是兩個不同字典列表的值?

[英]How to create a dictionnary whose key:value pairs are the values of two different lists of dictionnaries?

我有 2 個由 py​​mongo 提取產生的字典列表。 包含 id(字符串)和引理(字符串)的字典列表: lemmas = [{'id': 'id1', 'lemma': 'lemma1'}, {'id': 'id2', 'lemma': 'lemma2'}, {'id': 'id3', 'l ...

更快的 Python 詞形還原

[英]Faster Python Lemmatization

我一直在測試不同的詞形還原方法,因為它將用於非常大的語料庫。 下面是我的方法和結果。 有沒有人有任何技巧可以加快這些方法的速度? Spacy 是最快的,包含詞性標簽(首選),其次是 lemminflect。 我會以錯誤的方式解決這個問題嗎? 這些功能正在通過 pandas.apply() 應用於包 ...

在 Python 中對數據框中的動詞列表進行詞形還原

[英]lemmatizing a verb list in a data frame in Python

我想向 Python 奇才提出一個看似簡單的問題(我是一個新手,所以不知道這個問題有多簡單/復雜)! 我在數據框中有一個動詞列表,如下所示: 身份動詞 15 相信 64開始 90 相信 我想對其進行詞形還原。 問題是大多數詞形還原都帶有句子字符串。 我的數據沒有提供確定其詞性的上下文,因為我只需 ...

WordNet 有級別嗎?

[英]Does WordNet have Levels?

我正在閱讀一篇說要使用 WordNet 3 級的論文,因為如果他使用 5 級會丟失很多,但我看不出如何使用這些假定的級別。 我沒有他的代碼,所以我不能分享它們,但我可以分享論文。 你們能幫我弄清楚這是否可能以及如何做到這一點? 在此處輸入鏈接描述第 16 頁 “在選擇對名詞進行分組的概念級別時,我 ...

stemmer 和 lemmatizer 似乎都不太好用,我該怎么辦?

[英]Neither stemmer nor lemmatizer seem to work very well, what should I do?

我是文本分析的新手,正在嘗試創建一個詞袋模型(使用 sklearn 的 CountVectorizer 方法)。 我有一個數據框,其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木質”、“木質”等詞。 我認為“acid”和“wood”應該是最終 output 中包含的唯一詞,但是詞干提取 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM