標簽[stemming] - 堆棧內存溢出

[英]NLP - Worse result when adding stemming or lemmitization for Sentiment Analysis

我正在嘗試為 IMDB 評論的較小子集（僅 2k pos，2k neg）創建完整的情感分析結果管道，因此我嘗試在每個階段顯示結果即沒有任何預處理，然后進行基本清理（刪除特殊符號、停用詞、小寫字母），然后在基本清理之上（分別）測試詞干提取和詞形還原。基本清潔后，我從 50%（只有二元分類才有意義）跳 ...

NLP 源於瀏覽器中的 JavaScript 和 PHP 頁面

[英]NLP stemming with JavaScript and PHP pages in the browser

我試圖找出如何在瀏覽器中對 JavaScript 和 PHP 頁面實施和使用詞干提取結果。通過在 VS Code 終端中使用node index.js ，我使用natural得到了 output word ：使用NLP.js庫：它們是Node.js個庫，我使用require在 Chrome 瀏 ...

如何執行詞干提取並以原始評論格式放回單詞？

[英]How to perform stemming and put back the words in the orginal review format?

我有一個數據集，其中一列是full_text ，其中包含來自在線網站的評論文本。我想通過刪除停用詞和詞干並將它們恢復到原始格式來清理這些評論（讓所有詞干詞形成一個句子，即：每條評論一行而不是每行 1 個詞干詞。）我正在嘗試以下操作：但是，這個新列stemmed_Description看起 ...

stemmer 和 lemmatizer 似乎都不太好用，我該怎么辦？

[英]Neither stemmer nor lemmatizer seem to work very well, what should I do?

我是文本分析的新手，正在嘗試創建一個詞袋模型（使用 sklearn 的 CountVectorizer 方法）。我有一個數據框，其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木質”、“木質”等詞。我認為“acid”和“wood”應該是最終 output 中包含的唯一詞，但是詞干提取 ...

彈性：在搜索期間將符號和 html 編碼符號視為相同

[英]Elastic: Treat symbol and html encoded symbol the same during search

我的目標是在按符號或 html 編碼版本搜索時返回相同的結果。示例查詢：我嘗試了幾種不同的方法。添加同義詞但它們仍然產生不同的結果。創建了一個 char_filter 來替換特殊字符，這樣他們至少會搜索“Hello”。但這帶來了自己的一系列問題，這些問題超出了我想要實現的 scope。我 ...

你應該去詞干和詞形還原嗎？

[英]Should you Stem and lemmatize?

我目前正在使用 python NLTK 為Kaggle SMS Spam Classification Dataset預處理文本數據。我在預處理過程中完成了以下步驟：刪除了任何多余的空格刪除標點符號和特殊字符將文本轉換為小寫將 lol、brb 等縮寫替換為其含義或完整形式。刪除停用詞標記數據 ...

為什么我的 output 以條帶格式返回並且不能在 Python 中進行詞形還原/詞干化？

[英]Why my output return in a strip-format and cannot be lemmatized/stemmed in Python?

第一步是使用 NLTK 對來自 dataframe 的文本進行標記。然后，我使用 TextBlob 創建拼寫更正。為此，我將 output 從元組轉換為字符串。之后，我需要詞形還原/詞干（使用 NLTK）。問題是我的 output 以條帶格式返回。因此，它不能被詞形還原/詞干。生成的 ...

在 ElasticSearch 中搜索以 's' 'y' 'e' 結尾的單詞不起作用

[英]Search is not working in ElasticSearch for words ending with 's' 'y' 'e'

如果搜索字符串和目標 object 最后有任何以下字符則不起作用。賽在我們的應用程序中，如果用戶的名字是 Grann y , Smith。它沒有搜索 Granny 的任何記錄，因為它以y結尾。 s 和 eie James, Katie 的情況也是如此。 ...

嘗試使用正則表達式將復數單詞轉換為單數單詞但想忽略一些單詞

[英]Trying to convert plural words to singular words using regex but want to ignore a few words

我目前正在嘗試替換一些復數詞，例如從“birds”中刪除“s”並將其替換為 bigquery 中的“bird” 但我希望他們忽略一些詞，例如“less”、“james”、“this”。我能夠想出這個忽略“更少”但仍然是屠夫詹姆斯的方法。我得到的 output 是“詹姆斯喜歡追鳥”，但我期待的是“ ...

在列表中提取詞干（Python NLTK）

[英]Stemming words in a list (Python NLTK)

我覺得我在這里做了一些非常愚蠢的事情，我試圖阻止列表中的單詞，但這並沒有給我預期的結果，我的代碼是：我得到的輸出是與我覺得我對我的清單做了一些非常愚蠢的事情，但有人能告訴我我做錯了什么嗎？ ...

如何通過詞干嵌套列表中的單詞來獲取嵌套列表？

[英]How to get a nested list by stemming the words inside the nested lists?

我有一個 Python 列表，其中有幾個子列表，其中包含令牌作為tokens 。我想阻止其中的令牌，以便 output 將成為stemmed_expected 。我嘗試的for循環如下：但是這個for循環的output是：如何修改 for 循環以獲取子列表中的詞干，就像它在stemmed_ ...

AttributeError: 'list' object 在 jupyter notebook 中沒有屬性 'lower'

[英]AttributeError: 'list' object has no attribute 'lower' in jupyter notebook

我正在使用朴素貝葉斯和 SVM 進行文本分類。我的數據集來自提取的關於 COVID 的常見問題解答我正在嘗試將所有文本更改為小寫。這是必需的，因為 python 對“dog”和“DOG”的解釋不同：Corpus['Question'] = [entry.lower() for entry in ...

Lucene Porter Stemmer - 獲取原始的非詞干詞

[英]Lucene Porter Stemmer - get original unstemmed word

我已經研究出如何使用 Lucene 的 Porter Stemmer，但還想檢索原始的、未詞干的詞。因此，為此，我在創建 PorterStemFilter 之前向 TokenStream 添加了 CharTermAttribute，如下所示：不幸的是，這兩個屬性都返回詞干。有沒有辦法獲得原 ...

在詞干后找到單詞的原始形式

[英]Finding the original form of a word after stemming

我正在生成一個單詞列表並從中制作一個數據框。原始數據如下：我用於詞形還原和詞干提取的功能是：輸出將來自運行df['text'].map(preprocess)[0] ，我得到：我想知道如何將輸出返回到原始令牌？例如，我已經死了，它來自死了又死了。 ...

在 Python 中對整個數據集使用 Simplemma

[英]Use Simplemma on whole dataset in Python

我想在我的數據集上使用 simplemma。我知道腳本如何處理單獨的單詞：但是如何更改此腳本以使其適用於我的數據集 df 中的完整列 ['Text']？該列中的每一行都包含多個單詞。我制作了以下腳本：但是當我運行腳本時出現此錯誤：類型錯誤：預期的字符串或類似字節的對象。我 ...

如何使用波特斯特默

[英]How to use porterstemmer

我有一個包含餐廳評論的數據集。我已經處理了我的數據，這就是我的數據集的樣子（0 和 1 顯示它是正面評價還是負面評價）：簡而言之，我想使用 PorterStemmer，這就是我學習使用它的方式：我研究過使用 porterstemmer 進行詞干提取，但它沒有用。任何詞都沒有詞干（例如 ...

使用詞干清理數據后如何獲取單詞列表

[英]how to get a list of words after cleaning the data with stemming

目前，我只有一排。我怎樣才能得到所有的話？目前，我有一列單詞。詞干分析器中的問題。它只給出一行而不是所有單詞。我的目的是清理數據並打印所有以逗號分隔的單詞。輸入： df[tag] 列中每一行的word1,word2,word3,word4,word5 輸出將是一個長列表，其中包含所 ...

對 df 列進行詞形還原

[英]Lemmatize df column

我正在嘗試對 df 中的內容進行詞形還原，但我編寫的 function 不起作用。在嘗試對列中的數據進行詞形還原之前，它看起來像這樣。然后我運行了以下代碼：現在內容欄看起來像這樣：我不確定我做錯了什么，但我只是想對內容列中的數據進行詞形還原。任何幫助將不勝感激。 ...

搬運工詞干：python 中的詞干提取不起作用

[英]porter-stemmer: Stemming in python is not working

我正在嘗試使用以下代碼將詞干分析器應用於數據，但它保留了原始數據：代碼運行良好，但沒有產生我的預期結果，即： ...

Elasticsearch 西班牙語詞干不適用於“rojo”顏色

[英]Elasticsearch Spanish stemming not working with “rojo” color

我對 ElasticSearch 相當陌生。我正在嘗試分析西班牙語的輸入，但顏色“rojo”（西班牙語為紅色）似乎存在問題。根據詞干演示，字符串“Polera color rojo”（紅色襯衫）應詞干為“poler color roj”，“Polera roja”（紅色襯衫）應為“poler r ...