cost 267 ms
如何使用預訓練模型對新數據進行分類 - Python 文本分類(NLTK 和 Scikit)

[英]How to classify new data using a pre-trained model - Python Text Classification (NLTK and Scikit)

我對文本分類非常陌生,我正在嘗試根據一些預定義的主題對由 twitter 評論組成的數據集的每一行進行分類。 我在 Jupyter Notebook 中使用下面的代碼來構建和訓練帶有訓練數據集的模型。 我選擇在帶有 NLTK 和 Scikit 的 Python 中使用有監督的方法,因為無監督的方法 ...

nltk 中的拉普拉斯平滑函數

[英]Laplace smoothing function in nltk

我正在使用nltk.lm.MLE構建文本生成模型,我注意到他們還有nltk.lm.Laplace可以用來平滑數據以避免除以零,文檔是 但是,沒有明確的示例說明如何使用此功能來平滑測試數據。 任何人都可以為我提供一個例子。 ...

使用朴素貝葉斯分類器進行句子分割的nltk.org示例:.sent如何分離句子,並且ML算法如何改進它?

[英]nltk.org example of Sentence segmentation with Naive Bayes Classifier: how does .sent separate sentences and how does the ML algorithm improve it?

nltk.org 書(第6章)中有一個示例,其中他們使用NaiveBayesian算法將標點符號分類為完成句子還是未完成句子... 他們的工作是這樣的:首先,他們采用語料庫,並使用.sent方法獲取句子,並根據它們建立一個索引,以分隔它們的標點符號所在的位置( boundaries )。 ...

當我將(NLTK)停用詞應用於數據框時,它顯示錯誤嗎?

[英]When I applied (NLTK) stop words to a data frame it showing an error?

上面的是帶有列的數據框:評論和標簽當我執行以下代碼時: 結果: ** 實際上,我想將停用詞應用於只有兩列的數據框。 當我用單列(Reviews)執行此代碼時,效果很好,但是當我用兩列(Reviews&Label)執行時,它顯示了一些錯誤。 關於如何使用這兩列處理此 ...

如何批量訓練 NLTK PunktSentenceTokenizer?

[英]How to train NLTK PunktSentenceTokenizer batchwise?

我正在嘗試將財務文件拆分為句子。 我有大約 50.000 個包含純英文文本的文檔。 總文件大小約為 2.6 GB。 我正在將 NLTK 的PunktSentenceTokenizer與標准英語泡菜文件一起使用。 我還通過提供額外的縮寫對其進行了調整,但結果仍然不夠准確。 由於 NLTK Punk ...

如何將情緒分析腳本與聊天機器人集成在一起,以便在同一控制台屏幕上分析用戶的答復?

[英]How to integrate the sentiment analysis script with the chatbot for analysing the user's reply in the same console screen?

我想創建一個使用情感分析器腳本的聊天機器人,以了解我完成聊天機器人的用戶回復的情緒。 現在,我唯一要做的就是使用此腳本使用我創建的聊天機器人來分析用戶的回復。 我應該如何將這個sentiment_analysis.py腳本與chatbot.py文件集成在一起,以分析用戶的情感? ...

Windows Anaconda中的nltk pos_tag錯誤

[英]nltk pos_tag error in windows Anaconda

雖然我希望使用pos_tag函數收集POS標簽,但會發生以下錯誤。我包括了nltk所需的所有軟件包。 nltk版本為3.3,並在conda環境中運行。 python版本是3.6。 每個nltk軟件包都是使用nltk下載功能下載的,但是每次我運行pos_tag函數時,都會引發以下錯誤。 ...

NLTK自定義分類語料庫不讀取文件

[英]NLTK custom categorized corpus not reading files

我創建了自己的語料庫,類似於nltk中的movie_reviews語料庫(由neg | pos歸類)。 在neg和pos文件夾中是txt文件。 碼: 當我嘗試讀取這些文件之一或與之交互時,我無法進行。 例如len(mr.categories())運行,但不返回任何內容: ...

NLTK 保存訓練好的 Brill 模型

[英]NLTK saving trained Brill's model

我正在使用 NLTK 中提供的py-crfsuite訓練 Brill 的 POS 標記器。 但是,當我嘗試保存經過訓練的模型時,出現以下錯誤: 文件“stringsource”,第 2 行,在 pycrfsuite._pycrfsuite.Tagger 中。 reduce_cython T ...

詞匯量大小和嵌入維度之間的首選比例是多少?

[英]What is the preferred ratio between the vocabulary size and embedding dimension?

當使用例如gensim , word2vec或用於訓練嵌入向量的類似方法時,我想知道什么是好的比例或嵌入維度與詞匯量大小之間的優選比率? 此外,隨着更多數據的出現,這又如何變化? 由於我仍然在討論如何在訓練嵌入向量時選擇一個好的窗口大小? 我問這個是因為我沒有使用現實生活中的語言字 ...

是否可以修改和運行部分Python程序而無需一次又一次地運行所有這些程序?

[英]Is it possible to modify and run only part of a Python program without having to run all of it again and again?

我編寫了一個Python代碼,用於從NLTK庫中訓練Brill Tagger大約8000個英語句子並標記大約2000個句子。 Brill Tagger需要花費很多時間來訓練,最后當它完成訓練時,程序的最后一個語句有一些微小的語法錯誤,因此代碼沒有返回輸出。 是否可以將標記器保持在訓練 ...

使用機器學習算法的單詞分類

[英]Word Classification using Machine Learning Algorithm

我是機器學習的新手。 我目前想要的是對某些單詞是否歸類進行分類。 讓我更具體一點,在輸入一些單詞時,我需要檢查這些單詞是否屬於一種稱為“馬拉雅拉姆語”的語言。 示例:enthayi ninakk sugamanno? 這些是一些馬拉雅拉姆語單詞,用英語表達。 在提供這樣的輸 ...

如何處理字符之間有空格的單詞?

[英]How to handle with words which have space between characters?

我在Dari語言中使用nltk.word_tokenize 。 問題是我們在一個單詞之間有空格。 例如, "زنده گی"這個詞意味着生命。 和相同的; 我們還有很多其他的話。 所有以字符"ه"結尾的單詞都必須給它一個空格,否則,它可以組合起來,例如"زندهگی" 。 任何 ...

可以訓練NLTK以檢測句子中的“虛構”名稱嗎?

[英]Possible to train NLTK to detect “made up” names in a sentence?

我最近開始研究使用NLTK進行數據提取。 盡管有一些示例和技術可以檢測“真實”名稱,位置等。我還沒有找到一種有效的方法來檢測“虛構”或“虛構”名稱。 示例字符串為: 他叫wuzzywugg,他養了一只叫fizzbuzz的狗 我想訓練NLTK以便能夠檢測到“ wuzzywugg”和 ...

NLTK朴素貝葉斯分類器培訓問題

[英]NLTK Naive Bayes Classifier Training issues

我正在嘗試訓練分類器中的推文。 但是,問題在於,這表示分類器的准確度為100%,而信息最多的功能列表則什么也不顯示。 有人知道我在做什么錯嗎? 我相信我對分類器的所有輸入都是正確的,所以我不知道它出了什么問題。 這是我正在使用的數據集: http : //thinknook.com/ ...

獲得否定評論的“ pos”測試

[英]Getting a 'pos' test on a negative review

好的,所以我訓練了一個NaiveBayes電影評論分類器...但是,當我對它進行負面評論(來自我復制並粘貼到txt文件的網站)時,我得到了“ pos” ...我在做錯什么嗎? 這是下面的代碼: 更新多次重新運行該程序后,現在可以將我的負面評論准確地歸為負面...有人可以幫助我理解為什么 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM