cost 188 ms
使用歐防風調用 multinomial_naive_bayes

[英]Using parsnip to call multinomial_naive_bayes

我想使用 tidymodels 為 NLP 問題構建工作流程。 我有一個使用naivebayes package 以傳統方式構建的基本流程,它基本上將文檔術語矩陣(每個文檔中出現的術語計數)提供給multinomial_naive_bayes function。 雖然 naivebayes pac ...

WEKA 在名義數據集上的表現

[英]WEKA's performance on nominal dataset

我使用WEKA進行分類。 我使用了WEKA數據文件夾中的乳腺癌數據集。 該數據集是名義數據集。 .arff 文件可以在這個鏈接中找到。 我使用朴素貝葉斯分類器進行了分類。 分類后收到了准確率、准確率、召回率、ROC 等指標的分類報告。 我熟悉SkLearn - python package。我知道 ...

ValueError: y 應該是一個一維數組,取而代之的是一個形狀為 (295, 9) 的數組

[英]ValueError: y should be a 1d array, got an array of shape (295, 9) instead

我有一個關於 Twitter 上的意見的情緒數據集,我處理了這些情緒后 label 我想根據我標記的情緒分享數據。 現在,當我使用 model train_test_split代碼共享它時,當我使用朴素貝葉斯將其與預測階段 model 匹配時,它會工作,出現錯誤值ValueError: y shou ...

由於 ValueError,多項式朴素貝葉斯無法使用驗證數據集,但可以使用 sklearn train_test_split

[英]Multinomial Naive Bayes can't use validation dataset because of ValueError but can use sklearn train_test_split

我正在嘗試制作用於情緒分析的 MNB 分類器。 我有一個由以下結構中的文本和標簽組成的數據集,其中標簽為 1-5。 使用 huggingface 情緒數據集。 我能夠僅使用我的訓練數據集並使用 sklearn 的 train_test_split 函數來做到這一點。 但是當我嘗試用我的數據集做這件 ...

如何創建一個允許至少 2 個不匹配的天真的精確匹配代碼?

[英]How to create a naive exact matching code that allows at least 2 mismatch?

例如,ACTTTA 在 ACTTACTTGATAAAGT 中出現兩次,一次在偏移量 0 處有 2 個不匹配,一次在偏移量 4 處有 1 個不匹配。 所以 naive_2mm('ACTTTA', 'ACTTACTTGATAAAGT') 應該返回列表 |[0, 4]。 我還是個新手。 我已經在這個問題 ...

朴素貝葉斯總是預測相同的 class

[英]Naive Bayes always predicting the same class

我使用朴素貝葉斯將我的觀察分為 3 類:S1、S2 和 S3,具體取決於變量 SC_3ans 的值。 但是,它似乎總是將它們歸類為 S1,而不是 S2,它應該這樣做。 正如您在混淆矩陣中看到的那樣,S2 中已對 0 個觀測值進行了分類。 我試圖改變測試集的大小,它沒有改變任何東西。 我怎樣才能解決 ...

導致錯誤的原因:朴素貝葉斯分類器 (129):朴素貝葉斯分類:錯誤:'nresponse' 是 Alteryx 中的空字符串

[英]What causes the Error: Naive Bayes Classifier (129): Naive Bayes Classification: Error: 'nresponse' is an empty string in Alteryx

我正在嘗試在 Alteryx 中構建一個朴素貝葉斯分類器,並試圖通過大約 7,500 條記錄,但是每當我運行工作流時,我都會收到錯誤:朴素貝葉斯分類器 (129):朴素貝葉斯分類:錯誤:'nresponse' 是一個空字符串. 每當我將記錄數減少到大約 200 條時,它都會很好地運行工作流程並且不會 ...

在訓練機器學習模型進行垃圾郵件檢測時出現索引錯誤

[英]Getting an index error while training machine learning model for spam detection

我正在從頭開始使用朴素貝葉斯創建垃圾郵件檢測 ML 模型,為此我需要所有類的可能性(或 P(特征|非垃圾郵件))。 為此,我創建了一個函數: 然后我使用以下調用實現了這個函數: 但我似乎收到了這個錯誤: ...

如何在使用 TfidfVectorizer 時擺脫 url

[英]How to get rid of urls while using TfidfVectorizer

我正在使用TfidfVectorizer來提取我的樣本的特征,所有文本。 但是,在我的示例中,有很多 url,因此http和https成為重要的功能。 這也會導致后來我的朴素貝葉斯模型的預測不准確。 我得到的功能如下。 如您所見, https具有很高的價值。 當我使用 TfIDF 提取關鍵詞時 ...

某個單詞的 KeyError

[英]KeyError on a certain word

我正在嘗試使用朴素貝葉斯進行垃圾郵件分類。 我在這里反復收到一個單詞錯誤: 錯誤信息就是這樣的: 'hafta' 是 pandas 數據框和訓練數據集的第一個單詞。 我嘗試了這個問題的解決方案,看起來與我的相似,但沒有成功。 我會很感激任何提示來解決這個問題,謝謝。 ...

NaiveBayesClassifier 值太多無法解包錯誤

[英]NaiveBayesClassifier too many values to unpack error

我正在嘗試建立一個情緒分析模型來檢查一些新聞文章,但我在建立我的模型時有點難過。 我不太確定除了將數據集制作成字典之外,我還需要做什么來構建我的數據集。 我使用的數據集來自這個線程: https ://forum.knime.com/t/mpqa-corpus/7887/2 ...

關於訓練和測試數據中缺失值的機器學習問題

[英]Machine Learning Question on missing values in training and test data

我正在訓練一個用於二進制分類的文本分類器。 在我的訓練數據中,文本部分的 .csv 文件中有空值,我的測試文件中也有空值。 我已將兩個文件都轉換為數據框(熊貓)。 這是整體數據的一小部分(小於 0.01)。 知道這一點 - 用空字符串替換空文本字段還是將其保留為空更好? 如果答案是用空字符串替換, ...

在朴素貝葉斯中應用交叉驗證

[英]Applying Cross validation in Naive bayes

我的數據集是垃圾郵件和火腿菲律賓消息 我將我的數據集分為 60% 的訓練、20% 的測試和 20% 的驗證 將數據拆分為測試、訓練和驗證 從 sklearn 訓練 MultinomialNB 評估模型 我的問題在於驗證。 錯誤說 這就是我對驗證進行編碼的方式,不知道我是否做對了” ...

R 中的朴素貝葉斯概率

[英]Naive Bayes Probabilities in R

所以這是我的情況:我有以下數據集,我嘗試找到一個人 x 是 Sex=f、Weight=l、Height=t 和 Long Hair=y 的條件概率。 當我手工計算時,概率是 0.0333。 但是當我嘗試從 R 預測它時,我得到了一個不同的數字。 有沒有辦法找到我親手得到的那個? ...

具有多種特征的 Sklearn 朴素貝葉斯

[英]Sklearn Naive Bayes with multiple features

背景我正在努力在python中使用跨多個功能的sklearn實現朴素貝葉斯分類器。 我擁有的特點是: 標題 - 一些簡短的文字說明 - 一些較長的文字時間戳 - 代表一天中的一個小時的浮點數(例如 18.0 = 6:00PM,11.5 = 11:30AM) 標簽/類別是分類字符串:例如“Class1 ...

Py4JJavaError:調用 o735.fit 時出錯

[英]Py4JJavaError: An error occurred while calling o735.fit

我試圖在 Pyspark 中擬合朴素貝葉斯分類器,但每當我嘗試運行我的代碼時,我都會收到以下錯誤: Py4JJavaError:調用 o735.fit 時出錯。 :org.apache.spark.SparkException:作業因階段失敗而中止:階段 110.0 中的任務 0 失敗 1 次, ...

在字符串列表上迭代朴素貝葉斯分類器

[英]Iterate Naive Bayes classifier over a list of strings

這是一個 NLP 問題,希望有人能幫助我。 專門嘗試進行情緒分析。 我有一個朴素貝葉斯分類器,該分類器已根據著名的推文數據集進行訓練,這些推文被標記為正面或負面: 使用這個 model,我想遍歷測試數據列表並增加每個標記的計數,無論它被分類為正面還是負面。 測試數據是一個字符串列表,取自文本消息數據 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM