標簽[countvectorizer] - 堆棧內存溢出

[英]why smote raise "Found input variables with inconsistent numbers of samples"?

我嘗試使用 4401 條推文的數據集對推文中的情緒進行分類，當我使用較小的數據樣本（大約 15 條推文）時一切正常，但是當我使用完整的數據集時它會引發錯誤當我在使用 countvectorizer 轉換數據后嘗試使用 smote 對數據進行過采樣時發生錯誤。這是引發錯誤的代碼我不明白為什么會 ...

自定義分詞器在 countvectorizer sklearn 中不起作用

[英]Custom tokenizer not working in countvectorizer sklearn

我正在嘗試使用自定義分詞器 function 制作一個 Countvectorizer。我遇到了一個奇怪的問題。在下面的代碼中，temp_tok 是一個包含 5 個值的列表，稍后用作詞匯表。兩個函數的文本 output 相同，即但是當我用這些分詞器構建矢量化器時，它為 tokenize2 提供 ...

使用 char_wb 在 sklearn Countvectorizer 中刪除帶有空格的特征

[英]Remove features with whitespace in sklearn Countvectorizer with char_wb

我正在嘗試使用 sklearn 的 CountVectorizer 構建 char 級 ngram。使用analyzer='char_wb'時，vocab 具有周圍有空格的特征。我想排除帶有空格的特征/單詞。上面代碼中的詞匯是我嘗試過使用其他分析器，例如 word 和 char。這些都沒有 ...

保留通過 sklearn 的 CountVectorizer() 傳遞的參數的原始文檔元素索引，以便訪問相應的詞性標記

[英]Retain original document element index of argument passed through sklearn's CountVectorizer() in order to access corresponding part of speech tag

我有一個帶有句子的數據框和每個單詞的相應詞性標記（下面是我正在使用的數據的摘錄（數據來自SNLI語料庫）。對於我收藏的每個句子，我想提取 unigrams以及該詞的相應后置標簽。例如，如果我有以下內容：然后我會得到以下 unigrams output：但我不知道如何在這之后保留詞性標簽。我嘗 ...

你如何獲得 tfidf.get_feature_names_out() 生成的術語的頻率

[英]how do you get the frequency of the terms generated by tfidf.get_feature_names_out()

使用 tfidf 擬合后，我正在查看生成的特征：但我也想獲得每個術語的頻率 ...

如何為矢量化數據框創建逐行 CSV？

[英]How to create row wise CSV for vectorized dataframe?

我要做的基本上是從日志文件的已處理文件中提取關鍵字並創建這些關鍵字的矢量化數據框。但是當我將該數據框寫入 CSV 時，單詞在列中，它們各自的值在第二行中。雖然I want the words to be in rows and their value in second column. 試用. ...

如何分組並獲得最頻繁的ngram？

[英]How to group-by and get most frequent ngram?

我的 dataframe 看起來像這樣：我想按主題分組並使用計數矢量化器（我真的更喜歡使用計數矢量化，因為它允許刪除多種語言中的停用詞，我可以設置 3、4 克的范圍）來計算最常見的二元組。在我得到最頻繁的二元組之后，我想創建一個名為“二元組”的新列，並將每個主題最頻繁的二元組分配給該列。我希 ...

如何矢量化單詞列表？

[英]How can I vectorize a list of words?

我正在處理 SMS 數據，我的一列數據框中有一個單詞列表，我想訓練一個分類器來預測它的類型和子類型。我如何將單詞轉換為列表中的數字格式。 ...

使用 PySpark CountVectorizer 獲取 topN 關鍵字

[英]Get topN keywords with PySpark CountVectorizer

我想使用pyspark.ml.feature.CountVectorizer提取關鍵字。我的輸入 Spark 數據框如下所示： ID 文本 1 太陽, 火星, 太陽系, 太陽系, 火星, 太陽系, 金星, 太 ...

sklearn countvectroizer：結果被打亂

[英]sklearn countvectroizer : results are shuffled

在這里我在一些文本上使用 countvectorizer。結果是計數與單詞不匹配，例如在索引 0 中，“rock”應該有 3 個計數，而不是它顯示 2，“here”有 3 個“rock”應該有的計數。問題是什么？謝謝。 ...

stemmer 和 lemmatizer 似乎都不太好用，我該怎么辦？

[英]Neither stemmer nor lemmatizer seem to work very well, what should I do?

我是文本分析的新手，正在嘗試創建一個詞袋模型（使用 sklearn 的 CountVectorizer 方法）。我有一個數據框，其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木質”、“木質”等詞。我認為“acid”和“wood”應該是最終 output 中包含的唯一詞，但是詞干提取 ...

Numpy - arrays 數組識別為矢量

[英]Numpy - array of arrays recognize as vector

我遇到了 numpy arrays 的問題。我使用sklearn中的 CountVectorizer 和一個詞集和值（來自 pandas 列）來創建一個 arrays 的數組來計算單詞（BoW）。當我打印數組和形狀時，我得到了這個結果：具有矢量形狀的 arrays 數組？？？我檢查了所有行的大 ...

CountVectorizer().fit_transform() 是否保留輸入順序？

[英]Does CountVectorizer().fit_transform() preserve order of input?

我想知道，當我使用CountVectorizer().fit_transform()時，output 是否保留了輸入的順序。我的輸入是一份文件清單。我知道 output 在長度方面與輸入匹配，但我不確定它們的排序方式是否相同。我知道我可能沒有很好地解釋它，所以這里有一個例子。說如果我有： ...

Python CountVectorizer()：為什么我們必須將 CountVectorizer() 分配給變量才能使其工作？

[英]Python CountVectorizer(): why do we have to assign CountVectorizer() to a variable in order for this to work?

我從 SKLearn 網站上拿了這個例子。這是初始代碼：我現在很困惑。如果它們完全相同，為什么我們必須為CountVectorizer()分配一個variable ？ ...

PySpark: Can't pickle CountVectorizerModel - TypeError: Cannot serialize socket object （但為什么要使用套接字庫？）

[英]PySpark: Can't pickle CountVectorizerModel - TypeError: Cannot serialize socket object (but why is the socket library being used?)

我注意到，與 Sci-kit learn 不同，CountVectorizer 的 PySpark 實現使用套接字庫，因此我無法對其進行 pickle。有沒有辦法解決這個問題或其他方法來持久化矢量化器？我需要向量化的 model，因為我輸入了要轉換為與測試數據中使用的詞向量相同類型的詞向量的輸 ...

ValueError：X 有 5 個特征，但 RandomForestClassifier 期望 2607 個特征作為輸入

[英]ValueError: X has 5 features, but RandomForestClassifier is expecting 2607 features as input

這就是我將文本轉換為計數向量的方式。這是用於預測的 model。這就是我如何使用實時細節來預測我現在使用 MODEL 進行預測。我得到的錯誤使用測試集時它工作正常，確實得到了 OUTPUT。但不是當我使用上述輸入單個輸入來檢查 OUTPUT ...

從一堆 n 個向量中，得到所有相互正交的向量

[英]From a bunch of n vectors, get all vectors which are mutually orthogonal

原始問題 - 上下文：NLP - 從n 個字符串的列表中，選擇所有沒有常用詞的字符串（不考慮預定義的停用詞列表中的詞）我嘗試過的方法：使用 sklearn 的計數向量化器，獲取每個字符串的向量並計算每個向量與其他向量的點積。那些具有零點積的向量將被添加到一個集合中。這是使用 O(n 2 ) 點 ...

我的朴素貝葉斯分類器適用於我的 model，但在我的應用程序中不接受用戶輸入

[英]My Naive Bayes classifier works for my model but will not accept user input on my application

我正在嘗試將我的機器學習朴素貝葉斯情感分析 model 部署到 web 應用程序上。這個想法是用戶應該鍵入一些文本，應用程序對其執行情感分析，然后將具有分配情感的文本存儲在數據庫中的另一列中，稍后通過 html 作為列表調用。雖然 model 和矢量化器在 Google Colab 上運行良好， ...

CountVectorizer 不處理我的文本數據。它不斷給我 AttributeError: 'list' object has no attribute 'lower'

[英]CountVectorizer does not process my text data. It keep giving me AttributeError: 'list' object has no attribute 'lower'

I have created process_textData function that takes in a pandas DataFrame column of text, then performs the following: 1. Convert text to lower case ...

將計數矢量化結果插入 dataframe 時出現問題

[英]Issue while inserting count vectorizer results to the dataframe

I have a dataframe with shape (4237, 19) and then other dataframe with the shape (4237, 6) , I need to combine both these dataframes column wise, so ...