標簽[nltk] - 堆棧內存溢出

[英]nltk.download('wordnet') in Dataproc

當我在 Dataproc 中運行以下腳本時 nltk_data 僅在主節點中下載，而不會在工作節點中下載。因此在 dataproc 中提交 PySpark 作業時無法從工作節點讀取。你有什么建議？如何也可以在工作節點中下載 nltk_data？ ...

當值是列表時對字典的值進行操作

[英]operate over values of a dictionary when values are lists

假設我有以下字典：我想 go 通過每個鍵，然后是值的元素並刪除停用詞，所以我這樣做：但這會返回與我原來的字典完全相同的字典。我想知道我做錯了什么？ ...

如何從文本中提取形容詞或名詞？

[英]How to pick up adjectives or nouns out of a text?

例如像：所以我希望得到這樣的 2 個列表：我看到有人提到 NLTK，但我沒有使用過 package，所以我希望得到一些說明。 ...

nltk.download('punkt') 給出 output 為假

[英]nltk.download('punkt') giving output as false

當我嘗試安裝 nltk 並使用 nltk.download('punkt') 下載文件 punket 時。我收到以下錯誤。嘗試了許多替代代碼和 changing.networks。錯誤請幫忙解決這個錯誤。申請后：- = df['num_words'] = df['text'].apply(l ...

如何使用正則表達式降低計算成本 function

[英]How to reduce computational cost with Regex function

我正在嘗試使用regex來提取包含特定單詞的句子，以及它們之前和之后的句子。我的代碼有效，但每個 txt 需要 20 秒，我有大約一百萬個 txt 文件。是否有可能在更短的時間內獲得相同的結果？也歡迎任何其他相關建議。謝謝！我目前的想法是先提取包含這些目標詞的段落，然后使用nltk對目標 ...

[英]SparseTermSimilarityMatrix().inner_product() throws "cannot unpack non-iterable bool object"

在處理余弦相似度時，我在計算兩個向量的內積時遇到了問題。代碼：from gensim.similarities import ( WordEmbeddingSimilarityIndex, SparseTermSimilarityMatrix ) w2v_model ...

NLP、Python 中的標記句子

[英]Tokenising Sentences in NLP, Python

我有一個包含“文本”列的數據集，其中包含 2851 個句子，我想將它們全部標記化以在 NLP 中實現詞袋。我嘗試使用 loc function 但沒有用，有人能告訴我該怎么做嗎？ ...

如何獲得“和”等停用詞的路徑相似度

[英]How to Get Path Similarity of Stopwords like "and"

我正在嘗試獲取單詞的同義詞集以獲得它們的相似度矩陣。但是，其中一個詞是“和”。我意識到它是 nltk 中的停用詞，因此可能沒有同義詞集。例如，wn.synsets('and') 簡單地返回[] 。有沒有辦法為像Synset('and')這樣的停用詞獲取 Synset，這樣我就可以獲得 'a ...

如何在 Python 中使用 NLTK 數組修復值錯誤？

[英]How to fix Value Error using NLTK array in Python?

我收到以下錯誤：回溯（最近一次調用最后一次）：文件“X:\Learning\Learning.py”，第 46 行，在 training = np.array(training) 中 ValueError：使用序列設置數組元素。請求的數組在 2 維后具有不均勻的形狀。檢測到的形狀是 (26, ...

如何使用 python 從隨機文本行中組合出正確表述的句子

[英]How to use python to assemble properly formulated sentences from random lines of text

假設我有一個包含 200,000 行詩歌的數據庫，我想以生成語法正確且清晰易讀的三行詩的方式隨機組合這些詩行。有沒有辦法做到這一點？我目前正在嘗試使用language_tool_python ，但它僅有助於一般拼寫和一些格式建議。我正在尋找能夠確保每首 3 行詩歌都能正確閱讀並具有語法意義的東 ...

Python：NLTK 和 Spacy，在用法語標記句子時不會得到相同的結果

[英]Python: NLTK and Spacy, don't get same result when tokenize sentence in French

我想將法語文本拆分成句子。在NLTK中，我直接使用句子分詞器，如下所示：但是我得到的只有一句話： Film culte, classique parmi les classiques.Enfin un conte de Noël bien adapté aux tout-petits sans ...

用於從任何文本形成問題的數據集

[英]dataset to use for question formation from any text

我正在嘗試創建一個改進的測驗生成器，它接受特定文本作為輸入和句子中的 forms 個問題。我想創建一個機器學習 model，它將句子分成不同的部分，以便能夠從同一個句子中形成不同的問題。例如：來自“亞馬遜河是南美洲最長的河流”這句話。應該形成問題：南美洲最長的河流是什么？亞馬遜河是南美洲最長 ...

我如何 plot 我的 DataFrame 中的列的 FreqDist？

[英]How do I plot a FreqDist of a column in my DataFrame?

我一直在嘗試編寫一個 FreqDist 來分析我預處理過的文本數據（刪除停用詞、標記化等），以了解文本數據的主要內容。我的第一個問題是，我的方法是否正確？我的第二個問題是我試過 plot 一個 FreqDist plot 但它返回了一個錯誤unhashable type: 'list' 我的代 ...

with open(os.path.join(directory, filename), 'r','utf-8') as file: TypeError: 'str' object 不能解釋為 integer

[英]with open(os.path.join(directory, filename), 'r','utf-8') as file: TypeError: 'str' object cannot be interpreted as an integer

為什么我收到這個錯誤這是我的代碼，我正在使用停用詞清理從網站上提取的數據，突然出現此錯誤 ...

在 Python 中找到一個單詞的所有變體（或時態）

[英]Find all the variations (or tenses) of a word in Python

我想知道如何找到一個單詞的所有變體，或者與 Python 中的原始單詞相關或非常相似的單詞。我正在尋找的事情的一個例子是這樣的：這只是代碼應該做什么的一個例子，我已經看到了關於同一主題的其他類似問題，但它們都不夠准確，我找到了一些代碼並將其更改為我自己的代碼，這有點管用，但現在開始了我願意。 ...

有沒有辦法將 df 列中的文本數據標記為短語而不是單詞？

[英]Is there a way to tokenize my text data in a df column into phrases instead of words?

再會。我對文本分析有點陌生，自己嘗試了一些簡單的東西：我有一個 df 如下： data = ['bank a earned 3 million usd through investing in certain funds and earned 500k eur from other invest ...

在 nltk wor.net 中，wn.synsets.definition(lang="lang") 顯示英語和日語，但不顯示其他語言

[英]In nltk wordnet, wn.synsets.definition(lang="lang") show enlish and japanese, but not other languages

wn.synsets.definition(lang="lang")顯示英語和日語結果，但不顯示其他語言。 wn.synset('word').lemma_names顯示其他語言。我需要額外下載嗎？，語言之間有區別嗎？文檔說它會延遲下載。所以我嘗試了幾次，但結果沒有改變。 ...

列名無效 - Python pandas

[英]Invalid column name - Python pandas

我是編碼或機器學習的初學者，我正在為我的代碼而苦苦掙扎。我想從有時還包含 integer 或浮點數的列中刪除隨機詞（它是 email 交換的一列），然后要求 BERT 添加匹配的詞，以進行數據擴充，但我有一個問題代碼。我 100% 確定它是我的列名，因為如果我寫 df['Open_AI_Tex ...

不確定我是否必須使用 class 屬性或實例屬性

[英]Not sure if I have to use class attribute or instance attribute

我是 python 的初學者，所以我已經為這個非常基本的問題道歉。我有一個作業，我必須從給定的文本創建一個句子和標記列表，並將它們作為屬性保存在 class 中。此外，我必須確保標記保存在仍然代表句子的數據結構中（如：我仍然可以看到標記是否位於句子的開頭）。我知道如何創建 class，理論上，我 ...

如何根據類別有效構建 ngrams dataframe

[英]How to efficiently build ngrams based on categories in a dataframe

問題我有一個 dataframe，它包含屬於某個類別的文本。我現在想獲得每個類別中最常用的 n-gram（示例中的二元語法）。我設法做到了這一點，但我認為這方面的代碼太長了。示例代碼 Output 單詞數數類別（'運動'，'運動'） 2個商業與金融（'運動'，'文本'） 2個商業與 ...