cost 65 ms
Dataproc 中的 nltk.download('wor.net')

[英]nltk.download('wordnet') in Dataproc

當我在 Dataproc 中運行以下腳本時 nltk_data 僅在主節點中下載,而不會在工作節點中下載。 因此在 dataproc 中提交 PySpark 作業時無法從工作節點讀取。 你有什么建議? 如何也可以在工作節點中下載 nltk_data? ...

當值是列表時對字典的值進行操作

[英]operate over values of a dictionary when values are lists

假設我有以下字典: 我想 go 通過每個鍵,然后是值的元素並刪除停用詞,所以我這樣做: 但這會返回與我原來的字典完全相同的字典。 我想知道我做錯了什么? ...

如何從文本中提取形容詞或名詞?

[英]How to pick up adjectives or nouns out of a text?

例如像: 所以我希望得到這樣的 2 個列表: 我看到有人提到 NLTK,但我沒有使用過 package,所以我希望得到一些說明。 ...

nltk.download('punkt') 給出 output 為假

[英]nltk.download('punkt') giving output as false

當我嘗試安裝 nltk 並使用 nltk.download('punkt') 下載文件 punket 時。 我收到以下錯誤。 嘗試了許多替代代碼和 changing.networks。 錯誤請幫忙解決這個錯誤。 申請后:- = df['num_words'] = df['text'].apply(l ...

如何使用正則表達式降低計算成本 function

[英]How to reduce computational cost with Regex function

我正在嘗試使用regex來提取包含特定單詞的句子,以及它們之前和之后的句子。 我的代碼有效,但每個 txt 需要 20 秒,我有大約一百萬個 txt 文件。 是否有可能在更短的時間內獲得相同的結果? 也歡迎任何其他相關建議。 謝謝! 我目前的想法是先提取包含這些目標詞的段落,然后使用nltk對目標 ...

NLP、Python 中的標記句子

[英]Tokenising Sentences in NLP, Python

我有一個包含“文本”列的數據集,其中包含 2851 個句子,我想將它們全部標記化以在 NLP 中實現詞袋。我嘗試使用 loc function 但沒有用,有人能告訴我該怎么做嗎? ...

如何獲得“和”等停用詞的路徑相似度

[英]How to Get Path Similarity of Stopwords like "and"

我正在嘗試獲取單詞的同義詞集以獲得它們的相似度矩陣。 但是,其中一個詞是“和”。 我意識到它是 nltk 中的停用詞,因此可能沒有同義詞集。 例如,wn.synsets('and') 簡單地返回[] 。 有沒有辦法為像Synset('and')這樣的停用詞獲取 Synset,這樣我就可以獲得 'a ...

如何在 Python 中使用 NLTK 數組修復值錯誤?

[英]How to fix Value Error using NLTK array in Python?

我收到以下錯誤: 回溯(最近一次調用最后一次):文件“X:\Learning\Learning.py”,第 46 行,在 training = np.array(training) 中 ValueError:使用序列設置數組元素。 請求的數組在 2 維后具有不均勻的形狀。 檢測到的形狀是 (26, ...

2023-01-19 19:05:51   1   14    python / nltk  
如何使用 python 從隨機文本行中組合出正確表述的句子

[英]How to use python to assemble properly formulated sentences from random lines of text

假設我有一個包含 200,000 行詩歌的數據庫,我想以生成語法正確且清晰易讀的三行詩的方式隨機組合這些詩行。 有沒有辦法做到這一點? 我目前正在嘗試使用language_tool_python ,但它僅有助於一般拼寫和一些格式建議。 我正在尋找能夠確保每首 3 行詩歌都能正確閱讀並具有語法意義的東 ...

用於從任何文本形成問題的數據集

[英]dataset to use for question formation from any text

我正在嘗試創建一個改進的測驗生成器,它接受特定文本作為輸入和句子中的 forms 個問題。 我想創建一個機器學習 model,它將句子分成不同的部分,以便能夠從同一個句子中形成不同的問題。 例如:來自“亞馬遜河是南美洲最長的河流”這句話。 應該形成問題:南美洲最長的河流是什么? 亞馬遜河是南美洲最長 ...

我如何 plot 我的 DataFrame 中的列的 FreqDist?

[英]How do I plot a FreqDist of a column in my DataFrame?

我一直在嘗試編寫一個 FreqDist 來分析我預處理過的文本數據(刪除停用詞、標記化等),以了解文本數據的主要內容。 我的第一個問題是,我的方法是否正確? 我的第二個問題是我試過 plot 一個 FreqDist plot 但它返回了一個錯誤unhashable type: 'list' 我的代 ...

在 Python 中找到一個單詞的所有變體(或時態)

[英]Find all the variations (or tenses) of a word in Python

我想知道如何找到一個單詞的所有變體,或者與 Python 中的原始單詞相關或非常相似的單詞。 我正在尋找的事情的一個例子是這樣的: 這只是代碼應該做什么的一個例子,我已經看到了關於同一主題的其他類似問題,但它們都不夠准確,我找到了一些代碼並將其更改為我自己的代碼,這有點管用,但現在開始了我願意。 ...

在 nltk wor.net 中,wn.synsets.definition(lang="lang") 顯示英語和日語,但不顯示其他語言

[英]In nltk wordnet, wn.synsets.definition(lang="lang") show enlish and japanese, but not other languages

wn.synsets.definition(lang="lang")顯示英語和日語結果,但不顯示其他語言。 wn.synset('word').lemma_names顯示其他語言。 我需要額外下載嗎? ,語言之間有區別嗎? 文檔說它會延遲下載。 所以我嘗試了幾次,但結果沒有改變。 ...

列名無效 - Python pandas

[英]Invalid column name - Python pandas

我是編碼或機器學習的初學者,我正在為我的代碼而苦苦掙扎。 我想從有時還包含 integer 或浮點數的列中刪除隨機詞(它是 email 交換的一列),然后要求 BERT 添加匹配的詞,以進行數據擴充,但我有一個問題代碼。 我 100% 確定它是我的列名,因為如果我寫 df['Open_AI_Tex ...

不確定我是否必須使用 class 屬性或實例屬性

[英]Not sure if I have to use class attribute or instance attribute

我是 python 的初學者,所以我已經為這個非常基本的問題道歉。 我有一個作業,我必須從給定的文本創建一個句子和標記列表,並將它們作為屬性保存在 class 中。此外,我必須確保標記保存在仍然代表句子的數據結構中(如:我仍然可以看到標記是否位於句子的開頭)。 我知道如何創建 class,理論上,我 ...

如何根據類別有效構建 ngrams dataframe

[英]How to efficiently build ngrams based on categories in a dataframe

問題我有一個 dataframe,它包含屬於某個類別的文本。 我現在想獲得每個類別中最常用的 n-gram(示例中的二元語法)。 我設法做到了這一點,但我認為這方面的代碼太長了。 示例代碼 Output 單詞數數類別 ('運動','運動') 2個商業與金融 ('運動','文本') 2個商業與 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM