[英]nltk.download('wordnet') in Dataproc
當我在 Dataproc 中運行以下腳本時 nltk_data 僅在主節點中下載,而不會在工作節點中下載。 因此在 dataproc 中提交 PySpark 作業時無法從工作節點讀取。 你有什么建議? 如何也可以在工作節點中下載 nltk_data? ...
[英]nltk.download('wordnet') in Dataproc
當我在 Dataproc 中運行以下腳本時 nltk_data 僅在主節點中下載,而不會在工作節點中下載。 因此在 dataproc 中提交 PySpark 作業時無法從工作節點讀取。 你有什么建議? 如何也可以在工作節點中下載 nltk_data? ...
[英]operate over values of a dictionary when values are lists
假設我有以下字典: 我想 go 通過每個鍵,然后是值的元素並刪除停用詞,所以我這樣做: 但這會返回與我原來的字典完全相同的字典。 我想知道我做錯了什么? ...
[英]How to pick up adjectives or nouns out of a text?
例如像: 所以我希望得到這樣的 2 個列表: 我看到有人提到 NLTK,但我沒有使用過 package,所以我希望得到一些說明。 ...
[英]nltk.download('punkt') giving output as false
當我嘗試安裝 nltk 並使用 nltk.download('punkt') 下載文件 punket 時。 我收到以下錯誤。 嘗試了許多替代代碼和 changing.networks。 錯誤請幫忙解決這個錯誤。 申請后:- = df['num_words'] = df['text'].apply(l ...
[英]How to reduce computational cost with Regex function
我正在嘗試使用regex來提取包含特定單詞的句子,以及它們之前和之后的句子。 我的代碼有效,但每個 txt 需要 20 秒,我有大約一百萬個 txt 文件。 是否有可能在更短的時間內獲得相同的結果? 也歡迎任何其他相關建議。 謝謝! 我目前的想法是先提取包含這些目標詞的段落,然后使用nltk對目標 ...
[英]SparseTermSimilarityMatrix().inner_product() throws "cannot unpack non-iterable bool object"
在處理余弦相似度時,我在計算兩個向量的內積時遇到了問題。 代碼:from gensim.similarities import ( WordEmbeddingSimilarityIndex, SparseTermSimilarityMatrix ) w2v_model ...
[英]Tokenising Sentences in NLP, Python
我有一個包含“文本”列的數據集,其中包含 2851 個句子,我想將它們全部標記化以在 NLP 中實現詞袋。我嘗試使用 loc function 但沒有用,有人能告訴我該怎么做嗎? ...
[英]How to Get Path Similarity of Stopwords like "and"
我正在嘗試獲取單詞的同義詞集以獲得它們的相似度矩陣。 但是,其中一個詞是“和”。 我意識到它是 nltk 中的停用詞,因此可能沒有同義詞集。 例如,wn.synsets('and') 簡單地返回[] 。 有沒有辦法為像Synset('and')這樣的停用詞獲取 Synset,這樣我就可以獲得 'a ...
[英]How to fix Value Error using NLTK array in Python?
我收到以下錯誤: 回溯(最近一次調用最后一次):文件“X:\Learning\Learning.py”,第 46 行,在 training = np.array(training) 中 ValueError:使用序列設置數組元素。 請求的數組在 2 維后具有不均勻的形狀。 檢測到的形狀是 (26, ...
[英]How to use python to assemble properly formulated sentences from random lines of text
假設我有一個包含 200,000 行詩歌的數據庫,我想以生成語法正確且清晰易讀的三行詩的方式隨機組合這些詩行。 有沒有辦法做到這一點? 我目前正在嘗試使用language_tool_python ,但它僅有助於一般拼寫和一些格式建議。 我正在尋找能夠確保每首 3 行詩歌都能正確閱讀並具有語法意義的東 ...
[英]Python: NLTK and Spacy, don't get same result when tokenize sentence in French
我想將法語文本拆分成句子。 在NLTK中,我直接使用句子分詞器,如下所示: 但是我得到的只有一句話: Film culte, classique parmi les classiques.Enfin un conte de Noël bien adapté aux tout-petits sans ...
[英]dataset to use for question formation from any text
我正在嘗試創建一個改進的測驗生成器,它接受特定文本作為輸入和句子中的 forms 個問題。 我想創建一個機器學習 model,它將句子分成不同的部分,以便能夠從同一個句子中形成不同的問題。 例如:來自“亞馬遜河是南美洲最長的河流”這句話。 應該形成問題:南美洲最長的河流是什么? 亞馬遜河是南美洲最長 ...
[英]How do I plot a FreqDist of a column in my DataFrame?
我一直在嘗試編寫一個 FreqDist 來分析我預處理過的文本數據(刪除停用詞、標記化等),以了解文本數據的主要內容。 我的第一個問題是,我的方法是否正確? 我的第二個問題是我試過 plot 一個 FreqDist plot 但它返回了一個錯誤unhashable type: 'list' 我的代 ...
[英]with open(os.path.join(directory, filename), 'r','utf-8') as file: TypeError: 'str' object cannot be interpreted as an integer
為什么我收到這個錯誤 這是我的代碼,我正在使用停用詞清理從網站上提取的數據,突然出現此錯誤 ...
[英]Find all the variations (or tenses) of a word in Python
我想知道如何找到一個單詞的所有變體,或者與 Python 中的原始單詞相關或非常相似的單詞。 我正在尋找的事情的一個例子是這樣的: 這只是代碼應該做什么的一個例子,我已經看到了關於同一主題的其他類似問題,但它們都不夠准確,我找到了一些代碼並將其更改為我自己的代碼,這有點管用,但現在開始了我願意。 ...
[英]Is there a way to tokenize my text data in a df column into phrases instead of words?
再會。 我對文本分析有點陌生,自己嘗試了一些簡單的東西:我有一個 df 如下: data = ['bank a earned 3 million usd through investing in certain funds and earned 500k eur from other invest ...
[英]In nltk wordnet, wn.synsets.definition(lang="lang") show enlish and japanese, but not other languages
wn.synsets.definition(lang="lang")顯示英語和日語結果,但不顯示其他語言。 wn.synset('word').lemma_names顯示其他語言。 我需要額外下載嗎? ,語言之間有區別嗎? 文檔說它會延遲下載。 所以我嘗試了幾次,但結果沒有改變。 ...
[英]Invalid column name - Python pandas
我是編碼或機器學習的初學者,我正在為我的代碼而苦苦掙扎。 我想從有時還包含 integer 或浮點數的列中刪除隨機詞(它是 email 交換的一列),然后要求 BERT 添加匹配的詞,以進行數據擴充,但我有一個問題代碼。 我 100% 確定它是我的列名,因為如果我寫 df['Open_AI_Tex ...
[英]Not sure if I have to use class attribute or instance attribute
我是 python 的初學者,所以我已經為這個非常基本的問題道歉。 我有一個作業,我必須從給定的文本創建一個句子和標記列表,並將它們作為屬性保存在 class 中。此外,我必須確保標記保存在仍然代表句子的數據結構中(如:我仍然可以看到標記是否位於句子的開頭)。 我知道如何創建 class,理論上,我 ...
[英]How to efficiently build ngrams based on categories in a dataframe
問題我有一個 dataframe,它包含屬於某個類別的文本。 我現在想獲得每個類別中最常用的 n-gram(示例中的二元語法)。 我設法做到了這一點,但我認為這方面的代碼太長了。 示例代碼 Output 單詞數數類別 ('運動','運動') 2個商業與金融 ('運動','文本') 2個商業與 ...