簡體 English 中英

如何從包含達里語單詞的文件中刪除英語單詞？

[英]How to remove English words from a file containing Dari words?

原文 2018-02-06 15:28:25 6 2 python/ python-3.x/ python-2.7/ nlp/ stanford-nlp

如何查找英語單詞並將其從包含達里語單詞的文件中刪除？ 我試過這段代碼，但我不知道如何改進它。

inp = open('Dari.pos', 'r')
out = open('DariNER.txt', 'w')

for line in iter(inp):
   ------------?
   out.write(word)
inp.close()
out.close()

2 個解決方案

您可以安裝和使用nltk庫。 這為您提供了一個英語單詞列表和一種將每一行拆分為單詞的方法：

from nltk.tokenize import word_tokenize
from nltk.corpus import words

english = words.words()

with open('Dari.pos') as f_input, open('DariNER.txt', 'w') as f_output:
    for line in f_input:
        f_output.write(' '.join(word for word in word_tokenize(line) if word.lower() not in english) + '\n')

安裝 nltk 后，您應該運行：

import nltk
nltk.download()

並用它來下載words

infile = "Dari.pos"
outfile = "Cleaned_English_Tags.txt"

delete_list = ['NOUN', 'ADJ', 'PUNCT', 'INTJ', 'ADV', 'VERB', 'X', 'CCONJ', 'ADP', 'AUX', 'SCONJ', 'PRON', 'DET', 'NUM', 'AU']
fin = open(infile)
fout = open(outfile, 'w')

for line in fin:
    for word in delete_list:
        line = line.replace(word, " ")
    fout.write(line)

fin.close()
fout.close()

如何從文件中刪除非英語單詞？

[英]How do I remove non-English words from a file?

如何使用 Python 從 CSV 文件的列中刪除英文單詞

[英]How to remove English Words from a column in a CSV file using Python

Python Regex-從文件中刪除包含“：”的單詞

[英]Python Regex - remove words containing “:” from file

從pdfplumber中提取后如何刪除英文單詞之間的空格

[英]How to remove space between English Words after extracting from pdfplumber

如何在 Python 中刪除非英語單詞？

[英]How to remove Non English words in Python?

如何刪除英語和西班牙語停用詞

[英]How to remove English and Spanish stop words

如何使用自定義停用詞詞典從數據框列中刪除英語停用詞

[英]How do I remove english stop words from a dataframe column using a custom dictionary of stop words

Python腳本從包含數組單詞的文件中刪除行

[英]Python script to remove lines from file containing words in array

如何更快地從列表中刪除包含某些單詞的字符串

[英]How to remove strings containing certain words from list FASTER

如何從 csv 文件中刪除停用詞

[英]How to remove stop words from a csv file

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何從文件中刪除非英語單詞？如何使用 Python 從 CSV 文件的列中刪除英文單詞 Python Regex-從文件中刪除包含“：”的單詞從pdfplumber中提取后如何刪除英文單詞之間的空格如何在 Python 中刪除非英語單詞？如何刪除英語和西班牙語停用詞如何使用自定義停用詞詞典從數據框列中刪除英語停用詞 Python腳本從包含數組單詞的文件中刪除行如何更快地從列表中刪除包含某些單詞的字符串如何從 csv 文件中刪除停用詞

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM