[英]How to save tokenization result for each file in a new separate text file?
我有349個文本文件。 我使用以下代碼來讀取所有這些標記並對其進行標記化。
import glob
path = "C:\\texts\\*.txt"
for file in files:
with open (file) as in_file, open ("C:\\texts\\file_tokens.txt", 'w') as out_file:
for line in in_file:
words = line.split()
for word in words:
out_file.write(word)
out_file.write("\n")
此代碼將結果(所有令牌)保存在一個文件(file_tokens.txt)中。 如何將每個文件的令牌保存在新的.txt文件中? 我的意思是我希望輸出349個文件,因為每個文件都包含每個文件的標記。
from os import path
base_path = "C:\\texts\\*.txt" #RENAMED
for file in files:
with open (file) as in_file:
with open(path.join(base_path,"%s_tokenized.txt" % file)) as out_file: #ATTENTION
for line in in_file:
words = line.split()
for word in words:
out_file.write(word)
out_file.write("\n")
您使用要處理的當前文件創建一個名稱特定的新文件。 在此示例中為($file_name)_tokenized.txt
。
path.join
用於將文件輸出到正確的目錄。 即
>>> path.join("~/Documents","out.txt")
'~/Documents/out.txt'
給每個輸出文件一個不同的名稱。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.