簡體   English   中英

如何將每個文件的標記化結果保存在新的單獨的文本文件中?

[英]How to save tokenization result for each file in a new separate text file?

我有349個文本文件。 我使用以下代碼來讀取所有這些標記並對其進行標記化。

import glob
path = "C:\\texts\\*.txt"
for file in files:
   with open (file) as in_file, open ("C:\\texts\\file_tokens.txt", 'w') as out_file:
       for line in in_file:
           words = line.split()
           for word in words:
               out_file.write(word)
               out_file.write("\n")

此代碼將結果(所有令牌)保存在一個文件(file_tokens.txt)中。 如何將每個文件的令牌保存在新的.txt文件中? 我的意思是我希望輸出349個文件,因為每個文件都包含每個文件的標記。

from os import path
base_path = "C:\\texts\\*.txt"  #RENAMED
for file in files:
    with open (file) as in_file:
        with open(path.join(base_path,"%s_tokenized.txt" % file)) as out_file:  #ATTENTION
            for line in in_file:
                words = line.split()
                for word in words:
                out_file.write(word)
                out_file.write("\n")

您使用要處理的當前文件創建一個名稱特定的新文件。 在此示例中為($file_name)_tokenized.txt

path.join用於將文件輸出到正確的目錄。

>>> path.join("~/Documents","out.txt")
'~/Documents/out.txt'

給每個輸出文件一個不同的名稱。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM