簡體   English   中英

python中讀取多個文件夾類別中的多個.txt文件的方法

[英]way to read multiple .txt files in multiple folder categories in python

我是Python的新手,正在嘗試讀取存儲在多個文件夾層次結構中的.txt文件的數據集。 文件夾的結構是

-Folder1 
   -Category1_Folder
        -file1.txt
   -Category2_Folder
        -file1.txt
        -file2.txt and so on...

類別具有重要性。 我需要能夠確定哪個文件來自哪個類別。 然后,我需要刪除停用詞並使用TfIDf執行特征提取。 做這樣的事情最簡單的方法是什么?

我推薦os.walk

如果您有類似的目錄:

project/
- folder1/
  - file1.png
  - file2.jpg
- folder2/
  - file3.zip

然后,示例代碼為:

import os

for dirpath, dirnames, filenames in os.walk(os.getcwd()):  # getcwd() for current work dir
  print(dirpath, dirnames, filenames)

輸出結果為:

/project ['folder1', 'folder2'] []
/project/folder1 [] ['file1.png', 'file2.jpg']
/project/folder2 [] ['file3.zip']

如果需要文件夾,文件名,請使用for循環:

for dirname in dirnames:
  for filename in filenames:
    # split dirname for categories
    # and so on..

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM