簡體   English   中英

使用熊貓導入數據集

[英]Dataset import using pandas

我從github(json)導入了一個數據集,該數據集是一個包含許多子文件夾的文件夾,在子文件夾下有許多文檔文件,但是現在我已將數據集下載到本地驅動器,但我沒有知道如何從本地驅動器導入數據集文件夾。 我確實有關於使用pandas導入csv文件的知識,但是由於我的數據集是一個如上所述的文件夾。 有人可以告訴我如何在不損害以下代碼的情況下從我的本地驅動器導入它。 當然我正在使用python。 請檢查顯示從github導入的數據集的代碼。 “ 20_newsgroup”是本地驅動器中文件夾的名稱。

# Import Dataset
df = pd.read_json('https://raw.githubusercontent.com/selva86/datasets/master/newsgroups.json')
df = df.loc[df.target_names.isin(['soc.religion.christian', 'rec.sport.hockey', 'talk.politics.mideast', 'rec.motorcycles']) , :]
print(df.shape)  #> (2361, 3)
df.head()

# Convert to list
data = df.content.values.tolist()
data_words = list(sent_to_words(data))
print(data_words[:1])
df = pd.read_json('newsgroups.json')

應該足夠了。 (或pd.read_json('some/directory/newsgroups.json')如果它不在當前目錄中。)

從目錄中上傳多個文件方面,我想這是否可以回答您的問題: https : //stackoverflow.com/a/30540662/9524722

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM