簡體   English   中英

Python / Jupyter Notebook:將一個包含多組數據的文本文件解析為 pandas dataframe

[英]Python / Jupyter Notebook: Parsing one text file with multiple sets of data into a pandas dataframe

我是一個相當新的 Python 用戶,並且一直在使用 pandas 和 matplotlib 為我的研究做一些數據分析。 特別是,我有一個包含 3 組數據的數據文件:2 個列向量和一個數組(請參閱此處的鏈接到谷歌驅動器以獲取相同格式的簡單 3x3 示例: 示例數據。最后,我需要 plot 這個作為二維熱圖,列向量指定 x 和 y 軸,數組填充我的熱點。

我可以使用 pandas.read_csv() 和 skiprows 來為一個文件執行此操作,但是每個向量和數組的維度在我運行的所有模擬中都不同。 因此,我必須為每個不同的文件找到每組數據的開始和結束。 我擁有的最大文件是 (229, 1), (229, 1), (229, 229)。

我的問題是:有沒有辦法根據我的 output 文件具有的格式化方法來指定每組數據的開始和結束? 這可以在 pandas dataframe 或 arrays 中完成。 我更喜歡數據框,只是為了便於在繪圖之前執行計算。

任何幫助將非常感激!

有很多方法可以做到這一點,我認為這都是關於數據預處理或清理的。

這里有一些提示:

  • 您在 1 個文件中的 3 個數據集由 '\n\n' (兩個連續的 \n)拆分,您可以open()它,然后.read()所有內容,然后.split('\n\n')首先.
  • 對於每個拆分數據集,第一行並不重要(或者只是有一些名稱或(行,列)信息),如果他們有一些排序規則,你可以簡單地跳過它(也許.split('\n')[1:] )。
  • 對於每個拆分數據集,其他行是數據內容,您可以將其傳遞給pd._read_csv或類似的東西。

希望這些提示可以幫助你。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM