簡體   English   中英

在兩個文件中查找模式

[英]Finding patterns in two files

我每年必須分析10年的數據和50多個文件。 我從互聯網上提取了數據,而我所做的只是提取帶有正則表達式的文本。 每年的文件格式都不同,我甚至不確定每個年份的文件中的格式是否一致。 2003年的格式似乎是

標題(。*)

[報頭(。*)

顏色編號數字編號字符串(\\ w + \\ s \\ d + \\ s \\ d + \\ s \\ d + \\ s。+)

顏色編號數字編號字符串

顏色編號數字編號字符串

顏色編號數字編號字符串] <====一格

顏色編號數字編號字符串

顏色編號數字編號字符串

顏色編號數字編號字符串

顏色編號數字編號字符串

........

我的問題是,有沒有辦法用python編程某些東西來識別給定年份的文本文件中的模式?

一種模式識別,一種程序,也許輸出與一個數據塊匹配的正則表達式。

我將把這些數據用於線性代數,但是我希望這些數據易於訪問和組織以用於其他用途。

如果可能的話,您應該變得更簡單一些,並檢查每個數據塊的每一行在被空格(或制表符,或任何標記將每一列划分)時是否具有相同的長度。 從那里您可以根據數據創建一棵樹。 就像是:

{title: {
    block: [
        [color, number, number, number, string],
        [color, number, number, number, string]
    ]
 }
 title:
     ...
}   

如果數據甚至不規則,您都可以嘗試使用第三方庫來進行以下操作:(1)清理要從其抓取數據的html,或(2)使用自然語言處理來標記化/解析數據,但這似乎像殺傷力大。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM