[英]Finding patterns in two files
我每年必須分析10年的數據和50多個文件。 我從互聯網上提取了數據,而我所做的只是提取帶有正則表達式的文本。 每年的文件格式都不同,我甚至不確定每個年份的文件中的格式是否一致。 2003年的格式似乎是
標題(。*)
[報頭(。*)
顏色編號數字編號字符串(\\ w + \\ s \\ d + \\ s \\ d + \\ s \\ d + \\ s。+)
顏色編號數字編號字符串
顏色編號數字編號字符串
顏色編號數字編號字符串] <====一格
頭
顏色編號數字編號字符串
顏色編號數字編號字符串
顏色編號數字編號字符串
顏色編號數字編號字符串
........
我的問題是,有沒有辦法用python編程某些東西來識別給定年份的文本文件中的模式?
一種模式識別,一種程序,也許輸出與一個數據塊匹配的正則表達式。
我將把這些數據用於線性代數,但是我希望這些數據易於訪問和組織以用於其他用途。
如果可能的話,您應該變得更簡單一些,並檢查每個數據塊的每一行在被空格(或制表符,或任何標記將每一列划分)時是否具有相同的長度。 從那里您可以根據數據創建一棵樹。 就像是:
{title: {
block: [
[color, number, number, number, string],
[color, number, number, number, string]
]
}
title:
...
}
如果數據甚至不規則,您都可以嘗試使用第三方庫來進行以下操作:(1)清理要從其抓取數據的html,或(2)使用自然語言處理來標記化/解析數據,但這似乎像殺傷力大。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.