在兩個文件中查找模式

Question

我每年必須分析10年的數據和50多個文件。 我從互聯網上提取了數據，而我所做的只是提取帶有正則表達式的文本。 每年的文件格式都不同，我甚至不確定每個年份的文件中的格式是否一致。 2003年的格式似乎是

標題（。*）

[報頭（。*）

顏色編號數字編號字符串（\\ w + \\ s \\ d + \\ s \\ d + \\ s \\ d + \\ s。+）

顏色編號數字編號字符串

顏色編號數字編號字符串

顏色編號數字編號字符串] <====一格

頭

顏色編號數字編號字符串

顏色編號數字編號字符串

顏色編號數字編號字符串

顏色編號數字編號字符串

........

我的問題是，有沒有辦法用python編程某些東西來識別給定年份的文本文件中的模式？

一種模式識別，一種程序，也許輸出與一個數據塊匹配的正則表達式。

我將把這些數據用於線性代數，但是我希望這些數據易於訪問和組織以用於其他用途。

Answer 1

如果可能的話，您應該變得更簡單一些，並檢查每個數據塊的每一行在被空格（或制表符，或任何標記將每一列划分）時是否具有相同的長度。 從那里您可以根據數據創建一棵樹。 就像是：

{title: {
    block: [
        [color, number, number, number, string],
        [color, number, number, number, string]
    ]
 }
 title:
     ...
}

如果數據甚至不規則，您都可以嘗試使用第三方庫來進行以下操作：（1）清理要從其抓取數據的html，或（2）使用自然語言處理來標記化/解析數據，但這似乎像殺傷力大。

在兩個文件中查找模式

問題描述

1 個解決方案

解決方案1
0 2014-04-20 18:49:01

在兩個文件中查找模式

問題描述

1 個解決方案

解決方案1 0 2014-04-20 18:49:01

解決方案1
0 2014-04-20 18:49:01