簡體 English 中英

匹配數據的算法

[英]Algorithm for matching data

原文 2011-03-12 19:18:43 8 1 algorithm/ string/ string-matching

我有一個項目，我正在測試一個對噪音非常敏感的設備（電磁，無線電等......）。 該設備基於給定輸入（音頻）生成每秒5-6字節的二進制數據（對於未經訓練的眼睛看起來像胡言亂語）。

根據噪音，設備有時會遺漏字符，有時它會插入隨機字符，有時是兩者的倍數。

我編寫了一個應用程序，使用戶能夠即時查看它生成的錯誤（與主文件相比[例如，設備應在理想條件下輸出的內容]）。 我的算法基本上取實時數據中的每個字節，並將其與已知主文件中相同位置的字節進行比較。 如果字節不匹配，我在當前位置兩個方向都有一個10個字符的窗口，我會在附近尋找匹配。 如果匹配（加上驗證或兩個），我會直觀地在UI中標記位置並注冊錯誤。

這種方法工作得相當好，實際上，考慮到輸入數據的速度，它也可以實時工作。 但是，我覺得我所做的並不是最優的，如果數據以更高的速率傳輸，那么這種方法就會崩潰。

我可以采取其他方法嗎？ 是否有針對此類事物的已知算法？
我多年前讀過NASA的數據收集裝備（例如與太空和月球/火星上的工藝品交流的裝備），盡管空間受到巨大干擾，但仍有0.00001％的數據丟失。

有任何想法嗎？