Java文本提取和數據結構設計

Question

我有大量的Open Office 3.0文檔格式的表數據集。

   Table 1:
    (x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4) 
    (-20,90) |(-20,0) |(-5,1) |(5,1)  |(10,0)
    ...

同樣，我有n個表。所有這些表都是模糊集隸屬函數。簡單來說，它們是計算模型，我必須根據這些模型來處理輸入數據。許多這樣的表具有不同的行大小和列大小3/4。這些數據一旦加載就不會更改。

例如：當我得到一個介於-20到90之間的x值時，我將應用上面給出的第一個規則，假設它是-1（介於-20和-5之間）。我必須找到一個介於0和1之間的對應值。

我的第一個問題是如何以文檔格式從表中提取所有數據，以便可以在Java程序中使用。我知道一些python，並且我知道python在這種情況下可能有用。我的Java程序。

其次，在這種情況下，我應該使用哪種最佳數據結構。

注意：我沒有使用任何數據庫，所以我寧願將表保留為xml或其他格式，以便我可以輕松地將其加載到程序中。我還考慮制作合適的數據結構，然后對其進行序列化我可以在需要時加載它們，而不用解析文件並重新創建數據結構。請發表您的評論。

Answer 1

為了解析Java中的OpenOffice文檔（以提取數據），可以使用專用的API，例如ODFDOM 。 我認為這種解決方案對於您的需求而言非常復雜。 一個更簡單的解決方案是手動提取OpenOffice表，並以一種更友好的格式將其放入Java中進行解析：