簡體   English   中英

Java文本提取和數據結構設計

[英]Java text extraction and data structure design

我有大量的Open Office 3.0文檔格式數據集。

   Table 1:
    (x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4) 
    (-20,90) |(-20,0) |(-5,1) |(5,1)  |(10,0)
    ...

同樣,我有n個表。所有這些表都是模糊集隸屬函數。簡單來說,它們是計算模型,我必須根據這些模型來處理輸入數據。許多這樣的表具有不同的行大小和列大小3/4。這些數據一旦加載就不會更改。

例如:當我得到一個介於-20到90之間的x值時,我將應用上面給出的第一個規則,假設它是-1(介於-20和-5之間)。我必須找到一個介於0和1之間的對應值。

我的第一個問題是如何以文檔格式從表中提取所有數據,以便可以在Java程序中使用。我知道一些python,並且我知道python在這種情況下可能有用。我的Java程序。

其次 ,在這種情況下,我應該使用哪種最佳數據結構。

注意:我沒有使用任何數據庫,所以我寧願將表保留為xml或其他格式,以便我可以輕松地將其加載到程序中。我還考慮制作合適的數據結構,然后對其進行序列化我可以在需要時加載它們,而不用解析文件並重新創建數據結構。請發表您的評論。

為了解析Java中的OpenOffice文檔(以提取數據),可以使用專用的API,例如ODFDOM 我認為這種解決方案對於您的需求而言非常復雜。 一個更簡單的解決方案是手動提取OpenOffice表,並以一種更友好的格式將其放入Java中進行解析:

  • CSV
  • 數據庫(MySQL等)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM