[英]Parsing hOCR to JSON with Python
我正在使用tesseract-ocr,並以hOCR格式獲取輸出。 我需要將此hOCR輸出存儲到數據庫(在我的情況下為PostgreSQL)。
由於我可能需要分別從此hOCR中獲取每條信息(其中的80%),這是正確的方法嗎? 應該將其存儲為XML數據類型還是解析為JSON並存儲? 並且在使用JSON的情況下,如何使用Python將hOCR解析為JSON。 其他相關建議也被贊賞。
hOCR似乎是XML的一種方言,因此您應該能夠使用stdlib中的xml.etree
模塊將hOCR代碼解析為Python可導航樹。 然后導航到該樹以組成對象或嵌套字典,然后最終使用stdlib的json
模塊將該字典轉換為JSON。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.