[英]Extract JSON-LD from HTML using Apache Any23
我的目標是從網頁中提取結構化數據。 我正在使用這個 SO question 中提到的代碼。 我在 Spring 項目中使用Apache Any23 CLI庫依賴項。
通過使用它,我可以從網頁中提取 HTML5 微數據 (Schema.org)。 但是,我無法提取網頁中存在的 JSON-LD 格式。 當我檢查Apache Any23的文檔時,它支持 JSON-LD 格式。 沒有找到任何關於它的進一步文檔。
通常,如果您使用new Any23()
創建一個新的 Any23 提取器,它應該是開箱即用的。 如果您使用另一個構造函數,如Any23(String... extractorNames)
,則必須確保為嵌入式 JSON LD 添加了正確的構造函數,即"html-embedded-jsonld"
。
現在,如果提取過程中出現任何錯誤,Any23 會靜默刪除它們。 (這很棒,我知道!)
我發現可以在org.apache.any23.extractorExtractionResultImpl
方法notifyIssue
設置斷點。 有了這個,您可以找到更詳細的問題原因。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.