簡體   English   中英

使用 Apache Any23 從 HTML 中提取 JSON-LD

[英]Extract JSON-LD from HTML using Apache Any23

我的目標是從網頁中提取結構化數據。 我正在使用這個 SO question 中提到的代碼。 我在 Spring 項目中使用Apache Any23 CLI庫依賴項。

通過使用它,我可以從網頁中提取 HTML5 微數據 (Schema.org)。 但是,我無法提取網頁中存在的 JSON-LD 格式。 當我檢查Apache Any23的文檔時,它支持 JSON-LD 格式。 沒有找到任何關於它的進一步文檔。

通常,如果您使用new Any23()創建一個新的 Any23 提取器,它應該是開箱即用的。 如果您使用另一個構造函數,如Any23(String... extractorNames) ,則必須確保為嵌入式 JSON LD 添加了正確的構造函數,即"html-embedded-jsonld"

現在,如果提取過程中出現任何錯誤,Any23 會靜默刪除它們。 (這很棒,我知道!)

我發現可以在org.apache.any23.extractorExtractionResultImpl方法notifyIssue設置斷點。 有了這個,您可以找到更詳細的問題原因。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM