簡體   English   中英

在Marklogic中將PDF轉換為XML

[英]PDF to XML Convert in Marklogic

我們正在嘗試使用以下命令將PDF轉換為XML

xquery version "1.0-ml";
let $results := xdmp:pdf-convert(
xdmp:document-get("d:\CFR-2010-title48-vol1.pdf"), "CFR-2010-title48-vol1.xml" ),
$manifest := $results[1]
return $results

但是它沒有為PDF生成XML輸出。 它生成了以下輸出文件。

<parts xmlns="xdmp:pdf-convert"> <part>CFR-2010-title48-vol1_xml.xhtml</part> <part>CFR-2010-title48-vol1_xml_parts/01_00.jpg</part> <part>CFR-2010-title48-vol1_xml_parts/01_01.jpg</part> <part>CFR-2010-title48-vol1_xml_parts/conv.css</part> <part>CFR-2010-title48-vol1_xml_parts/toc.txt</part> </parts>

您能否建議如何為給定的PDF文件生成XML輸出?

謝謝

文卡特

返回的第一個文檔 XML

您要獲取DocBook嗎? 為此,您需要運行整個上轉換過程,而最簡單的方法是通過CPF轉換應用程序運行文檔,該應用程序將通過一系列步驟和推斷來實現這一點。

或者:您是否想知道為什么零件中的名稱與第二個參數中xdmp:pdf-convert的名稱不匹配? 第二個參數僅用於將生成的href調整為圖像; 它不用於轉換輸出本身。

或者:如果您想直接通過xdmp:pdf-convert的格式轉換來定位其他類型的XML (非XHTML ),則可以應用其他配置文件。 有關更多詳細信息,請參見該功能的文檔。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM