![](/img/trans.png)
[英]Converting multiline code snippets in HTML to Markdown with pandoc
[英]Converting html to json with pandoc
我正在嘗試使用html並生成一些保持相同結構的json。
我正在嘗試使用pandoc,因為我在使用pandoc之前將事物從格式A轉換為格式B方面取得了一些成功。
我正在嘗試轉換此文件:
example.html的
<p>Hello guys! What's up?</p>
使用命令:
pandoc -f html -t json example.html
我期望的是:
[{ "p": "Hello guys! What's up?"}]
我得到的是:
[
{ "Para":
[
{"t": "Str", "c": "Hello"},
{"t": "Space"},
{"t": "Str", "c": "guys!"},
{"t": "Space"},
{"t": "Str", "c": "What's"},
{"t": "Space"},
{"t": "Str", "c": "up?"}
]
}
]
問題似乎是當pandoc讀取文本內容時,它會根據空格字符分隔每個單詞並從中生成一個數組,而我希望pandoc能夠理解整個字符串是單個元素。
我是pandoc的初學者,我無法找到如何調整這種行為。
你知道我如何獲得所需的輸出嗎? 你知道另一種可以做到這一點的工具嗎? 該工具或其編寫的語言無關緊要。
謝謝。
編輯 :您可以在該pandoc在線工具上在線測試該行為。
編輯2 :解決方法。 我找不到如何使用pandoc進行HTML-> JSON轉換。 作為一種解決方法,我使用了評論中提出的建議,並使用喜馬拉雅實現了一個解決方案,這是一個節點包。 結果正是我所希望的,即使它沒有使用pandoc。
目前,pandoc JSON表示不是人類可讀的,而是從Haskell pandoc數據類型(也稱為文檔AST)自動生成。 有一些討論要最終改變 。
我想你正在尋找像https://codebeautify.org/xmltojson這樣的東西? 似乎還有很多命令行工具可以做到這一點 。
Pandoc,它是一個轉換文檔的工具,文檔的json
表示,它只是Pandoc可以為AST處理的另一種表示(抽象語法樹)
Original Document --> Pandoc's AST --> Output Document
| |
pandoc pandoc
問pandoc,輸出一個json
,就是要求它的json
格式的AST樹,
如果我理解正確你需要更像xml
到json
轉換器的東西,就像這個Python xmljson模塊或像這樣的在線工具。
當你想象它時,有很多工具可以用於這項工作,只需谷歌XML到JSON轉換。
在pandoc中使用的AST的json
表示,它通常用於從pandoc輸出它,並將其傳遞到另一個可以處理json
文件的程序中,因此您可以更改AST並使過濾器來操作文檔的結構。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.