簡體   English   中英

使用pandoc將html轉換為json

[英]Converting html to json with pandoc

我正在嘗試使用html並生成一些保持相同結構的json。

我正在嘗試使用pandoc,因為我在使用pandoc之前將事物從格式A轉換為格式B方面取得了一些成功。

我正在嘗試轉換此文件:

example.html的

<p>Hello guys! What's up?</p>

使用命令:

pandoc -f html -t json example.html

我期望的是:

[{ "p": "Hello guys! What's up?"}]

我得到的是:

[
  { "Para":
    [
      {"t": "Str", "c": "Hello"},
      {"t": "Space"},
      {"t": "Str", "c": "guys!"},
      {"t": "Space"},
      {"t": "Str", "c": "What's"},
      {"t": "Space"},
      {"t": "Str", "c": "up?"}
    ]
  }
]

問題似乎是當pandoc讀取文本內容時,它會根據空格字符分隔每個單詞並從中生成一個數組,而我希望pandoc能夠理解整個字符串是單個元素。

我是pandoc的初學者,我無法找到如何調整這種行為。

你知道我如何獲得所需的輸出嗎? 你知道另一種可以做到這一點的工具嗎? 該工具或其編寫的語言無關緊要。

謝謝。

編輯 :您可以在該pandoc在線工具在線測試該行為。

編輯2 :解決方法。 我找不到如何使用pandoc進行HTML-> JSON轉換。 作為一種解決方法,我使用了評論中提出的建議,並使用喜馬拉雅實現了一個解決方案,這是一個節點包。 結果正是我所希望的,即使它沒有使用pandoc。

目前,pandoc JSON表示不是人類可讀的,而是從Haskell pandoc數據類型(也稱為文檔AST)自動生成。 有一些討論要最終改變

我想你正在尋找像https://codebeautify.org/xmltojson這樣的東西? 似乎還有很多命令行工具可以做到這一點

Pandoc,它是一個轉換文檔的工具,文檔的json表示,它只是Pandoc可以為AST處理的另一種表示(抽象語法樹)

Original Document --> Pandoc's AST --> Output Document
                   |                |
                pandoc           pandoc

問pandoc,輸出一個json ,就是要求它的json格式的AST樹,

如果我理解正確你需要更像xmljson轉換器的東西,就像這個Python xmljson模塊或像這樣的在線工具。

當你想象它時,有很多工具可以用於這項工作,只需谷歌XML到JSON轉換。

在pandoc中使用的AST的json表示,它通常用於從pandoc輸出它,並將其傳遞到另一個可以處理json文件的程序中,因此您可以更改AST並使過濾器來操作文檔的結構。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM