如何使用python解析ld+json

Question

我一直在嘗試一些網絡抓取，我發現了一些位於這個標簽內的有趣數據：

<script type="application/ld+json">

我已經能夠使用美麗的湯來隔離那個標簽

html = urlopen(url)
soup = BeautifulSoup(html, "lxml")

p = soup.find('script', {'type':'application/ld+json'})
print p

但我無法處理數據或從該標簽中提取任何數據。

如果我嘗試使用正則表達式從中獲取一些東西，我會得到：

TypeError: expected string or buffer

我怎樣才能從那個腳本標簽中獲取數據並像使用字典或字符串一樣使用它？ 順便說一下，我正在使用 python 2.7。

Answer 1

您應該使用json.loads讀取 JSON 以將其轉換為字典。

import json

import requests
from bs4 import BeautifulSoup

def get_ld_json(url: str) -> dict:
    parser = "html.parser"
    req = requests.get(url)
    soup = BeautifulSoup(req.text, parser)
    return json.loads("".join(soup.find("script", {"type":"application/ld+json"}).contents))

join / contents組合刪除了腳本標簽。

Answer 2

你應該閱讀 html 來解析

html = urlopen(url).read()
soup = BeautifulSoup(html, "html.parser")
p = soup.find('script', {'type':'application/ld+json'})
print p.contents

Answer 3

上面的評論沒有幫助（雖然謝謝）

最后我用了：

p = str(soup.find('script', {'type':'application/ld+json'}))

我強迫它變成一個不太漂亮的字符串，但它完成了工作。 我知道那里可能有更好的出路，但這對我有用。

如何使用python解析ld+json

問題描述

3 個解決方案

解決方案1
11 2019-11-30 05:48:19

解決方案2
5 2017-04-27 11:10:46

解決方案3
0 2017-04-27 15:29:06

如何使用python解析ld+json

問題描述

3 個解決方案

解決方案1 11 2019-11-30 05:48:19

解決方案2 5 2017-04-27 11:10:46

解決方案3 0 2017-04-27 15:29:06

解決方案1
11 2019-11-30 05:48:19

解決方案2
5 2017-04-27 11:10:46

解決方案3
0 2017-04-27 15:29:06