簡體   English   中英

將HTML表數據解析為JSON並保存到Python 2.7中的文本文件中

[英]Parse HTML table data to JSON and save to text file in Python 2.7

我正試圖從這個網頁上提取各州的犯罪率數據,鏈接到網頁http://www.disastercenter.com/crime/uscrime.htm

我能把它變成文本文件。 但我想以Json格式獲得響應。 我怎么能在python中做到這一點。

這是我的代碼:

import urllib        
import re     

from bs4 import BeautifulSoup    
link = "http://www.disastercenter.com/crime/uscrime.htm"    
f = urllib.urlopen(link)    
myfile = f.read()    
soup = BeautifulSoup(myfile)    
soup1=soup.find('table', width="100%")    
soup3=str(soup1)    
result = re.sub("<.*?>", "", soup3)    
print(result)    
output=open("output.txt","w")    
output.write(result)    
output.close()    

以下代碼將從兩個表中獲取數據,並將其全部輸出為json格式的字符串。


工作示例(Python 2.7.9):

from lxml import html
import requests
import re as regular_expression
import json

page = requests.get("http://www.disastercenter.com/crime/uscrime.htm")
tree = html.fromstring(page.text)

tables = [tree.xpath('//table/tbody/tr[2]/td/center/center/font/table/tbody'),
          tree.xpath('//table/tbody/tr[5]/td/center/center/font/table/tbody')]

tabs = []

for table in tables:
    tab = []
    for row in table:
        for col in row:
            var = col.text_content()
            var = var.strip().replace(" ", "")
            var = var.split('\n')
            if regular_expression.match('^\d{4}$', var[0].strip()):
                tab_row = {}
                tab_row["Year"] = var[0].strip()
                tab_row["Population"] = var[1].strip()
                tab_row["Total"] = var[2].strip()
                tab_row["Violent"] = var[3].strip()
                tab_row["Property"] = var[4].strip()
                tab_row["Murder"] = var[5].strip()
                tab_row["Forcible_Rape"] = var[6].strip()
                tab_row["Robbery"] = var[7].strip()
                tab_row["Aggravated_Assault"] = var[8].strip()
                tab_row["Burglary"] = var[9].strip()
                tab_row["Larceny_Theft"] = var[10].strip()
                tab_row["Vehicle_Theft"] = var[11].strip()
                tab.append(tab_row)
    tabs.append(tab)

json_data = json.dumps(tabs)

output = open("output.txt", "w")
output.write(json_data)
output.close()

如果您可以使用請求lxml模塊,這可能是您想要的。 此處介紹的數據結構非常簡單,可根據您的需要進行調整。

首先,從您請求的URL獲取響應並將結果解析為HTML樹:

import requests        
from lxml import etree
import json

response = requests.get("http://www.disastercenter.com/crime/uscrime.htm")
tree = etree.HTML(response.text)

假設您要提取兩個表,請創建此XPath並解壓縮結果。 totals是“犯罪數量”, rates是“每10萬人的犯罪率”:

xpath = './/table[@width="100%"][@style="background-color: rgb(255, 255, 255);"]//tbody'
totals, rates = tree.findall(xpath)

提取原始數據( td.find('./')表示第一個子項,無論它有什么標記)並清理字符串(Python 2.x需要r''原始字符串):

raw_data = []
for tbody in totals, rates:
    rows = []
    for tr in tbody.getchildren():
        row = []
        for td in tr.getchildren():
            child = td.find('./')
            if child is not None and child.tag != 'br':
                row.append(child.text.strip(r'\xa0').strip(r'\n').strip())
            else:
                row.append('')
        rows.append(row)
    raw_data.append(rows)

將前兩行中的表頭連接在一起,然后刪除冗余行,在切片表示法中將其視為第11和第12步:

data = {}
data['tags'] = [tag0 + tag1 for tag0, tag1 in zip(raw_data[0][0], raw_data[0][1])]

for raw in raw_data:
    del raw[::12]
    del raw[::11]

存儲其余的原始數據並創建一個JSON文件( 可選:消除帶separators=(',', ':')空格separators=(',', ':') ):

data['totals'], data['rates'] = raw_data[0], raw_data[1]
with open('data.json', 'w') as f:
    json.dump(data, f, separators=(',', ':'))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM