簡體   English   中英

從網站下載文件進行解析

[英]Downloading files from a website to parse

所以我正在開發一個使用來自

http://censtats.census.gov/cgi-bin/cbpnaic/cbpsect.pl

我創建了一個解析器,用於解析.txt文件中所需的數據,您可以從頁面底部的每個數據集下載該文件。 但是,我想使其動態化,以便它可以用於任何數據集,而不僅僅是我下載的數據集。 無論如何,我可以使用python從站點獲取文本文件嗎? 這些文件以相同的名稱下載,因此我對如何做到這一點一無所知。

按鈕的html代碼:

    <form method=post action=/cgi-bin/cbpnaic/cbpsect.txt>
<input name=Year value=2013 type=hidden><input name=County value=017 type=hidden><input name=State value=38 type=hidden><input name=Noise value=YES type=hidden><input name=LFO value=YES type=hidden><input type=submit value="Save as text file.">
</form>

當然可以。 不過,這需要一些工作:

  1. 查看urllib3以從Internet下載內容。 (比較容易使用,但不能在基地的Python,是請求庫 )。
  2. 當使用POST http命令請求文件時,請檢查所引用頁面的HTML源,以查看在POST命令中必須發送哪些參數才能獲取所需的頁面(提示,它位於<form></form>標簽,例如,您需要在POST查詢中添加state=19以獲得愛荷華州的數據。
  3. 在1的下載命令中,您可以指定要保存的文件的名稱,可以從參數2構造它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM