[英]How to determine the underlying URL of text file download
在下面的頁面上,可以下載txt文件。 我對txt部分的第一個文件感興趣。
我如何獲取URL。 我可以拉它。 我如何得到不包含python的java腳本的url。
今天它:volume.20110218.txt。
http://www.optionsclearing.com/webapps/trade-volume-download
你的問題有點模糊。 聽起來你想用urllib2
和BeautifulSoup
模塊做些什么。
使用urllib2
的函數從基本URL獲取HTML,使用BeautifulSoup
解析它並使用表中(第一個TXT?)錨標記的目標( src
屬性的值)打開另一個連接並拉出這些內容。 然后打開本地文件(或子進程)並將第二次提取的內容提供給它。
使用BeautifulSoup最棘手的部分是找到唯一標識要提取的內容部分的特征。 現代HTML非常丑陋,並且通過用於生成它的各種工具和庫往往會在其中嵌入大量無關垃圾。 (一個提示:單詞“class”是一個Python保留關鍵字以及HTML中的公共屬性。因此,您會發現將“class”屬性/模式對傳遞給BeautifulSoup函數最簡單方法是將它們包裝在字典中: {'class': some_pattern}
而不是用於大多數其他參數的更常見的keyword=pattern
形式)。
要處理您可能想要閱讀的JavaScript:
聽起來,目前最好的辦法是將基於Java的HTMLUnit軟件包設置為網關,然后編寫Python連接並控制它。 您也可以嘗試使用Selenium來控制真實的瀏覽器會話,並通過進程間通信機制從中提取信息。
該頁面使用javascript鏈接提交隱藏表單以下載文件。 表單隱藏字段似乎也由javascript填充。
似乎他們這樣做是為了使自動下載更難完成。 如果他們不介意自動下載,請詢問他們更簡單的界面,否則,請不要嘗試這樣做。
更新:正如Jeremiah評論的那樣,他們確實有一個批處理界面:
http://www.optionsclearing.com/market-data/batch-processing.jsp
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.