簡體 English 中英

如何確定文本文件下載的基礎URL

[英]How to determine the underlying URL of text file download

原文 2011-02-20 22:47:51 9 2 javascript/ python/ url/ web-scraping

在下面的頁面上，可以下載txt文件。 我對txt部分的第一個文件感興趣。

我如何獲取URL。 我可以拉它。 我如何得到不包含python的java腳本的url。

今天它：volume.20110218.txt。

http://www.optionsclearing.com/webapps/trade-volume-download

2 個解決方案

你的問題有點模糊。 聽起來你想用urllib2和BeautifulSoup模塊做些什么。

使用urllib2的函數從基本URL獲取HTML，使用BeautifulSoup解析它並使用表中（第一個TXT？）錨標記的目標（ src屬性的值）打開另一個連接並拉出這些內容。 然后打開本地文件（或子進程）並將第二次提取的內容提供給它。

使用BeautifulSoup最棘手的部分是找到唯一標識要提取的內容部分的特征。 現代HTML非常丑陋，並且通過用於生成它的各種工具和庫往往會在其中嵌入大量無關垃圾。 （一個提示：單詞“class”是一個Python保留關鍵字以及HTML中的公共屬性。因此，您會發現將“class”屬性/模式對傳遞給BeautifulSoup函數最簡單方法是將它們包裝在字典中： {'class': some_pattern}而不是用於大多數其他參數的更常見的keyword=pattern形式）。

要處理您可能想要閱讀的JavaScript：

使用Javascript支持篩選屏幕的好工具是什么？

聽起來，目前最好的辦法是將基於Java的HTMLUnit軟件包設置為網關，然后編寫Python連接並控制它。 您也可以嘗試使用Selenium來控制真實的瀏覽器會話，並通過進程間通信機制從中提取信息。

該頁面使用javascript鏈接提交隱藏表單以下載文件。 表單隱藏字段似乎也由javascript填充。

似乎他們這樣做是為了使自動下載更難完成。 如果他們不介意自動下載，請詢問他們更簡單的界面，否則，請不要嘗試這樣做。

更新：正如Jeremiah評論的那樣，他們確實有一個批處理界面：

http://www.optionsclearing.com/market-data/batch-processing.jsp

從外部URL下載文本文件

[英]Download text file from an external URL

從文本文件中讀取URL，然后將該文件作為exe下載。使用Javascript

[英]Read URL from text file and then download the file as an exe. Javascript

如何通過直接輸入瀏覽器網址欄來防止文本或腳本文件被查看/下載？

[英]How to prevent text or script file to be seen/download by directly entering it browser url bar?

如何在沒有擴展名的 URL 上觸發文件下載

[英]How to trigger file download on URL without extension

如何使用casperjs下載沒有URL的文件

[英]How to download file without url using casperjs

如何從外部URL下載json文件

[英]How to download json file from external URL

如何從帶有大量重定向的 URL 下載文件

[英]How to download file from URL with a lot of redirects

如何通過 JavaScript 從 url 下載 .js 文件？

[英]How to download .js file by JavaScript from an url?

如何使用Javascript從url下載文件？

[英]How to download a file from a url with Javascript?

Javascript：如何從 url 下載 csv 文件

[英]Javascript: How to download csv file from a url

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從外部URL下載文本文件從文本文件中讀取URL，然后將該文件作為exe下載。使用Javascript 如何通過直接輸入瀏覽器網址欄來防止文本或腳本文件被查看/下載？如何在沒有擴展名的 URL 上觸發文件下載如何使用casperjs下載沒有URL的文件如何從外部URL下載json文件如何從帶有大量重定向的 URL 下載文件如何通過 JavaScript 從 url 下載 .js 文件？如何使用Javascript從url下載文件？ Javascript：如何從 url 下載 csv 文件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM