繁体 English 中英

如何确定文本文件下载的基础URL

[英]How to determine the underlying URL of text file download

原文 2011-02-20 22:47:51 8 2 javascript/ python/ url/ web-scraping

在下面的页面上，可以下载txt文件。 我对txt部分的第一个文件感兴趣。

我如何获取URL。 我可以拉它。 我如何得到不包含python的java脚本的url。

今天它：volume.20110218.txt。

http://www.optionsclearing.com/webapps/trade-volume-download

2 个解决方案

你的问题有点模糊。 听起来你想用urllib2和BeautifulSoup模块做些什么。

使用urllib2的函数从基本URL获取HTML，使用BeautifulSoup解析它并使用表中（第一个TXT？）锚标记的目标（ src属性的值）打开另一个连接并拉出这些内容。 然后打开本地文件（或子进程）并将第二次提取的内容提供给它。

使用BeautifulSoup最棘手的部分是找到唯一标识要提取的内容部分的特征。 现代HTML非常丑陋，并且通过用于生成它的各种工具和库往往会在其中嵌入大量无关垃圾。 （一个提示：单词“class”是一个Python保留关键字以及HTML中的公共属性。因此，您会发现将“class”属性/模式对传递给BeautifulSoup函数最简单方法是将它们包装在字典中： {'class': some_pattern}而不是用于大多数其他参数的更常见的keyword=pattern形式）。

要处理您可能想要阅读的JavaScript：

使用Javascript支持筛选屏幕的好工具是什么？

听起来，目前最好的办法是将基于Java的HTMLUnit软件包设置为网关，然后编写Python连接并控制它。 您也可以尝试使用Selenium来控制真实的浏览器会话，并通过进程间通信机制从中提取信息。

该页面使用javascript链接提交隐藏表单以下载文件。 表单隐藏字段似乎也由javascript填充。

似乎他们这样做是为了使自动下载更难完成。 如果他们不介意自动下载，请询问他们更简单的界面，否则，请不要尝试这样做。

更新：正如Jeremiah评论的那样，他们确实有一个批处理界面：

http://www.optionsclearing.com/market-data/batch-processing.jsp

从外部URL下载文本文件

[英]Download text file from an external URL

从文本文件中读取URL，然后将该文件作为exe下载。使用Javascript

[英]Read URL from text file and then download the file as an exe. Javascript

如何通过直接输入浏览器网址栏来防止文本或脚本文件被查看/下载？

[英]How to prevent text or script file to be seen/download by directly entering it browser url bar?

如何在没有扩展名的 URL 上触发文件下载

[英]How to trigger file download on URL without extension

如何使用casperjs下载没有URL的文件

[英]How to download file without url using casperjs

如何从外部URL下载json文件

[英]How to download json file from external URL

如何从带有大量重定向的 URL 下载文件

[英]How to download file from URL with a lot of redirects

如何通过 JavaScript 从 url 下载 .js 文件？

[英]How to download .js file by JavaScript from an url?

如何使用Javascript从url下载文件？

[英]How to download a file from a url with Javascript?

Javascript：如何从 url 下载 csv 文件

[英]Javascript: How to download csv file from a url

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从外部URL下载文本文件从文本文件中读取URL，然后将该文件作为exe下载。使用Javascript 如何通过直接输入浏览器网址栏来防止文本或脚本文件被查看/下载？如何在没有扩展名的 URL 上触发文件下载如何使用casperjs下载没有URL的文件如何从外部URL下载json文件如何从带有大量重定向的 URL 下载文件如何通过 JavaScript 从 url 下载 .js 文件？如何使用Javascript从url下载文件？ Javascript：如何从 url 下载 csv 文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM