繁体   English   中英

以编程方式登录Python Web搜寻器

[英]Programmatically login a Python web crawler

我正在尝试制作一个网络爬网程序,该爬网程序将使用我的凭据登录到学校网站,然后对网站的某些部分进行爬网。 我正在使用在这里找到的Beautiful Soup Python库:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

我可以为用户名和密码字段获取正确的源代码,但是我不知道如何提供它们。 另外,提交它们也有同样的问题。 我已经删除了“提交”按钮的源代码,但是我不知道如何请求登录。

谢谢,

您可以使用Mechanize (模拟浏览器的库),也可以手动发送POST / GET请求。

Mechanize的主页上有完整的示例,您可以尝试。

如果您想接受手动请求,通常我只需要打开Chrome的JS控制台,序列化表格并查看发送了哪些参数:

> $('form#search').serialize()
"q="

然后,您只需使用以下参数将POST请求发送到该URL:

import requests  # Install `requests` if you want to use my example code

session = requests.session()  # So your cookies persist across requests
response = session.post('your_url', data={
    'q': 'search string'
}).text

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM