繁体   English   中英

使用python登录后如何抓取网页?

[英]how to scrape a webpage after a login using python?

登录后,我需要在 facebook 上抓取我的帖子,但我不知道如何“保持连接活跃”。

我正在使用 urllib,我知道如何连接到服务器、获取页面、发送数据,但我不知道如何处理 cookie 以访问需要登录的页面。 我发现我需要 cookielib 来完成这项工作,但找不到教程或解释如何完成工作的内容。

你能以某种方式帮助我吗? 或者给我一个教程的链接?

请不要抓取您的 Facebook 页面,它违反条款和条件,而是使用Graph API ,它允许您注册可以获取帖子的应用程序

为此,您需要在应用程序中维护一个CookieJar 这个库就像 Python HTTP 客户端的插件,它允许您在抓取会话中保留 cookie(例如您所追求的登录令牌)。

请注意,您可能需要为 Facebook指定有效的用户代理才能接受您的请求。

为什么不使用现有的Python for Facebook库? 如果您只是想挂钩 API 并发布/检索状态消息,我认为它不会那么复杂。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM