繁体   English   中英

带有 Selenium 和 Node.js 的递归 Facebook 页面 Webscraper

[英]Recursive Facebook Page Webscraper with Selenium & Node.js

我尝试做的是遍历 Facebook 页面 ID 数组并从每个事件页面返回代码。 不幸的是,我只得到数组中最后一个页面 ID 的代码,但与数组中元素的次数一样多。 例如,当我在数组中有 3 个 ID 时,我得到的是最后一页 ID 代码的 3 倍。

我已经尝试过 async await 但我没有成功。

预期的结果将是每个页面的代码。 感谢您提供任何帮助和示例。

 //Looping through pages pages.forEach( function(page) { //Creating URL let url = "https://mbasic.facebook.com/"+page+"?v=events"; //Getting URL driver.get(url).then( function() { //Page loaded driver.getPageSource().then(function(result) { console.log(result); }); } ); } );

当我使用 python 和 selenium 创建刮板时,您遇到了同样的问题。 Facebook 有手动更改 URL 的对策,您无法更改它,即使它是自动化的,我也会一次又一次地收到相同的数据。 为了获得良好的结果,您需要访问 Facebook Graph API,该 API 提供了完整的 Facebook 页面对象及其分页 URL。

或者我写的第二种方式是我在 selenium 浏览器自动化的点击按钮上向下滚动下一页。它不会像你打字那样工作,我更喜欢使用图形 API

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM