![](/img/trans.png)
[英]Scraping multiple single pages from different domains(mostly) with different structure
我有一個非常具體的URL列表,我需要從這些URL中抓取數據(不同的選擇器/字段)。 來自大約300個具有不同結構(選擇器/ xpath)的不同網站的大約1000個鏈接。 我正在嘗試查看是否有人對如何完成此操作有任何建議。 我在網上尋找解決方案,看到有人推薦Python和Scrapy。 雖 ...
[英]Scraping multiple single pages from different domains(mostly) with different structure
我有一個非常具體的URL列表,我需要從這些URL中抓取數據(不同的選擇器/字段)。 來自大約300個具有不同結構(選擇器/ xpath)的不同網站的大約1000個鏈接。 我正在嘗試查看是否有人對如何完成此操作有任何建議。 我在網上尋找解決方案,看到有人推薦Python和Scrapy。 雖 ...
[英]Using phpcrawl with Laravel 5.4
我正在嘗試在Laravel 5.4中使用cuab的PHPCrawl,並通過使用此軟件包的作曲家將其包括在內: https ://packagist.org/packages/mmerian/phpcrawl 我嘗試運行此示例代碼: 但這會引發多個錯誤,如下所示: 找不到類 ...
[英]I want to get specific urls from this document using a php crawler
我不知道該怎么辦,我可能會得到一些反對。 我有一個與此類似的網頁: 我想抓取一個頁面,其中填充了我對檢索不感興趣的其他幾個元素。 我只想在li元素內的anchor標記中檢索href屬性,而別無其他。 之后,我將點擊鏈接並獲得另一個具有以下內容的網頁: 因此,最后,我 ...
[英]https host unreachable when crawling with PHPCrawler
當嘗試使用https協議爬網時,PHPCrawler會返回錯誤,說 但是它使用http://協議對網站進行爬網。 我的問題是為什么會發生這種情況,PHPCrawler是否可以通過https協議抓取網站。 謝謝。 ...
[英]Crawling through Amazon Bestsellers page
我正在嘗試瀏覽Amazon暢銷書頁面,該頁面列出了排名前100的暢銷書項目,每頁中有20個項目。 在每個循環中,$ i值都會更改並附加到URL。 但是只有前20個項目被顯示5次,我認為這與ajax分頁有關,但是我無法弄清楚它是什么。 ...
[英]How do i get all the weblinks from a website?
我想獲取網站上所有可用的鏈接(網絡帖子)。 而且,如果有任何新帖子添加到網站,我也應該能夠獲得鏈接。 我將列出10個網站,並且鏈接提取過程需要定期運行。 有人可以幫助我如何僅獲取發布鏈接和添加的新發布鏈接。 ...
[英]PHPCrawl - Attempted to call method “getURIContent” on class “PHPCrawlerUtils”
我正在嘗試將SymCony2與PHPCrawl一起使用。 我首先使用composer安裝了PHPCrawl庫,然后在捆綁包中創建了一個文件夾“ DependencyInjection”,在其中放置了擴展MyCrawler的類“ MyCrawler”。 我將其配置為服務。 現在,當我啟動搜尋 ...
[英]Optimize crawler script on cronjob
我在MySQL表中有大約6,600萬個域,我需要在所有域上運行搜尋器,並在搜尋器完成后更新行數= 1。 爬蟲腳本是在php中,使用php爬蟲庫是腳本。 $這 - > urls-> incrementCount(); 僅更新該行並標記count列= 1 並且因為我 ...
[英]PHPCrawl with simplehtmldom to parse data
我正在嘗試使用PHPCrawl爬網和收集URL,然后饋送到simplehtmldom以從html中提取所需的數據並存儲在mysql數據庫中。 現在我得到了錯誤 ** 致命錯誤:在第44行的/home/content/54/11109254/html/PHPCrawl_081/s ...
[英]How do I remove certain tags and contents with PHP, using PHPCrawler
我目前正在將PHPCrawler用於網站上的某些搜索功能。 我需要從索引中刪除一些頁面元素。 例如,我使用了: 刪除列表,因為我不希望結果中包含列表。 這完全可以正常工作。 現在,我需要刪除的另一件事是: 所以為此我嘗試了: 因為可能不是每個頁面都有div ...
[英]how to crawl a single page and not any links contained in it and output the source?
我正在使用phpcrawl ,下面是代碼。 我想抓取提到的鏈接並獲得所有工作。 現在,我通過傳遞鏈接來對其進行爬網,但它對我們在頁面源代碼視圖中看到的所有鏈接進行爬網。 但是我只想看一下我傳遞的鏈接的來源,並使用xpath來完成工作。 ...
[英]Can PHPCrawl can be used for scraping websites and how different is from Scrapy?
我想抓取一些網站,並建議許多Scrapy 。 它是基於Python的,由於我對PHP非常熟悉,因此我尋找了替代方案。 我有一個履帶式PHPCrawl 。 我不確定它只是爬行器還是會提供抓取工具。 如果可用於抓取,它將支持XPath或正則表達式。 如何將其與Python上的Scr ...
[英]PHPCrawl: Output sitemap to XML file on server
我正在嘗試將PHPCrawl用於我的網站的站點地圖。 但是,我在嘗試使其輸出到服務器上的xml網站地圖時遇到了麻煩。 有什么幫助嗎? ...
[英]Set cookie for a specific domain in PHPCrawl
我將PHPCrawl用於爬網網站,但現在我想向特定域添加cookie,因為該域具有身份驗證,並且我想在授權頁面中獲取信息。 如何將Cookie添加到特定域? ...
[英]PHPcrawler - tmp file
我下載了最新版本的phpcrawler ,並且可以訪問自己的測試網站。 我在該站點上只有一幅圖像和一些文本,我運行$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");器,但收到的文本減去圖像,因為我做了正確的$crawler-> ...
[英]How do I use setTmpFile() method of phpcrawl class?
我正在使用此WebCrawler類http://phpcrawl.cuab.de 。 有一個名為“ setTmpFile()”的方法http://phpcrawl.cuab.de/classreference.html#settmpfile 。 我想知道如何使用此方法? 請給我推薦一些很好 ...
[英]PHP web crawler, data structure and storage, Will it work with PHPCrawl?
如果有其他編寫的類可以做到這一點,那么鏈接將很棒。 如果沒有,我該如何使用PHPCrawl? 是否可以根據特定於站點的一組規則來存儲已爬網站點的特定信息? 例如, [div.wantThis, img#defaultPicture]是為站點A返回的數組,而只有[div.shortTex ...
[英]Instantiating a new PHPCrawl Class throws the error “Call to undefined method stdClass::receivePage()”
我使用 foreach 循環遍歷多個種子 URL。 在每個循環中,我使用 PHPCrawl 和下一個種子 url 實例化一個爬蟲。 它在第一個循環中運行良好,但在完成任何爬網之前第二次拋出以下錯誤: 我沒有以任何方式修改原始的 PHPCrawl V0.70 類。 我只擴展了 PHPCrawler ...
[英]single page web crawl in PHP
我是 PHP 的新手。 有人可以幫我弄清楚如何抓取單個 html 頁面並打印該頁面源代碼中的所有單詞嗎? ...
[英]Count the number of pages in a site
我想知道一個站點中有多少個公共頁面,例如smashingmagzine.com。 有沒有計算頁數的方法? ...