標簽[phpcrawl] - 堆棧內存溢出

[英]Scraping multiple single pages from different domains(mostly) with different structure

我有一個非常具體的URL列表，我需要從這些URL中抓取數據（不同的選擇器/字段）。來自大約300個具有不同結構（選擇器/ xpath）的不同網站的大約1000個鏈接。我正在嘗試查看是否有人對如何完成此操作有任何建議。我在網上尋找解決方案，看到有人推薦Python和Scrapy。雖 ...

在Laravel 5.4中使用phpcrawl

[英]Using phpcrawl with Laravel 5.4

我正在嘗試在Laravel 5.4中使用cuab的PHPCrawl，並通過使用此軟件包的作曲家將其包括在內： https ://packagist.org/packages/mmerian/phpcrawl 我嘗試運行此示例代碼：但這會引發多個錯誤，如下所示：找不到類 ...

我想使用php搜尋器從此文檔中獲取特定的網址

[英]I want to get specific urls from this document using a php crawler

我不知道該怎么辦，我可能會得到一些反對。我有一個與此類似的網頁：我想抓取一個頁面，其中填充了我對檢索不感興趣的其他幾個元素。我只想在li元素內的anchor標記中檢索href屬性，而別無其他。之后，我將點擊鏈接並獲得另一個具有以下內容的網頁：因此，最后，我 ...

使用PHPCrawler進行爬網時，https主機無法訪問

[英]https host unreachable when crawling with PHPCrawler

當嘗試使用https協議爬網時，PHPCrawler會返回錯誤，說但是它使用http://協議對網站進行爬網。我的問題是為什么會發生這種情況，PHPCrawler是否可以通過https協議抓取網站。謝謝。 ...

爬過Amazon暢銷書頁面

[英]Crawling through Amazon Bestsellers page

我正在嘗試瀏覽Amazon暢銷書頁面，該頁面列出了排名前100的暢銷書項目，每頁中有20個項目。在每個循環中，$ i值都會更改並附加到URL。但是只有前20個項目被顯示5次，我認為這與ajax分頁有關，但是我無法弄清楚它是什么。 ...

我如何從網站獲取所有的網絡鏈接？

[英]How do i get all the weblinks from a website?

我想獲取網站上所有可用的鏈接（網絡帖子）。而且，如果有任何新帖子添加到網站，我也應該能夠獲得鏈接。我將列出10個網站，並且鏈接提取過程需要定期運行。有人可以幫助我如何僅獲取發布鏈接和添加的新發布鏈接。 ...

PHPCrawl-嘗試在類“ PHPCrawlerUtils”上調用方法“ getURIContent”

[英]PHPCrawl - Attempted to call method “getURIContent” on class “PHPCrawlerUtils”

我正在嘗試將SymCony2與PHPCrawl一起使用。我首先使用composer安裝了PHPCrawl庫，然后在捆綁包中創建了一個文件夾“ DependencyInjection”，在其中放置了擴展MyCrawler的類“ MyCrawler”。我將其配置為服務。現在，當我啟動搜尋 ...

在cronjob上優化爬蟲腳本

[英]Optimize crawler script on cronjob

我在MySQL表中有大約6,600萬個域，我需要在所有域上運行搜尋器，並在搜尋器完成后更新行數= 1。爬蟲腳本是在php中，使用php爬蟲庫是腳本。 $這 - > urls-> incrementCount（）; 僅更新該行並標記count列= 1 並且因為我 ...

PHPCrawl具有simplehtmldom來解析數據

[英]PHPCrawl with simplehtmldom to parse data

我正在嘗試使用PHPCrawl爬網和收集URL，然后饋送到simplehtmldom以從html中提取所需的數據並存儲在mysql數據庫中。現在我得到了錯誤 ** 致命錯誤：在第44行的/home/content/54/11109254/html/PHPCrawl_081/s ...

如何使用PHPCrawler用PHP刪除某些標簽和內容

[英]How do I remove certain tags and contents with PHP, using PHPCrawler

我目前正在將PHPCrawler用於網站上的某些搜索功能。我需要從索引中刪除一些頁面元素。例如，我使用了：刪除列表，因為我不希望結果中包含列表。這完全可以正常工作。現在，我需要刪除的另一件事是：所以為此我嘗試了：因為可能不是每個頁面都有div ...

如何抓取一個頁面而不包含其中的任何鏈接並輸出源？

[英]how to crawl a single page and not any links contained in it and output the source?

我正在使用phpcrawl ，下面是代碼。我想抓取提到的鏈接並獲得所有工作。現在，我通過傳遞鏈接來對其進行爬網，但它對我們在頁面源代碼視圖中看到的所有鏈接進行爬網。但是我只想看一下我傳遞的鏈接的來源，並使用xpath來完成工作。 ...

PHPCrawl可以用於抓取網站嗎？與Scrapy有何不同？

[英]Can PHPCrawl can be used for scraping websites and how different is from Scrapy?

我想抓取一些網站，並建議許多Scrapy 。它是基於Python的，由於我對PHP非常熟悉，因此我尋找了替代方案。我有一個履帶式PHPCrawl 。我不確定它只是爬行器還是會提供抓取工具。如果可用於抓取，它將支持XPath或正則表達式。如何將其與Python上的Scr ...

PHPCrawl：將站點地圖輸出到服務器上的XML文件

[英]PHPCrawl: Output sitemap to XML file on server

我正在嘗試將PHPCrawl用於我的網站的站點地圖。但是，我在嘗試使其輸出到服務器上的xml網站地圖時遇到了麻煩。有什么幫助嗎？ ...

為PHPCrawl中的特定域設置cookie

[英]Set cookie for a specific domain in PHPCrawl

我將PHPCrawl用於爬網網站，但現在我想向特定域添加cookie，因為該域具有身份驗證，並且我想在授權頁面中獲取信息。如何將Cookie添加到特定域？ ...

PHPcrawler-tmp文件

[英]PHPcrawler - tmp file

我下載了最新版本的phpcrawler ，並且可以訪問自己的測試網站。我在該站點上只有一幅圖像和一些文本，我運行$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");器，但收到的文本減去圖像，因為我做了正確的$crawler-> ...

如何使用phpcrawl類的setTmpFile（）方法？

[英]How do I use setTmpFile() method of phpcrawl class?

我正在使用此WebCrawler類http://phpcrawl.cuab.de 。有一個名為“ setTmpFile（）”的方法http://phpcrawl.cuab.de/classreference.html#settmpfile 。我想知道如何使用此方法？請給我推薦一些很好 ...

PHP Web搜尋器，數據結構和存儲，它將與PHPCrawl一起使用嗎？

[英]PHP web crawler, data structure and storage, Will it work with PHPCrawl?

如果有其他編寫的類可以做到這一點，那么鏈接將很棒。如果沒有，我該如何使用PHPCrawl？是否可以根據特定於站點的一組規則來存儲已爬網站點的特定信息？例如， [div.wantThis, img#defaultPicture]是為站點A返回的數組，而只有[div.shortTex ...

實例化一個新的 PHPCrawl Class 會拋出錯誤“Call to undefined method stdClass::receivePage()”

[英]Instantiating a new PHPCrawl Class throws the error “Call to undefined method stdClass::receivePage()”

我使用 foreach 循環遍歷多個種子 URL。在每個循環中，我使用 PHPCrawl 和下一個種子 url 實例化一個爬蟲。它在第一個循環中運行良好，但在完成任何爬網之前第二次拋出以下錯誤：我沒有以任何方式修改原始的 PHPCrawl V0.70 類。我只擴展了 PHPCrawler ...

單頁 web 爬入 PHP

[英]single page web crawl in PHP

我是 PHP 的新手。有人可以幫我弄清楚如何抓取單個 html 頁面並打印該頁面源代碼中的所有單詞嗎？ ...

計算站點中的頁面數

[英]Count the number of pages in a site

我想知道一個站點中有多少個公共頁面，例如smashingmagzine.com。有沒有計算頁數的方法？ ...