cost 404 ms
從不同的域(主要是)以不同的結構抓取多個單個頁面

[英]Scraping multiple single pages from different domains(mostly) with different structure

我有一個非常具體的URL列表,我需要從這些URL中抓取數據(不同的選擇器/字段)。 來自大約300個具有不同結構(選擇器/ xpath)的不同網站的大約1000個鏈接。 我正在嘗試查看是否有人對如何完成此操作有任何建議。 我在網上尋找解決方案,看到有人推薦Python和Scrapy。 雖 ...

在Laravel 5.4中使用phpcrawl

[英]Using phpcrawl with Laravel 5.4

我正在嘗試在Laravel 5.4中使用cuab的PHPCrawl,並通過使用此軟件包的作曲家將其包括在內: https ://packagist.org/packages/mmerian/phpcrawl 我嘗試運行此示例代碼: 但這會引發多個錯誤,如下所示: 找不到類 ...

我想使用php搜尋器從此文檔中獲取特定的網址

[英]I want to get specific urls from this document using a php crawler

我不知道該怎么辦,我可能會得到一些反對。 我有一個與此類似的網頁: 我想抓取一個頁面,其中填充了我對檢索不感興趣的其他幾個元素。 我只想在li元素內的anchor標記中檢索href屬性,而別無其他。 之后,我將點擊鏈接並獲得另一個具有以下內容的網頁: 因此,最后,我 ...

使用PHPCrawler進行爬網時,https主機無法訪問

[英]https host unreachable when crawling with PHPCrawler

當嘗試使用https協議爬網時,PHPCrawler會返回錯誤,說 但是它使用http://協議對網站進行爬網。 我的問題是為什么會發生這種情況,PHPCrawler是否可以通過https協議抓取網站。 謝謝。 ...

爬過Amazon暢銷書頁面

[英]Crawling through Amazon Bestsellers page

我正在嘗試瀏覽Amazon暢銷書頁面,該頁面列出了排名前100的暢銷書項目,每頁中有20個項目。 在每個循環中,$ i值都會更改並附加到URL。 但是只有前20個項目被顯示5次,我認為這與ajax分頁有關,但是我無法弄清楚它是什么。 ...

2015-10-28 09:16:17   1   926    php / phpcrawl  
我如何從網站獲取所有的網絡鏈接?

[英]How do i get all the weblinks from a website?

我想獲取網站上所有可用的鏈接(網絡帖子)。 而且,如果有任何新帖子添加到網站,我也應該能夠獲得鏈接。 我將列出10個網站,並且鏈接提取過程需要定期運行。 有人可以幫助我如何僅獲取發布鏈接和添加的新發布鏈接。 ...

PHPCrawl-嘗試在類“ PHPCrawlerUtils”上調用方法“ getURIContent”

[英]PHPCrawl - Attempted to call method “getURIContent” on class “PHPCrawlerUtils”

我正在嘗試將SymCony2與PHPCrawl一起使用。 我首先使用composer安裝了PHPCrawl庫,然后在捆綁包中創建了一個文件夾“ DependencyInjection”,在其中放置了擴展MyCrawler的類“ MyCrawler”。 我將其配置為服務。 現在,當我啟動搜尋 ...

在cronjob上優化爬蟲腳本

[英]Optimize crawler script on cronjob

我在MySQL表中有大約6,600萬個域,我需要在所有域上運行搜尋器,並在搜尋器完成后更新行數= 1。 爬蟲腳本是在php中,使用php爬蟲庫是腳本。 $這 - > urls-> incrementCount(); 僅更新該行並標記count列= 1 並且因為我 ...

PHPCrawl具有simplehtmldom來解析數據

[英]PHPCrawl with simplehtmldom to parse data

我正在嘗試使用PHPCrawl爬網和收集URL,然后饋送到simplehtmldom以從html中提取所需的數據並存儲在mysql數據庫中。 現在我得到了錯誤 ** 致命錯誤:在第44行的/home/content/54/11109254/html/PHPCrawl_081/s ...

如何使用PHPCrawler用PHP刪除某些標簽和內容

[英]How do I remove certain tags and contents with PHP, using PHPCrawler

我目前正在將PHPCrawler用於網站上的某些搜索功能。 我需要從索引中刪除一些頁面元素。 例如,我使用了: 刪除列表,因為我不希望結果中包含列表。 這完全可以正常工作。 現在,我需要刪除的另一件事是: 所以為此我嘗試了: 因為可能不是每個頁面都有div ...

如何抓取一個頁面而不包含其中的任何鏈接並輸出源?

[英]how to crawl a single page and not any links contained in it and output the source?

我正在使用phpcrawl ,下面是代碼。 我想抓取提到的鏈接並獲得所有工作。 現在,我通過傳遞鏈接來對其進行爬網,但它對我們在頁面源代碼視圖中看到的所有鏈接進行爬網。 但是我只想看一下我傳遞的鏈接的來源,並使用xpath來完成工作。 ...

PHPCrawl可以用於抓取網站嗎?與Scrapy有何不同?

[英]Can PHPCrawl can be used for scraping websites and how different is from Scrapy?

我想抓取一些網站,並建議許多Scrapy 。 它是基於Python的,由於我對PHP非常熟悉,因此我尋找了替代方案。 我有一個履帶式PHPCrawl 。 我不確定它只是爬行器還是會提供抓取工具。 如果可用於抓取,它將支持XPath或正則表達式。 如何將其與Python上的Scr ...

為PHPCrawl中的特定域設置cookie

[英]Set cookie for a specific domain in PHPCrawl

我將PHPCrawl用於爬網網站,但現在我想向特定域添加cookie,因為該域具有身份驗證,並且我想在授權頁面中獲取信息。 如何將Cookie添加到特定域? ...

PHPcrawler-tmp文件

[英]PHPcrawler - tmp file

我下載了最新版本的phpcrawler ,並且可以訪問自己的測試網站。 我在該站點上只有一幅圖像和一些文本,我運行$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");器,但收到的文本減去圖像,因為我做了正確的$crawler-> ...

2012-04-02 06:08:11   1   473    phpcrawl  
如何使用phpcrawl類的setTmpFile()方法?

[英]How do I use setTmpFile() method of phpcrawl class?

我正在使用此WebCrawler類http://phpcrawl.cuab.de 。 有一個名為“ setTmpFile()”的方法http://phpcrawl.cuab.de/classreference.html#settmpfile 。 我想知道如何使用此方法? 請給我推薦一些很好 ...

2012-03-28 15:55:18   1   119    php / phpcrawl  
PHP Web搜尋器,數據結構和存儲,它將與PHPCrawl一起使用嗎?

[英]PHP web crawler, data structure and storage, Will it work with PHPCrawl?

如果有其他編寫的類可以做到這一點,那么鏈接將很棒。 如果沒有,我該如何使用PHPCrawl? 是否可以根據特定於站點的一組規則來存儲已爬網站點的特定信息? 例如, [div.wantThis, img#defaultPicture]是為站點A返回的數組,而只有[div.shortTex ...

實例化一個新的 PHPCrawl Class 會拋出錯誤“Call to undefined method stdClass::receivePage()”

[英]Instantiating a new PHPCrawl Class throws the error “Call to undefined method stdClass::receivePage()”

我使用 foreach 循環遍歷多個種子 URL。 在每個循環中,我使用 PHPCrawl 和下一個種子 url 實例化一個爬蟲。 它在第一個循環中運行良好,但在完成任何爬網之前第二次拋出以下錯誤: 我沒有以任何方式修改原始的 PHPCrawl V0.70 類。 我只擴展了 PHPCrawler ...

單頁 web 爬入 PHP

[英]single page web crawl in PHP

我是 PHP 的新手。 有人可以幫我弄清楚如何抓取單個 html 頁面並打印該頁面源代碼中的所有單詞嗎? ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM