簡體   English   中英

Tripadvisor的Python網絡抓取工具未獲取某些信息

[英]Python web scraper for Tripadvisor not getting some information

我不確定這是否是發布此內容的合適位置,但是我是python的初學者,需要我正在從事的Web刮板項目的一些幫助!

到目前為止,這是我寫的內容:

https://github.com/killersoda288/help/blob/master/Shortlist.py

我遇到了一些問題,我什至不知道如何開始使用Google谷歌搜索,將不勝感激!

最嚴重的問題是某些信息似乎沒有被隨機刮取。 我已經運行了幾次代碼,不同的屬性將顯示為0星級或0個房間,這確實讓我感到困惑。

我還有另一個不太嚴重的問題是效率。 完成一頁大約需要1分鍾。 我沒有什么可比擬的,但我想盡可能提高效率! 問題是,我不確定該怎么做。

再次感謝您的閱讀! 將不勝感激任何建議:)

讓我總結一下您的問題:

  1. 無法提取房間數或星級。

    您需要查看更多項目以找到更多常見的模式來提取它們。 我瀏覽了一下該頁面,發現.ui_bubble_rating很可能會提取星級, .room-info可能會對房間號有所幫助。 您可以隨時進行驗證。 (我希望我是對的:P)

  2. 您需要迭代每個商品的詳細信息網址,因此將花費很長時間,也就是說,如果一個頁面包含20個商品,那么刮板需要發送20 + 1(此頁面為1)請求,如何對此進行優化?

    由於僅在詳細頁面上找到房間號,因此刮板應迭代每個項目。 您可以通過多線程加載這些詳細信息頁面。 Scrapy可以很好地完成此任務。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM