簡體   English   中英

在提取特定亞馬遜賣家的所有產品鏈接時如何處理分頁符

[英]How to handle page breaks while extracting all product links for a particular Amazon seller

我正在編寫一個Python程序,以從賣方頁面中提取具有與某個正則表達式模式匹配的href的錨標簽。

例如,我以字母“ A”開頭的第一個賣方URL如下:

/ s / ref = sr_in_A_p_6_1?fst = as%3Aoff&rh = n%3A2335752011%2Cp_6%3AA15LBIZFCJ59AM

現在,我想要的是通過按照以下模式刮掉帶有hrefs的錨標簽來獲取上述賣方出售的所有產品鏈接

/ Apple工廠解鎖的內部智能手機/ dp / B00NQGP42Y / ref = sr_1_1?m = A15LBIZFCJ59AM

但是第一個URL的產品列表分布在多個頁面上。

鑒於我將Python 2.7和XPATH 1.0字符串函數與regex一起使用,如何處理分頁符?

注意:我使用的是Chrome版本60.0.3112.113(正式版本)(64位)

這是執行此操作的兩個選項:

選項1

&page=3添加到第一個URL的末尾,然后遍歷頁面,直到到達沒有產品鏈接/空消息的頁面。 您可以通過查看是否存在ID為noResultsTitle的元素來檢查是否為空消息。

選項2

在頁面上為該元素查找一個ID為pagnNextLink的標簽-該標簽的href屬性是下一頁。 加載並繼續執行此操作,直到沒有下一頁鏈接/沒有具有該ID的標簽。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM