使用python從亞馬遜頁面中獲取ASIN號

Question

我會從亞馬遜頁面上刮掉所有的asin數字。 我需要該列表來對每個獲得的asin進行抓取。

我嘗試使用此代碼，但只能讀取3個asin數字作為結果。

我想我做錯了正則表達式

這是我的代碼：

import requests

###Amazon URL
urls = ['https://www.amazon.it/gp/bestsellers/apparel/', 'https://www.amazon.it/gp/bestsellers/electronics/', 'https://www.amazon.it/gp/bestsellers/books/']

htmltexts = []
for url in urls:
    req = requests.get(url).content
    htmltexts.append(req)

import re
for htmltext in htmltexts:
    text = str(htmltext)
    pattern = re.compile(r"/.*/dp/(.*?)\"")
    s = re.findall(pattern, text)
    print (s)

我希望每頁至少有20個結果。 該程序已構建了3個亞馬遜頁面。 所以我至少需要60個結果

Answer 1

RegEx的問題在於/.*/dp/(.*?)\\"中的/.*/部分意味着它可以匹配/和/之間的任何符號集。在您的情況下，它可以匹配其中的大多數符號響應消息。

嘗試以下RegEx： /[^/]+/dp/([^"]+) ，請參見下面的代碼。它從每個頁面獲取50個ASIN：

import requests
import re

urls = [
    'https://www.amazon.it/gp/bestsellers/apparel/',
    'https://www.amazon.it/gp/bestsellers/electronics/',
    'https://www.amazon.it/gp/bestsellers/books/'
]

for url in urls:
    content = requests.get(url).content
    decoded_content = content.decode()

    asins = set(re.findall(r'/[^/]+/dp/([^"?]+)', decoded_content))
    print(asins)

使用python從亞馬遜頁面中獲取ASIN號

問題描述

1 個解決方案

解決方案1
1 2019-07-28 20:38:45

使用python從亞馬遜頁面中獲取ASIN號

問題描述

1 個解決方案

解決方案1 1 2019-07-28 20:38:45

解決方案1
1 2019-07-28 20:38:45