使用美麗的湯進行網頁抓取，提供多種結果

Question

我正在抓取 [this][1] 頁面並想要代理的手機號碼。

我正在使用這個腳本

# phone num
        phonenum=soup.select(".phone-content")

        for a in phonenum:
            print a.text.strip().encode("utf-8")

但它多次給出電話號碼。 我不知道為什么。 如何將其限制為僅一個電話號碼？ [1]： http : //dubai.dubizzle.com/property-for-rent/residential/apartmentflat/2014/2/2/do-you-want-to-live-in-amazing-views-of-bu- 2-3/?back=ZHViYWkuZHViaXp6bGUuY29tL3Byb3BlcnR5LWZvci1yZW50L3Jlc2lkZW50aWFsL2FwYXJ0bWVudGZsYXQv&pos=1

Answer 1

您正在抓取的頁面有兩個類為phone-content元素。 這就是為什么你會得到兩個電話號碼。 您可以將更具體的 CSS 選擇器傳遞給.select方法：

phonenum=soup.select("#listing-reply-controls .phone-content")

作為替代方案，您可以刪除重復的電話號碼：

phonenum=soup.select(".phone-content")
# set comprehension will remove the duplicate phone numbers
unique_phonenum = {p.text.strip().encode("utf-8") for p in phonenum}

for a in unique_phonenum:
    print a

使用美麗的湯進行網頁抓取，提供多種結果

問題描述

1 個解決方案

解決方案1
0 已采納 2014-02-02 18:48:58

使用美麗的湯進行網頁抓取，提供多種結果

問題描述

1 個解決方案

解決方案1 0 已采納 2014-02-02 18:48:58

解決方案1
0 已采納 2014-02-02 18:48:58