[英]How to remove duplicates from string list in python?
我需要一些幫助......我是 python 的新手,我有一個項目,從網站抓取廣告鏈接並將它們保存在 JSON 文件中,以便稍后在另一個腳本中使用......所有廣告鏈接都有這樣的形式:
https://domain/details.com?id=123456&pageNumber=1&len=en...
爬蟲加入每個頁面以提取公告並將它們存儲在 JSON 文件中。
問題:已經存在推廣公告,推廣公告出現在每個頁面的頂部,並會保存在一個 JSON 文件中,如下所示:
{ https://domain/details.com?id=123456&pageNumber=1&len=en&searchId=93wsi-sais93-sdjs...
https://domain/details.com?id=283924&pageNumber=1&len=en&searchId=93wsi-sais93-sdjs...
... Other links from page 1...
https://domain/details.com?id=123456&pageNumber=2&len=en&searchId=si39-s9djw9-3jdss...}
我只需要獨特的公告...
用於生成鏈接的 lop:
links = []
for ad in dealersAd:
href = ad.get_attribute("href")
links.append(href)
JSON文件中保存鏈接的代碼:
# Save links in json file
dictionary = {
"Links" : links
}
json_dump = json.dumps(dictionary, indent=2, sort_keys=True)
# Create file and insert links
with open("../mobilede/mobilede selenium/src/links.json", "w") as f:
f.write(json_dump)
有什么方法可以從鏈接中獲取特定的?id=
select,分析 id,如果列表中已經存在,則刪除鏈接?
謝謝期待!
你可以像這樣使用設置
new_menu = ['Hawaiian', 'Margherita', 'Mushroom', 'Prosciutto', 'Meat Feast', 'Hawaiian', 'Bacon', 'Black Olive Special', 'Sausage', 'Sausage']
final_new_menu = 列表(設置(new_menu))
打印(final_new_menu)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.