[英]How to remove duplicates from string list in python?
我需要一些帮助......我是 python 的新手,我有一个项目,从网站抓取广告链接并将它们保存在 JSON 文件中,以便稍后在另一个脚本中使用......所有广告链接都有这样的形式:
https://domain/details.com?id=123456&pageNumber=1&len=en...
爬虫加入每个页面以提取公告并将它们存储在 JSON 文件中。
问题:已经存在推广公告,推广公告出现在每个页面的顶部,并会保存在一个 JSON 文件中,如下所示:
{ https://domain/details.com?id=123456&pageNumber=1&len=en&searchId=93wsi-sais93-sdjs...
https://domain/details.com?id=283924&pageNumber=1&len=en&searchId=93wsi-sais93-sdjs...
... Other links from page 1...
https://domain/details.com?id=123456&pageNumber=2&len=en&searchId=si39-s9djw9-3jdss...}
我只需要独特的公告...
用于生成链接的 lop:
links = []
for ad in dealersAd:
href = ad.get_attribute("href")
links.append(href)
JSON文件中保存链接的代码:
# Save links in json file
dictionary = {
"Links" : links
}
json_dump = json.dumps(dictionary, indent=2, sort_keys=True)
# Create file and insert links
with open("../mobilede/mobilede selenium/src/links.json", "w") as f:
f.write(json_dump)
有什么方法可以从链接中获取特定的?id=
select,分析 id,如果列表中已经存在,则删除链接?
谢谢期待!
你可以像这样使用设置
new_menu = ['Hawaiian', 'Margherita', 'Mushroom', 'Prosciutto', 'Meat Feast', 'Hawaiian', 'Bacon', 'Black Olive Special', 'Sausage', 'Sausage']
final_new_menu = 列表(设置(new_menu))
打印(final_new_menu)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.