[英]Bing Web Search API and blacklisting (python)
我正在使用Bing Web搜索API来获取与非常特定的查询匹配的URL。 不幸的是,API结果中也有很多垃圾。
现在,我创建了一个广泛的黑名单,涵盖了大约 这种“垃圾”的70%。
排除将该URL列表附加到“结果”数组中的最有效方法是什么?
代码有趣的部分:
results = []
try:
conn = http.client.HTTPSConnection('api.cognitive.microsoft.com')
conn.request("GET", "/bing/v5.0/search?%s" % params, "{body}", headers)
response = conn.getresponse()
data = response.read()
json_file = json.loads(data)
for i in range(len(json_file['webPages']['value'])):
results.append([count, json_file['webPages']['value'][i]['displayUrl']])
conn.close()
except Exception as e:
print(e)
您可以为此尝试bing自定义搜索。 它允许您将结果限制在某些域/子站点/网页上,以及阻止功能。 您可以在customsearch.ai上查看详细信息。 可以从以下位置获取免费访问密钥: https : //azure.microsoft.com/zh-cn/try/cognitive-services/?api=bing-custom-search 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.