![](/img/trans.png)
[英]How to crawl latest articles in a specific site using specific set keyword?
[英]Common Crawl Keyword Lookup
我想查找具有特定關鍵字的所有網站的列表。例如,如果我搜索關鍵字“ Sports”或“ Football”,則只需從常見爬網中提取相關的網站URL,標題,描述和圖像warc文件。 目前,我可以用以下代碼很好地讀取warc文件。
import warc
f = warc.open("firsttest.warc.gz")
h = warc.WARCHeader({"WARC-Type": "response",}, defaults=True)
N = 10
name="sports"
for record in f:
url = record.header.get('warc-target-uri', 'none')
date=record.header.get("WARC-Date")
IP=record.header.get('WARC-IP-Address')
payload_di=record.header.get('WARC-Payload-Digest')
search =name in record.header
print("URL :"+str(url))
#print("date :"+str(date))
#print("IP :"+str(IP))
#print("payload_digest :"+str(payload_di))
#print("search :"+str(search))
text = record.payload.read()
#print("Text :"+str(text))
#break
#print(url)
但是它正在獲取指定warc文件中的所有URL。 我只需要與“體育”或“足球”匹配的相關網址。 如何在Warc文件中搜索該關鍵字? 請幫助我,因為我是普通爬網的新手。 我也檢查了很多帖子,但都沒有解決。
如果他們有的話,我需要抓取圖片圖像,我該如何抓取它作為保存整個網頁的普通抓取方式?
您可以使用AWS Athena查詢S3上的Common Crawl Index。 例如,這是我的SQL查詢,用於在2019年7月索引中找到與``運動''和``足球''匹配的URL。 看到此頁面-http://commoncrawl.org/2018/03/index-to-warc-files-and-urls-in-columnar-format/
SELECT *
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2019-13'
AND subset = 'warc'
AND url_path like '%sports%' and url_path like '%football%'
Limit 10
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.