簡體   English   中英

常見的抓取關鍵字查詢

[英]Common Crawl Keyword Lookup

我想查找具有特定關鍵字的所有網站的列表。例如,如果我搜索關鍵字“ Sports”或“ Football”,則只需從常見爬網中提取相關的網站URL,標題,描述和圖像warc文件。 目前,我可以用以下代碼很好地讀取warc文件。

import warc
f = warc.open("firsttest.warc.gz")
h = warc.WARCHeader({"WARC-Type": "response",}, defaults=True)
N = 10
name="sports"
for record in f:
    url = record.header.get('warc-target-uri', 'none')
    date=record.header.get("WARC-Date")
    IP=record.header.get('WARC-IP-Address')
    payload_di=record.header.get('WARC-Payload-Digest')
    search =name in record.header
    print("URL :"+str(url))
    #print("date :"+str(date))
    #print("IP :"+str(IP))
    #print("payload_digest :"+str(payload_di))
    #print("search :"+str(search))
    text = record.payload.read()
    #print("Text :"+str(text))
    #break

    #print(url)

但是它正在獲取指定warc文件中的所有URL。 我只需要與“體育”或“足球”匹配的相關網址。 如何在Warc文件中搜索該關鍵字? 請幫助我,因為我是普通爬網的新手。 我也檢查了很多帖子,但都沒有解決。

如果他們有的話,我需要抓取圖片圖像,我該如何抓取它作為保存整個網頁的普通抓取方式?

您可以使用AWS Athena查詢S3上的Common Crawl Index。 例如,這是我的SQL查詢,用於在2019年7月索引中找到與``運動''和``足球''匹配的URL。 看到此頁面-http://commoncrawl.org/2018/03/index-to-warc-files-and-urls-in-columnar-format/

SELECT *
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2019-13'
AND subset = 'warc'
AND url_path like '%sports%' and url_path like '%football%'
Limit 10

通用爬網索引

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM