常見的抓取關鍵字查詢

Question

我想查找具有特定關鍵字的所有網站的列表。例如，如果我搜索關鍵字“ Sports”或“ Football”，則只需從常見爬網中提取相關的網站URL，標題，描述和圖像warc文件。 目前，我可以用以下代碼很好地讀取warc文件。

import warc
f = warc.open("firsttest.warc.gz")
h = warc.WARCHeader({"WARC-Type": "response",}, defaults=True)
N = 10
name="sports"
for record in f:
    url = record.header.get('warc-target-uri', 'none')
    date=record.header.get("WARC-Date")
    IP=record.header.get('WARC-IP-Address')
    payload_di=record.header.get('WARC-Payload-Digest')
    search =name in record.header
    print("URL :"+str(url))
    #print("date :"+str(date))
    #print("IP :"+str(IP))
    #print("payload_digest :"+str(payload_di))
    #print("search :"+str(search))
    text = record.payload.read()
    #print("Text :"+str(text))
    #break

    #print(url)

但是它正在獲取指定warc文件中的所有URL。 我只需要與“體育”或“足球”匹配的相關網址。 如何在Warc文件中搜索該關鍵字？ 請幫助我，因為我是普通爬網的新手。 我也檢查了很多帖子，但都沒有解決。

如果他們有的話，我需要抓取圖片圖像，我該如何抓取它作為保存整個網頁的普通抓取方式？

Answer 1

您可以使用AWS Athena查詢S3上的Common Crawl Index。 例如，這是我的SQL查詢，用於在2019年7月索引中找到與``運動''和``足球''匹配的URL。 看到此頁面-http://commoncrawl.org/2018/03/index-to-warc-files-and-urls-in-columnar-format/

SELECT *
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2019-13'
AND subset = 'warc'
AND url_path like '%sports%' and url_path like '%football%'
Limit 10

常見的抓取關鍵字查詢

問題描述

1 個解決方案

解決方案1
0 2019-08-20 11:00:04

常見的抓取關鍵字查詢

問題描述

1 個解決方案

解決方案1 0 2019-08-20 11:00:04

解決方案1
0 2019-08-20 11:00:04