簡體   English   中英

無法從從普通爬網爬網的warc文件中找到URL

[英]cannot find url from a warc file crawled from common crawl

我已經從常規爬網中爬網了數據,我想找出與每個記錄相對應的url。

for record in files:
     print record['WARC-Target-URI']

這將輸出一個空列表。 我指的是以下鏈接https://dmorgan.info/posts/common-crawl-python/ 我們是否獲得對應於每個記錄的目標uri或僅一個warc文件路徑的一個目標uri?

您關注的信息是標題的一部分。 嘗試:

print record.header['WARC-Target-URI']

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM