如何使用帶有Heritrix 3.1的HeaderedArchiveRecord遍歷WARC文件

Question

我正在使用Heritrix 3.1 Java庫。 需要明確的是，我對爬網不感興趣，而僅對處理另一個團隊生成的壓縮WARC（* .warc.gz）文件中的數據感興趣。 對於WARC文件中存儲的每個WWW文檔，我都需要記錄頭中的一些信息，HTTP標頭中的一些信息以及HTTP有效負載/主體的全部內容，因此我認為我需要使用HeaderedArchiveRecord類。

WARCReader warcReader = WARCReaderFactory.get(warcFile);
int inputSequence = -1;

ArchiveRecord record = warcReader.get();
while(record != null){
  inputSequence++;

  // Skip the 0th record, which is just the archive guff.
  if (inputSequence == 0) {
    // print some info but do not process this record
  }
  else if (! record.hasContentHeaders()) {
    // print some info but do not process this record
  }
  else  {
    HeaderedArchiveRecord hRecord = new HeaderedArchiveRecord(record);
    ArchiveRecordHeader archiveHeader = hRecord.getHeader();
    gate.Document document = makeDocumentHeritrix(archiveHeader,
       inputSequence,  hRecord);
    //...
  }
  record.close();
  record = warcReader.get();  // line 754
}

warcReader.close();

當我運行它時，由於這個原因我得到了一個例外

Caused by: java.io.IOException: Failed to read WARC_MAGIC
    at org.archive.io.warc.WARCRecord.parseHeaders(WARCRecord.java:116)
    at org.archive.io.warc.WARCRecord.<init>(WARCRecord.java:90)
    at org.archive.io.warc.WARCReader.createArchiveRecord(WARCReader.java:94)
    at org.archive.io.warc.WARCReader.createArchiveRecord(WARCReader.java:44)
    at org.archive.io.ArchiveReader.get(ArchiveReader.java:159)
    at
gate.arcomem.batch.Enrichment.makeCorpusWithHeritrix(Enrichment.java:754)

我的第754行如上所述。 我的makeDocumentHeritrix(...)方法中的代碼曾經引發類似的異常，但是在我移動hrecord.skipHttpHeader();之前Failed to find WARC_MAGIC hrecord.skipHttpHeader(); 到Header[] httpHeader = record.getContentHeaders(); 在里面。

我曾嘗試在網上搜索代碼示例以遍歷WARC文件中的記錄，但沒有找到任何示例，並且我還記得幾年前我使用heritrix 1.14做類似的事情時，我不得不做一些奇怪的事情來處理文件中的偏移量，但是WARCReader中的相關方法現在都是私有的或受保護的，因此我不希望必須使用較新的庫來執行此操作。

Answer 1

我成功完成了以下代碼：

Iterator<ArchiveRecord> archIt = WARCReaderFactory.get(new File(args[0])).iterator();
while (archIt.hasNext()) {
     handleRecord(archIt.next());
}

如何使用帶有Heritrix 3.1的HeaderedArchiveRecord遍歷WARC文件

問題描述

1 個解決方案

解決方案1
1 2014-02-19 09:51:03

如何使用帶有Heritrix 3.1的HeaderedArchiveRecord遍歷WARC文件

問題描述

1 個解決方案

解決方案1 1 2014-02-19 09:51:03

解決方案1
1 2014-02-19 09:51:03