簡體   English   中英

如何將抓取的“html”從 Apache Nutch 索引到 Solr?

[英]How to index crawled "html" from Apache Nutch to Solr?

我想將 Apache Nutch (v1.17) 抓取的網頁的源代碼索引到 Solr (8.6.3) 中的索引,但不知道該怎么做? 至少我只是得到一個准備好的版本,索引到 Solr內容(見下文)。

{
  "tstamp":"2020-11-19T08:41:15.908Z",
  "digest":"fdc7532e799d4a3a434be4be67c36bb3b",
  "boost":1.0,
  .
  .
  .
  "content":"Algorithm Engineering Group ....",
 "_version_":16837969286885539843
}

我已經看過index-writers.xml ,但我仍然不知道該怎么做。 也許你知道怎么做。

Nutch 索引工具提供了一個命令行選項來索引網頁的原始內容:

$> bin/nutch index
...
-addBinaryContent  index raw/binary content in field `binaryContent`
-base64            use Base64 encoding for binary content
...

注意:請注意爬蟲可能訪問的 PDF 和其他二進制格式!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM