[英]How to see data crawled by nutch using solr?
我是Nutch和Solr的新手。 因此,如果我要提出基本問題,我事先表示歉意。
環境詳細信息:
我開始使用Command-進行抓取
bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5
該命令成功執行,沒有錯誤。
之后,我在瀏覽器中打開了solr admin頁面,並嘗試使用默認查詢字符串\\*:*
。 但是,這導致頁面包含以下內容:
This XML file does not appear to have any style information associated with it. The document tree is shown below.
<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="start">0</str>
<str name="q">*:*</str>
<str name="rows">10</str>
<str name="indent">on</str>
<str name="version">2.2</str>
</lst>
</lst>
<result name="response" numFound="0" start="0"/>
</response>
當我嘗試在solr中搜索“ nutch”時,它導致了錯誤:“ HTTP錯誤400”。
您能否幫助我查看數據是否被抓取,以便我可以對其進行驗證。
驗證數據的最簡單方法聽起來像是您要嘗試的操作:查詢數據並確保其返回預期結果。 那里有一些幫助:
當您說您嘗試了基本查詢字符串時,是指通過solr管理員還是通過其余API? 如果您使用的是solr admin,則無需先轉義*。 因此,q將是:直接。 在Rest API中,*必須正確編碼。 像這樣:
http://your_host_name:8888/solr/your_core_name/select?q=*%3A*&wt=json&indent=true
您可以做的另一件事是驗證nutch的某些中間數據是使用bin / nutch命令readdb,readlinkdb,mergedb轉儲爬網或鏈接數據庫。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.