簡體   English   中英

如何查看使用Solr通過螺母抓取的數據?

[英]How to see data crawled by nutch using solr?

我是Nutch和Solr的新手。 因此,如果我要提出基本問題,我事先表示歉意。

環境詳細信息:

  1. 帶有來賓操作系統的虛擬機:Ubuntu 12.04.4,主機操作系統:Windows 8
  2. Nutch版本:Apache nutch 1.7
  3. Solr發行版:Apache Solr 3.6.2
  4. 參考wiki.apache.org/nutch/NutchTutorial

我開始使用Command-進行抓取

bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5

該命令成功執行,沒有錯誤。

之后,我在瀏覽器中打開了solr admin頁面,並嘗試使用默認查詢字符串\\*:* 但是,這導致頁面包含以下內容:

This XML file does not appear to have any style information associated with it. The document tree is shown below.
<response>
    <lst name="responseHeader">
        <int name="status">0</int>
        <int name="QTime">0</int>
        <lst name="params">
            <str name="start">0</str>
            <str name="q">*:*</str>
            <str name="rows">10</str>
            <str name="indent">on</str>
            <str name="version">2.2</str>
        </lst>
    </lst>
    <result name="response" numFound="0" start="0"/>
</response>

當我嘗試在solr中搜索“ nutch”時,它導致了錯誤:“ HTTP錯誤400”。

您能否幫助我查看數據是否被抓取,以便我可以對其進行驗證。

驗證數據的最簡單方法聽起來像是您要嘗試的操作:查詢數據並確保其返回預期結果。 那里有一些幫助:

當您說您嘗試了基本查詢字符串時,是指通過solr管理員還是通過其余API? 如果您使用的是solr admin,則無需先轉義*。 因此,q將是直接。 在Rest API中,*必須正確編碼。 像這樣:

http://your_host_name:8888/solr/your_core_name/select?q=*%3A*&wt=json&indent=true

您可以做的另一件事是驗證nutch的某些中間數據是使用bin / nutch命令readdb,readlinkdb,mergedb轉儲爬網或鏈接數據庫。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM