簡體   English   中英

Apache Nutch 僅將文章頁面索引到 Solr

[英]Apache Nutch index only article pages to Solr

我已經設置了 Nutch 1.17 來抓取幾個網站。 像往常一樣,在高層可以有兩種類型的網頁。 首先是類別頁面或主頁,它們不包含任何特定故事的詳細信息,但提供多個頁面的鏈接和短文本。 其次,有些頁面包含完整故事的詳細信息,即文章。

現在我的問題是如何確定這是實際的文章頁面,而該頁面是類別頁面。 此外,我也有興趣只索引故事頁面?

我認為 Nutch 默認沒有任何東西。 我怎么能實現這種行為?

問題的核心歸結為如何識別文章/故事頁面與主頁或類別頁面。 這通常是非常特定於域的,並且可能取決於很多因素(服務器端的重寫規則或使用的 CMS 等)。

如果您對要抓取的域非常熟悉,也許您可​​以使用正則表達式來區分不同類型的頁面。 假設您可以使用正則表達式(或NutchDocument存在的另一個字段)來區分頁面,您應該能夠使用index-jexl-filter插件來選擇性地僅索引那些文章頁面。

我想說的是,通常您不想完全跳過類別頁面(或主頁),因為這些類型的頁面通常是您抓取新鏈接的良好來源。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM