![](/img/trans.png)
[英]Does SOLR cell in any way limit the amount of characters imported into a solr.TextField?
我正在使用 Solr 單元格索引一個大的 HTML 頁面,使用 curl 命令和 ZAEA23489CE3AA9B640ZEBB 等命令提示符 2 當我在 SOLR 的管理菜單中查詢( query?q=*:*&q.op=OR&indent=true )時,我發現我的字段中缺少數據( ...
[英]Does SOLR cell in any way limit the amount of characters imported into a solr.TextField?
我正在使用 Solr 單元格索引一個大的 HTML 頁面,使用 curl 命令和 ZAEA23489CE3AA9B640ZEBB 等命令提示符 2 當我在 SOLR 的管理菜單中查詢( query?q=*:*&q.op=OR&indent=true )時,我發現我的字段中缺少數據( ...
[英]Solr 7.5 failing to index pdf files after upgrade from Solr 6.3
我們剛剛從Solr 6.3升級到7.5。 在不更改架構或配置的情況下,我們嘗試索引的每個pdf文件都會出現400錯誤。 這些是Solr 6.3索引沒有問題的文件。 所有其他類型的復雜文件都像以前一樣被建立索引,只是導致問題的pdf文件。 線索1:在大約1900個pdf文件中,只有2個 ...
[英]Solr Cell fails to index image files with EXIF
我剛剛安裝了Solr6.6.0。 在CentOS上運行,並使其與提供的示例“ sample_techproducts_configs”一起使用。 我能夠為文件建立索引,但是一旦將其提供給圖像文件,我就會收到有關無效日期的異常信息。 Solr單元從EXIF中提取日期,然后似乎無法將其傳遞給S ...
[英]Importing files with solr cell/Tika metadata causes a multiple value error
因此,我正在嘗試在Solr 5.4.1上使用Solr CEL和Tika對文檔進行索引。 我正在使用默認配置,但是在導入文檔時出現此錯誤: 這是與錯誤相關的日志,您可以看到我提供給solr的數據。 這是提取模塊的solrconfig.xml: 我認為這基本上會將所有不是字 ...
[英]How does SOLR Cell add document content?
SOLR有一個稱為Cell的模塊。 它使用Tika從文檔中提取內容並使用SOLR對其進行索引。 從https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction的來源中,我得出結論,Cell將原始提取的文 ...
[英]Solr ExtractingRequestHandler giving empty content field
我正在使用Solr 6.2.1和ExtractingRequestHandler(已經包含在Solr 6.2.1中)來索引pdf和word文檔。 所有文檔(pdf和word)都使用元數據(標題,日期,cp_revision,compagny等)編入索引,但內容字段始終為空。 根據文檔,我 ...
[英]Integrate Apache TIKA and Solr Cell with Solr to index pdf and word documents
我正在使用solr搜索引擎進行POC索引pdf和word文檔。 我試圖搜索有關詳細級別的信息或文章,但是沒有\\找到任何詳細的文章來這樣做。 我發現的是使用一些solr軟件包提供的示例。 那不是我所要求的。 我掌握的當前信息是可以使用Solr Cell和Apache Tika索引pd ...
[英]Solrj ContentStreamUpdateRequest fails to save all literal fields unless they are dynamic
我正在使用提取請求處理程序來索引html和pdf文件。 除了tika的發現,我還想在tika內容之外添加元數據。 為此,我使用文字=支持。 除非我使用動態字段“ * _s”,否則不會保存數據。 只有id字段似乎可以像宣傳的那樣工作。 我確定我做錯了什么。 我的schema.xml字段 ...
[英]Can we search for .txt files in Solr search engine?
我將solr搜索引擎用於我的項目中的文檔檢索。 我的數據集是.txt文件格式。 但是solr僅提供json,xml,pdf和其他一些文件格式的選項。 文本文件沒有選項。 我需要在Solr中進行一些修改以將.txt文件用作數據集嗎? ...
[英]Result of Solr Search Engine
當我在solr搜索引擎的查詢框中寫一些查詢並詢問結果時,它表明發現了一定數量的文檔(numFound),但每頁僅顯示十個文檔。 如何查看進一步檢索的文檔。 沒有像“下一頁”之類的鏈接。 請告訴我前十個文檔后如何查看文檔 ...
[英]Error while indexing .xml files in solr
我正在嘗試使用以下命令在solr搜索引擎中索引xml文件: 但是我收到以下錯誤: 請幫助我擺脫這個錯誤。 solr.xml的內容如圖所示: ...
[英]Solr ExtractingRequestHandler extracting “rect” in links
我正在利用 solr ExtractingRequestHandler 來提取和索引 HTML 內容。 我的問題涉及它生成的提取鏈接部分。 返回的提取內容在 HTML 源代碼中不存在的位置插入了“rect”。 我的 solrconfig 單元配置如下: 我的 solr schema.xml ...
[英]Is there a way to integrate spring-data-solr with Tika?
有沒有一種方法可以通過配置在Tika中使用spring-data-solr? 否則,對於spring-data-solr,是否有solrj的ContentStreamUpdateRequest+addfile替代方案? 目前,我以這種方式使用Solrj + Tika: 通過成功遵 ...
[英]Set multivalued fields with ContentStreamUpdateRequest in Solr
我正在使用SolrJ + SolrCell為各種Word / Excel / PDF文件的內容建立索引,但是我希望能夠設置一些字段(例如id,name): 我對普通字段沒有任何問題,但是我發現當我嘗試使用相同的setParam方法設置多值字段時,僅存儲輸入數組中的最后一個元素: ...
[英]solr extractingrequesthandler is not a org.apache.solr.request.SolrRequestHandler
我正在嘗試使用post.jar來索引包含pdf文件的文件夾。 我已經添加了requesthandler,但是啟動時出現錯誤。 看起來可能是版本沖突或類加載重復,因此未被識別為SolrRequestHandler。 只是一個想法。 我在帶有iis的Windows 2008 r2服務 ...
[英]Setting maximum string length in ExtractingRequestHandler (“Solr Cell”) .. setMaxStringLength()
我正在使用Solr和ExtractingRequestHandler來索引文檔,但是我不知道該怎么做與Tika setMaxStringLength()等效。 它似乎在索引所有較小的文檔,但未對大型文檔的所有文本編制索引,這可能意味着它沒有設置tika.setMaxStringLength ...
[英]Solr metadata index
我是Solr的新手,我正在通過存儲在數據庫中的URL從二進制文件中提取元數據。 我想知道哪些字段可用於從PDF索引(將以column =””開頭的字段)。 我也想知道如何在Solr中創建自定義字段。 如何實現並將其映射到來自文件的特定元數據。 如果有人有可以向我展示的代碼片段,將不勝感激 ...
[英]Solr: Excluding certain HTML tags or only including certain tags within indexes
我目前正在使用Solr-Cell來抓取幾個html頁面的內容並將它們編入索引。 問題是我的頁眉中有一個菜單,該菜單顯示在所有頁面上。 此菜單及其所有項目都顯示在搜索結果中。 我不希望將其編入索引。 您將如何實現? 是否可以排除某些DIV(帶有類名或ID)? ...
[英]How do I index rich-format documents contained as database BLOBs with Solr 4.0+?
我找到了一些解決這個問題的相關解決方案。 我將解釋相關的解決方案對我不起作用。 (我正在使用Solr 4.0並將索引數據存儲在Oracle 11g數據庫中。) 這里解釋了 Jonck van der Kogel的相關解決方案(來自2009年)。 他描述了創建一個自定義的Transfo ...
[英]Get page numbers of searchresult of a pdf in solr
我正在構建一個Web應用程序,用戶可以在其中搜索pdf文檔並使用pdf.js查看它們。 我想用段落的簡短片段顯示搜索結果,其中找到搜索詞,以及在右頁打開文檔的鏈接。 所以我需要的是頁碼和每個搜索結果的簡短文本片段。 我正在使用SOLR 4.1索引pdf文檔。 索引本身工作正常,但 ...