cost 118 ms
SOLR 單元格是否以任何方式限制導入 solr.TextField 的字符數量?

[英]Does SOLR cell in any way limit the amount of characters imported into a solr.TextField?

我正在使用 Solr 單元格索引一個大的 HTML 頁面,使用 curl 命令和 ZAEA23489CE3AA9B640ZEBB 等命令提示符 2 當我在 SOLR 的管理菜單中查詢( query?q=*:*&q.op=OR&indent=true )時,我發現我的字段中缺少數據( ...

從Solr 6.3升級后,Solr 7.5無法索引pdf文件

[英]Solr 7.5 failing to index pdf files after upgrade from Solr 6.3

我們剛剛從Solr 6.3升級到7.5。 在不更改架構或配置的情況下,我們嘗試索引的每個pdf文件都會出現400錯誤。 這些是Solr 6.3索引沒有問題的文件。 所有其他類型的復雜文件都像以前一樣被建立索引,只是導致問題的pdf文件。 線索1:在大約1900個pdf文件中,只有2個 ...

Solr Cell無法使用EXIF索引圖像文件

[英]Solr Cell fails to index image files with EXIF

我剛剛安裝了Solr6.6.0。 在CentOS上運行,並使其與提供的示例“ sample_techproducts_configs”一起使用。 我能夠為文件建立索引,但是一旦將其提供給圖像文件,我就會收到有關無效日期的異常信息。 Solr單元從EXIF中提取日期,然后似乎無法將其傳遞給S ...

導入具有Solr Cell / Tika元數據的文件會導致多值錯誤

[英]Importing files with solr cell/Tika metadata causes a multiple value error

因此,我正在嘗試在Solr 5.4.1上使用Solr CEL和Tika對文檔進行索引。 我正在使用默認配置,但是在導入文檔時出現此錯誤: 這是與錯誤相關的日志,您可以看到我提供給solr的數據。 這是提取模塊的solrconfig.xml: 我認為這基本上會將所有不是字 ...

SOLR Cell如何添加文檔內容?

[英]How does SOLR Cell add document content?

SOLR有一個稱為Cell的模塊。 它使用Tika從文檔中提取內容並使用SOLR對其進行索引。 從https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction的來源中,我得出結論,Cell將原始提取的文 ...

Solr ExtractingRequestHandler給空的內容字段

[英]Solr ExtractingRequestHandler giving empty content field

我正在使用Solr 6.2.1和ExtractingRequestHandler(已經包含在Solr 6.2.1中)來索引pdf和word文檔。 所有文檔(pdf和word)都使用元數據(標題,日期,cp_revision,compagny等)編入索引,但內容字段始終為空。 根據文檔,我 ...

將Apache TIKA和Solr Cell與Solr集成以索引pdf和word文檔

[英]Integrate Apache TIKA and Solr Cell with Solr to index pdf and word documents

我正在使用solr搜索引擎進行POC索引pdf和word文檔。 我試圖搜索有關詳細級別的信息或文章,但是沒有\\找到任何詳細的文章來這樣做。 我發現的是使用一些solr軟件包提供的示例。 那不是我所要求的。 我掌握的當前信息是可以使用Solr Cell和Apache Tika索引pd ...

Solrj ContentStreamUpdateRequest無法保存所有文字字段,除非它們是動態的

[英]Solrj ContentStreamUpdateRequest fails to save all literal fields unless they are dynamic

我正在使用提取請求處理程序來索引html和pdf文件。 除了tika的發現,我還想在tika內容之外添加元數據。 為此,我使用文字=支持。 除非我使用動態字段“ * _s”,否則不會保存數據。 只有id字段似乎可以像宣傳的那樣工作。 我確定我做錯了什么。 我的schema.xml字段 ...

我們可以在Solr搜索引擎中搜索.txt文件嗎?

[英]Can we search for .txt files in Solr search engine?

我將solr搜索引擎用於我的項目中的文檔檢索。 我的數據集是.txt文件格式。 但是solr僅提供json,xml,pdf和其他一些文件格式的選項。 文本文件沒有選項。 我需要在Solr中進行一些修改以將.txt文件用作數據集嗎? ...

Solr搜索引擎的結果

[英]Result of Solr Search Engine

當我在solr搜索引擎的查詢框中寫一些查詢並詢問結果時,它表明發現了一定數量的文檔(numFound),但每頁僅顯示十個文檔。 如何查看進一步檢索的文檔。 沒有像“下一頁”之類的鏈接。 請告訴我前十個文檔后如何查看文檔 ...

在Solr中索引.xml文件時出錯

[英]Error while indexing .xml files in solr

我正在嘗試使用以下命令在solr搜索引擎中索引xml文件: 但是我收到以下錯誤: 請幫助我擺脫這個錯誤。 solr.xml的內容如圖所示: ...

Solr ExtractingRequestHandler 在鏈接中提取“rect”

[英]Solr ExtractingRequestHandler extracting “rect” in links

我正在利用 solr ExtractingRequestHandler 來提取和索引 HTML 內容。 我的問題涉及它生成的提取鏈接部分。 返回的提取內容在 HTML 源代碼中不存在的位置插入了“rect”。 我的 solrconfig 單元配置如下: 我的 solr schema.xml ...

在Solr中使用ContentStreamUpdateRequest設置多值字段

[英]Set multivalued fields with ContentStreamUpdateRequest in Solr

我正在使用SolrJ + SolrCell為各種Word / Excel / PDF文件的內容建立索引,但是我希望能夠設置一些字段(例如id,name): 我對普通字段沒有任何問題,但是我發現當我嘗試使用相同的setParam方法設置多值字段時,僅存儲輸入數組中的最后一個元素: ...

solr extractingrequesthandler不是org.apache.solr.request.SolrRequestHandler

[英]solr extractingrequesthandler is not a org.apache.solr.request.SolrRequestHandler

我正在嘗試使用post.jar來索引包含pdf文件的文件夾。 我已經添加了requesthandler,但是啟動時出現錯誤。 看起來可能是版本沖突或類加載重復,因此未被識別為SolrRequestHandler。 只是一個想法。 我在帶有iis的Windows 2008 r2服務 ...

在ExtractingRequestHandler(“ Solr Cell”)中設置最大字符串長度。setMaxStringLength()

[英]Setting maximum string length in ExtractingRequestHandler (“Solr Cell”) .. setMaxStringLength()

我正在使用Solr和ExtractingRequestHandler來索引文檔,但是我不知道該怎么做與Tika setMaxStringLength()等效。 它似乎在索引所有較小的文檔,但未對大型文檔的所有文本編制索引,這可能意味着它沒有設置tika.setMaxStringLength ...

Solr元數據索引

[英]Solr metadata index

我是Solr的新手,我正在通過存儲在數據庫中的URL從二進制文件中提取元數據。 我想知道哪些字段可用於從PDF索引(將以column =””開頭的字段)。 我也想知道如何在Solr中創建自定義字段。 如何實現並將其映射到來自文件的特定元數據。 如果有人有可以向我展示的代碼片段,將不勝感激 ...

Solr:不包括某些HTML標記或僅在索引內包括某些標記

[英]Solr: Excluding certain HTML tags or only including certain tags within indexes

我目前正在使用Solr-Cell來抓取幾個html頁面的內容並將它們編入索引。 問題是我的頁眉中有一個菜單,該菜單顯示在所有頁面上。 此菜單及其所有項目都顯示在搜索結果中。 我不希望將其編入索引。 您將如何實現? 是否可以排除某些DIV(帶有類名或ID)? ...

如何使用Solr 4.0+索引包含為數據庫BLOB的富格式文檔?

[英]How do I index rich-format documents contained as database BLOBs with Solr 4.0+?

我找到了一些解決這個問題的相關解決方案。 我將解釋相關的解決方案對我不起作用。 (我正在使用Solr 4.0並將索引數據存儲在Oracle 11g數據庫中。) 這里解釋了 Jonck van der Kogel的相關解決方案(來自2009年)。 他描述了創建一個自定義的Transfo ...

在solr中獲取pdf的searchresult的頁碼

[英]Get page numbers of searchresult of a pdf in solr

我正在構建一個Web應用程序,用戶可以在其中搜索pdf文檔並使用pdf.js查看它們。 我想用段落的簡短片段顯示搜索結果,其中找到搜索詞,以及在右頁打開文檔的鏈接。 所以我需要的是頁碼和每個搜索結果的簡短文本片段。 我正在使用SOLR 4.1索引pdf文檔。 索引本身工作正常,但 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM