簡體   English   中英

是否可以將 solr 中的子文檔集成到胡蘿卜工作台中?

[英]Is it possible to integrate child documents from solr into carrot workbench?

在我的 solr 數據庫中,我的結構如下所示:代表人名(字典)的父文檔。 這些父文檔還包含嵌套的子文檔,其中出現與這些人的姓名匹配的文檔(字典的嵌套列表)。

當我嘗試以一種有意義的方式對信息進行聚類時,我只能直接對子文檔進行聚類,這會產生一堆屬於這些文本的聚類關鍵字。

理想情況下,我想根據嵌套子文檔的相似性對人(父文檔)進行聚類。 因此,我不想將文本中的關鍵詞聚集在一起,而是將具有相似內容的人的名字聚集在一起。

例如,如果Bob、John、Lewis的個人資料都有包含文本“我們精通 Python”的子文檔; Dan、Maria、Chris的個人資料有包含文本“我們精通 Java”的子文檔。 我想要一組(鮑勃,約翰,劉易斯)和一組(丹,瑪麗亞,克里斯)。 所以,當我們點擊第一個集群時,我們得到的結果是“我們精通 Python”,而對於第二個集群,我們得到的結果是“我們精通 Java”。

有沒有辦法在胡蘿卜工作台上復制這種結構?

不幸的是沒有。 這是一個非常具體的場景,我們的目標是讓 Workbench 成為一個通用工具,其中 Solr 是眾多文檔來源之一。

對於這種父子集群,您需要直接使用 Carrot2 Java 或 REST API:

  1. 從 Solr 中獲取子文檔,將它們聚集在 Carrot2 中。
  2. 對於每個集群 C:
    • 使用與集群 C 相同的 label 創建一個新集群 CC,
    • 對於集群 C 中的每個子文檔 D,將子文檔 P 放入集群 CC 中。
    • 將集群 CC 放入父集群集合中。

作為上述過程的結果,您將擁有一組包含父文檔的集群,這些父文檔由文檔的子文檔的文本內容組成。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM