如何将一个 tsvector 与另一个 tsvector 进行比较？

Question

我正在尝试获取给定记录的“可能相关”记录。

表上有一个 tsvector (tsv)，所以我在考虑如何将源 tsv 转换为 tsquery 格式，然后像普通排名搜索一样找到最密切相关的匹配项。

SELECT title,
    link,
    IMAGE,
    intro,
    created_at,
    updated_at,
    ts_rank_cd(tsv, q.match::tsquery) AS rank
FROM items,
    (
        SELECT tsv AS match
        FROM items
        WHERE id = 1234
        ) AS q
WHERE id <> 1234
ORDER BY rank DESC LIMIT 10;

有没有一个很好的方法来实现这一目标？

Answer 1

我四处闲逛，似乎没有一种简单的方法可以做到这一点。 我想有效地做到这一点，您可能需要自己的C函数，该函数可以提供从一个tsvector到另一个tsvector的距离（然后可以使用KNN搜索）。

无论哪种方式，都没有一种非常简单的方法来完成，这可能需要大量工作，但是似乎这应该是一个普遍适用的问题，因此整个社区可能会对解决方案感兴趣。

请注意，这听起来并不简单。 假设我写了一本书，讲的是阿尔伯特·洛德（Albert Lord）的《故事的歌手》及其对诗歌公式的强调。 假设我称其为“艾伯特勋爵和言语之环”。 这将创建一个Albert:1 Lord:2 Ring:5 Words:7的向量， Albert:1 Lord:2 Ring:5 Words:7 of the Rings是Lord:2 Ring:5 ，这会产生非常错误的相似性。 如果涉及任何分类，那么您也想利用它。

Answer 2

您或许可以将 tsvector 与 pg_trgm 扩展的相似性进行比较。 是这样的：

SELECT title, similarity(STRIP(to_tsvector('english', title))::text, STRIP(to_tsvector('english', 'The Lord of the Rings'))::text) sim
FROM (VALUES
    ('Albert Lord and the Ring of Words'),
    ('The Ring of Words'),
    ('Albert Lord')
) t(title)
ORDER BY sim DESC

如何将一个 tsvector 与另一个 tsvector 进行比较？

问题描述

2 个解决方案

解决方案1
0 2013-12-01 09:29:07

解决方案2
0 2022-04-06 15:12:23

如何将一个 tsvector 与另一个 tsvector 进行比较？

问题描述

2 个解决方案

解决方案1 0 2013-12-01 09:29:07

解决方案2 0 2022-04-06 15:12:23

解决方案1
0 2013-12-01 09:29:07

解决方案2
0 2022-04-06 15:12:23