按Inverted Index Elasticsearch中的高頻項順序對字符串進行排序

Question

我是Elasticsearch的新手，我想知道這樣做是否可行：

我有一堆地址字符串，我想對字符串中最重復的術語進行排序。

例如：

1. Shop no 1 ABC Lane City1 - Zipcode1
2. Shop no 2 EFG Lane City1 - Zipcode2
3. Shop no 1 XYZ Lane City2 - Zipcode3
4. Shop no 3 ABC Lane City1 - Zipcode1

我真正需要的是將它們放在字符串中最常見的術語上。

那么前面例子的排序輸出應該是：

    1. Shop no 1 ABC Lane City1 - Zipcode1 
    4. Shop no 3 ABC Lane City1 - Zipcode1 # Because 1 and 2 have the most common words in them.
    2. Shop no 2 EFG Lane City1 - Zipcode2 # Second most common words with 1 and 4.
    3. Shop no 1 XYZ Lane City2 - Zipcode3 # Not all that many common terms amongst them.

我不知道如何去做。 我知道我可以觸發每個字符串作為查詢，以獲得最接近被觸發的查詢的結果。 但我有十萬行本身，它似乎根本不是一個有效的選擇。

如果我可以使用matchall()並使用每個字符串中包含大量重復術語的term過濾器進行sort ，那將非常有用。

可以對包含倒排索引中大多數相似單詞的文檔進行排序嗎？

這是我的數據外觀的示例pastebin：示例地址

Answer 1

解

我使用https://stackoverflow.com/a/15174569/61903來計算兩個字符串的余弦相似度（@vpekar的信用）作為相似性的基本算法。 通常我將所有字符串放入列表中。 然后我將索引參數i設置為0並循環i，只要它在列表長度的范圍內。 在該循環中，我將位置p從i + 1迭代到長度（列表）。 然后我找到list [i]和list [p]之間的最大余弦值。 兩個文本字符串都將被列入一個列表中，因此在以后的相似度計算中不會將它們考慮在內。 兩個文本字符串將與余弦值一起放入結果列表中，數據結構為VectorResult。

之后，列表按余弦值排序。 我們現在有唯一的字符串對，下降余弦，即相似值。 HTH。

import re
import math
import timeit

from collections import Counter

WORD = re.compile(r'\w+')


def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])

    sum1 = sum([vec1[x] ** 2 for x in vec1.keys()])
    sum2 = sum([vec2[x] ** 2 for x in vec2.keys()])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator


def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)


class VectorResult(object):
    def __init__(self, cosine, text_1, text_2):
        self.cosine = cosine
        self.text_1 = text_1
        self.text_2 = text_2

    def __eq__(self, other):
        if self.cosine == other.cosine:
            return True
        return False

    def __le__(self, other):
        if self.cosine <= other.cosine:
            return True
        return False

    def __ge__(self, other):
        if self.cosine >= other.cosine:
            return True
        return False

    def __lt__(self, other):
        if self.cosine < other.cosine:
            return True
        return False

    def __gt__(self, other):
        if self.cosine > other.cosine:
            return True
        return False

def main():
    start = timeit.default_timer()
    texts = []
    with open('data.txt', 'r') as f:
        texts = f.readlines()

    cosmap = []
    i = 0
    out = []
    while i < len(texts):
        max_cosine = 0.0
        current = None
        for p in range(i + 1, len(texts)):
            if texts[i] in out or texts[p] in out:
                continue
            vector1 = text_to_vector(texts[i])
            vector2 = text_to_vector(texts[p])
            cosine = get_cosine(vector1, vector2)
            if cosine > max_cosine:
                current = VectorResult(cosine, texts[i], texts[p])
                max_cosine = cosine
        if current:
            out.extend([current.text_1, current.text_2])
            cosmap.append(current)
        i += 1

    cosmap = sorted(cosmap)

    for item in reversed(cosmap):
        print(item.cosine, item.text_1, item.text_2)

    end = timeit.default_timer()

    print("Similarity Sorting of {} strings lasted {} s.".format(len(texts), end - start))

if __name__ == '__main__':
    main()

結果

我在http://pastebin.com/hySkZ4Pn上使用了你的光盤地址作為測試數據：

1.0000000000000002 NO 15& 16 1ST FLOOR,2ND MAIN ROAD,KHB COLONY,GANDINAGAR YELAHANKA
 NO 15& 16 1ST FLOOR,2ND MAIN ROAD,KHB COLONY,GANDINAGAR YELAHANKA

1.0 # 51/3 AGRAHARA YELAHANKA
 #51/3 AGRAHARA YELAHANKA

0.9999999999999999 # C M C ROAD,YALAHANKA
 # C M C ROAD,YALAHANKA

0.8728715609439696 # 1002/B B B ROAD,YELAHANKA
 0,B B ROAD,YELAHANKA

0.8432740427115678 # LAKSHMI COMPLEX C M C ROAD,YALAHANKA
 # SRI LAKSHMAN COMPLEX C M C ROAD,YALAHANKA

0.8333333333333335 # 85/1 B B M P OFFICE ROAD,KOGILU YELAHANKA
 #85/1 B B M P OFFICE NEAR KOGILU YALAHANKA

0.8249579113843053 # 689 3RD A CROSS SHESHADRIPURAM CALLEGE OPP YELAHANKA
 # 715 3RD CROSS A SECTUR SHESHADRIPURAM CALLEGE OPP YELAHANKA

0.8249579113843053 # 10 RAMAIAIA COMPLEX B B ROAD,YALAHANKA
 # JAMATI COMPLEX B B ROAD,YALAHANKA

[ SNIPPED ]

Similarity Sorting of 702 strings lasted 8.955146235887025 s.

Answer 2

余弦相似性絕對是要走的路。

Igor Motov創建了一個Elasticsearch本機腳本，用於計算跨多個文檔的字段的相似度值。

你可以看看這里。

您可以在script_score使用此腳本或基於腳本的排序。

按Inverted Index Elasticsearch中的高頻項順序對字符串進行排序

問題描述

2 個解決方案

解決方案1
3 已采納 2016-02-01 00:24:59

解決方案2
1 2016-02-02 05:38:53

按Inverted Index Elasticsearch中的高頻項順序對字符串進行排序

問題描述

2 個解決方案

解決方案1 3 已采納 2016-02-01 00:24:59

解決方案2 1 2016-02-02 05:38:53

解決方案1
3 已采納 2016-02-01 00:24:59

解決方案2
1 2016-02-02 05:38:53