如何在熊貓數據框中找到公共子字符串？

Question

我得到以下數據框：

解決方案名稱	細節
潔面乳	內容A
潔面乳(1+2)	內容A
清潔劑x3	內容B
審判	內容C
增量試驗	內容C

從上面可以看出，“解決方案名稱”列中有公共子字符串

預期結果：

解決方案名稱	細節
潔面乳	內容A
潔面乳	內容B
審判	內容C

如果Content不同，該行仍將在此處。 僅更改了“ Solution Name ”列中的單元格。

Answer 1

您可以在“查找公共子字符串”周圍搜索一下，這並不難。 然后使用 pandas 找到您理想的表格表示形式。

這是一種解決方法

from suffix_trees import STree
def find_common(l):
    common = STree.STree(list(l['Solution Name']))
    return common.lcs()

a = pd.DataFrame({
    'Solution Name': ['Cleanser', 'Cleanser(1+2)', 'Cleanserx3', 'Trial', 'Incremental Trial'],
    'Detail': ['A', 'A', 'B', 'C', 'C']
})
result = pd.DataFrame(a.groupby('Detail').apply(find_common), columns=['Solution Name']).reset_index()[['Solution Name', 'Detail']]
display(result)

如何在熊貓數據框中找到公共子字符串？

問題描述

1 個解決方案

解決方案1
0 2022-06-24 08:09:54

如何在熊貓數據框中找到公共子字符串？

問題描述

1 個解決方案

解決方案1 0 2022-06-24 08:09:54

解決方案1
0 2022-06-24 08:09:54