在每一行python中做gensim文本摘要

Question

我有一個看起來像這樣的數據集（不是實際值，只是為了了解它）：

id  text                                      group 
1   what is the difference and why is it ...  2
2   let me introduce myself, first.           1

“文本”列的長度可以從一個句子到多個句子。 我想要做的是匯總行中的每個文本並將匯總的文本保存在新列中。 我正在使用 gensim 進行總結。

我想要的輸出如下，內容請無視。

id  text                                     group  text_summary 
1   what is the difference and why is it ...  2     the difference between object a and b 
2   let me introduce myself, first.           1     let me introduce myself, first.

下面是我使用的代碼，但出現以下錯誤。

import gensim 
from gensim.summarization import summarize 
from gensim.summarization import keywords 

for i in range(0, df.shape[0]):
    text = df.iloc[i]['Answers']
    if len(text) > 1:
        df.loc[i, 'summary_answer'] = summarize(text)
    else: 
        df.loc[i, 'summary_answer'] = text

我理解這個問題，但我的if/else語句在這種情況下似乎不起作用。

Answer 1

您的代碼應該更像這樣：

def summary_answer(text):
    try:
        return summarize(text)
    except ValueError:
        return text
df['summary_answer'] = df['Answers'].apply(summary_answer)

編輯：上面的代碼是解決原始錯誤的快速代碼，如果summarize調用引發異常，則返回原始文本。 如果這個函數沒有刪減它，你當然可以向函數添加更復雜的邏輯。 一些簡單的例子：

def summary_answer(text):
    try:
        if not isinstance(text,str):#data of wrong type
            return 'not text'
        ans = summarize(text)
        if len(ans.split())>3:#summary must be longer than 3 words
            return ans
    except ValueError:
        pass
    return text

在每一行python中做gensim文本摘要

問題描述

1 個解決方案

解決方案1
1 已采納 2021-07-23 01:16:04

在每一行python中做gensim文本摘要

問題描述

1 個解決方案

解決方案1 1 已采納 2021-07-23 01:16:04

解決方案1
1 已采納 2021-07-23 01:16:04