簡體 English 中英

摘要-文本排名算法

[英]Summarization-Text rank algorithm

原文 2020-07-04 16:15:14 5 1 python/ machine-learning/ nlp/ bert-language-model/ textrank

使用文本排名算法進行摘要比 BERT 摘要有什么優勢？ 盡管兩者都可以用作提取摘要方法，但文本排名有什么特別的優勢嗎？

1 個解決方案

TextRank 實現往往是輕量級的，即使在 memory 資源有限的情況下也可以快速運行，而BERT等轉換器模型往往相當大，需要大量的 memory。 雖然TinyML社區在使 DL 模型在有限資源內運行的技術方面有着出色的工作，但對於某些用例來說可能存在資源優勢。

一些 TextRank 實現可以通過添加語義關系來“指導”，人們可以將其視為一種先驗結構，以豐富所使用的圖 - 或者在某些情況下是結合人類在環方法的手段。 與純粹基於數據訓練的監督學習模型相比，這些模型具有優勢。 即便如此，DL 也有類似的努力（例如，遷移學習主題的變體），變形金剛可能會從中受益。

另一個潛在的好處是TextRank方法往往更加透明，而轉換器模型在可解釋性方面可能具有挑戰性。 有一些工具可以提供很大幫助，但在model 偏見和公平性、數據倫理、法規遵從性等方面，這種擔憂變得很重要。

根據個人經驗，雖然我是流行的 TextRank開源實現之一的首席提交者，但我只將其提取摘要功能用於需要“便宜且快速”解決方案的用例。 否則，我建議考慮更復雜的摘要方法。 例如，我建議密切關注 TextRank 的作者Rada Mihalcea和她在密歇根大學的研究生正在進行的研究。

在比較“哪種文本摘要方法效果更好？”方面。 我會指出抽象摘要方面的工作，特別是John Bohannon 等人最近的工作。 ，在入門。 有關出色的示例，請查看他們的團隊使用自然語言理解、知識圖、抽象摘要等生成的 CV19 研究的“每日簡報” 。Amy Heineike 在“解鎖大量 COVID-19 論文、文章的機器，和對話” 。