簡體   English   中英

用於比較電視節目標題的最合適的字符串距離算法是什么?

[英]What is the most suitable string distance algorithm to use for comparing TV show titles?

我正在為電視節目和其他媒體(游戲,電影等)編寫刮刀,並不是所有來源的格式都與某個節目相同。 例如,一個源可能表示帶有破折號的字幕,其他分號。 我目前正在使用Levenshtein距離將刮下的數據與從電視節目文件名中提取的數據進行比較,但我想知道該算法是否是針對短句長度而設計的。 有沒有更適合這種需求的算法?

在比較/距離測量之前,您應該標准化(標准化)標題。

規范化應包括以下內容:

  • 基本格式(例如UTF16編碼,無前導/尾隨空格和制表符)
  • 字母規則(例如將Ä替換為A)
  • 首字母縮略詞擴展(例如紐約 - >紐約)
  • 位置名稱規則(例如,城市名稱不應包含空格,而是破折號)
  • 資本化規則(例如破折號后面的每個字母都應大寫)
  • 刪除符號(例如!,?)
  • 號碼轉換(“三百”到“300”)
  • 羅馬數字轉換(例如“路易十六”到“路易十六”)
  • 非美國英語到美國英語(例如“顏色”到“顏色”)
  • 縮寫規則(例如“Inc。”而不是“Incorporated”,“vs.”而不是“vs.”)

您可以在單詞對之間使用Levenshtein距離(不要將它用於整個句子),但是實現一些滑動窗口,因為某些表示(例如“The”)可能會從其中一個表示中丟失。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM