[英]What is the most suitable string distance algorithm to use for comparing TV show titles?
我正在為電視節目和其他媒體(游戲,電影等)編寫刮刀,並不是所有來源的格式都與某個節目相同。 例如,一個源可能表示帶有破折號的字幕,其他分號。 我目前正在使用Levenshtein距離將刮下的數據與從電視節目文件名中提取的數據進行比較,但我想知道該算法是否是針對短句長度而設計的。 有沒有更適合這種需求的算法?
在比較/距離測量之前,您應該標准化(標准化)標題。
規范化應包括以下內容:
您可以在單詞對之間使用Levenshtein距離(不要將它用於整個句子),但是實現一些滑動窗口,因為某些表示(例如“The”)可能會從其中一個表示中丟失。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.