簡體 English 中英

用於比較電視節目標題的最合適的字符串距離算法是什么？

[英]What is the most suitable string distance algorithm to use for comparing TV show titles?

原文 2016-07-03 05:50:46 1 1 string/ algorithm/ levenshtein-distance

我正在為電視節目和其他媒體（游戲，電影等）編寫刮刀，並不是所有來源的格式都與某個節目相同。 例如，一個源可能表示帶有破折號的字幕，其他分號。 我目前正在使用Levenshtein距離將刮下的數據與從電視節目文件名中提取的數據進行比較，但我想知道該算法是否是針對短句長度而設計的。 有沒有更適合這種需求的算法？

1 個解決方案

在比較/距離測量之前，您應該標准化（標准化）標題。

規范化應包括以下內容：

基本格式（例如UTF16編碼，無前導/尾隨空格和制表符）
字母規則（例如將Ä替換為A）
首字母縮略詞擴展（例如紐約 - >紐約）
位置名稱規則（例如，城市名稱不應包含空格，而是破折號）
資本化規則（例如破折號后面的每個字母都應大寫）
刪除符號（例如！，？）
號碼轉換（“三百”到“300”）
羅馬數字轉換（例如“路易十六”到“路易十六”）
非美國英語到美國英語（例如“顏色”到“顏色”）
縮寫規則（例如“Inc。”而不是“Incorporated”，“vs.”而不是“vs.”）

您可以在單詞對之間使用Levenshtein距離（不要將它用於整個句子），但是實現一些滑動窗口，因為某些表示（例如“The”）可能會從其中一個表示中丟失。

使用 Python 對電視節目標題進行字符串操作

[英]String manipulation for TV Show titles using Python

在 Java 中反轉字符串的最有效算法是什么？

[英]What is the most efficient algorithm for reversing a String in Java?

字符串聚類-哪種算法合適？

[英]clustering strings - what algorithm is suitable?

根據預先計算的哈希值比較字符串距離

[英]Comparing string distance based on precomputed hashes

最適合高效前綴搜索的數據結構是什么？

[英]What is the most suitable data structure for efficient prefix searching?

以最有效的方式比較兩個String數組

[英]Comparing two String array in most efficient way

c＃中字符串比較的快速算法

[英]Faster Algorithm for string comparing in c#

從 C 中的電視節目文件名中提取季節和劇集的最有效方法

[英]Most efficient way to extract season and episode from tv show filename in C

是否有一種有效的算法可以找到具有最差交換距離的給定字符串的排列？

[英]Is there an efficient algorithm to find the permutation of a given string with the worst swap distance?

比較多個字符串以查找“平均”/最常見的字符串

[英]Comparing multiple strings to find 'average'/most common string

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 Python 對電視節目標題進行字符串操作在 Java 中反轉字符串的最有效算法是什么？字符串聚類-哪種算法合適？根據預先計算的哈希值比較字符串距離最適合高效前綴搜索的數據結構是什么？以最有效的方式比較兩個String數組 c＃中字符串比較的快速算法從 C 中的電視節目文件名中提取季節和劇集的最有效方法是否有一種有效的算法可以找到具有最差交換距離的給定字符串的排列？比較多個字符串以查找“平均”/最常見的字符串

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM