[英]Finding all variations of a list of substrings in a pandas dataframe column
我有一個電影名稱字符串列表,我想在pandas數據movie_name
列description
進行搜索,如果在用戶輸入的描述中找到了新列movie_name
則可以創建一個新列。
現在,由於描述不是標准化的,我如何搜索特定名稱的所有可能變體。 例如。 電影名稱之一是HARRY POTTER 4
。 現在,我需要搜索所有可能的輸入,例如HARRYPOTTER 4
, HARRY POTTER4
, HARRYPOTTER4
等。在某些情況下,用戶可能沒有在4
之后留空格並鍵入其他內容。 HARRY POTTER 4is a good movie
。
我需要從描述中提取列表中給定的電影名稱,並添加一個僅movie_name
的新列。 除了使用.contains
和.extract
在列表中添加所有可能的變體,然后再使用.map
或.replace
將所有這些變體映射到1個最終電影名稱之外,還有其他方法嗎?
我建議您看一下FuzzyWuzzy庫。
這是一篇易於理解的文章: https : //www.geeksforgeeks.org/fuzzywuzzy-python-library/
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.