簡體   English   中英

在pandas數據框列中查找子字符串列表的所有變體

[英]Finding all variations of a list of substrings in a pandas dataframe column

我有一個電影名稱字符串列表,我想在pandas數據movie_namedescription進行搜索,如果在用戶輸入的描述中找到了新列movie_name則可以創建一個新列。

現在,由於描述不是標准化的,我如何搜索特定名稱的所有可能變體。 例如。 電影名稱之一是HARRY POTTER 4 現在,我需要搜索所有可能的輸入,例如HARRYPOTTER 4HARRY POTTER4HARRYPOTTER4等。在某些情況下,用戶可能沒有在4之后留空格並鍵入其他內容。 HARRY POTTER 4is a good movie

我需要從描述中提取列表中給定的電影名稱,並添加一個僅movie_name的新列。 除了使用.contains.extract在列表中添加所有可能的變體,然后再使用.map.replace將所有這些變體映射到1個最終電影名稱之外,還有其他方法嗎?

我建議您看一下FuzzyWuzzy庫。

這是一篇易於理解的文章: https : //www.geeksforgeeks.org/fuzzywuzzy-python-library/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM