[英]python - in a list of strings, find all patterns with a minimum of n consecutive tokens that occurs in at least y entries
[英]how to extract tokens from list of strings where its hard to find the patterns
我正在從簡歷數據庫構建模型,我只想從候選人的簡歷中提取學位名稱。 我最初的方法是找到一個模式並使用正則表達式提取匹配項,但由於沒有明顯的模式,我的第二種方法是使用 nlp 並查看是否有任何標簽與我想要的字符串匹配。 我還考慮過是否已經制作了任何 API 或 python 庫,其中包含所有可能的學位名稱,但沒有成功。 以下是一些字符串:
'bachelor of Computer Science Engineering University : Anna Un'
'master of Information Technology University : Deakin Univer'
'diploma in Management 2016 M.Sc. of Computer Science (“Diplo']
'master of Analytics Concentration: Data handling and manage'
'master of Engineering (Software) University of Melbourne 20'
'bachelor of B USINESS INFOR MATIO N SY STEM S – Monash Univer'
但是,我已經提取了前兩個詞並將它們標准化為碩士、學士和文憑,如果這有幫助的話,因為它們采用不同的格式,如碩士、碩士等。以下是數據快照以獲取一些想法。 謝謝
我已經使用 Spacy 庫完成了這項工作。 有兩種方法可以這樣做,您可以查看 spacy 文檔:
您可以選擇上述之一。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.