簡體   English   中英

如何從難以找到模式的字符串列表中提取標記

[英]how to extract tokens from list of strings where its hard to find the patterns

我正在從簡歷數據庫構建模型,我只想從候選人的簡歷中提取學位名稱。 我最初的方法是找到一個模式並使用正則表達式提取匹配項,但由於沒有明顯的模式,我的第二種方法是使用 nlp 並查看是否有任何標簽與我想要的字符串匹配。 我還考慮過是否已經制作了任何 API 或 python 庫,其中包含所有可能的學位名稱,但沒有成功。 以下是一些字符串:

'bachelor of Computer Science Engineering University : Anna Un'
'master of Information Technology University : Deakin Univer'
'diploma in Management 2016 M.Sc. of Computer Science (“Diplo']
'master of Analytics Concentration: Data handling and manage'
'master of Engineering (Software) University of Melbourne 20'
'bachelor of B USINESS INFOR MATIO N SY STEM S – Monash Univer'

但是,我已經提取了前兩個詞並將它們標准化為碩士、學士和文憑,如果這有幫助的話,因為它們采用不同的格式,如碩士、碩士等。以下是數據快照以獲取一些想法。 謝謝在此處輸入圖片說明

我已經使用 Spacy 庫完成了這項工作。 有兩種方法可以這樣做,您可以查看 spacy 文檔:

  1. 基於規則(基於模式)
  2. 針對您的特定用例的自定義 NER 培訓。

您可以選擇上述之一。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM