簡體   English   中英

如何在Python中標記一組詞

[英]How to Tokenize group of words in Python

我正在用python開發一個應用程序,該應用程序根據上傳的簡歷給出工作建議。 我正在嘗試對簡歷進行標記化,然后再進行進一步處理。 我想標記一組單詞。 例如,當我標記化數據時, 數據科學是一個關鍵字,我將分別獲得數據科學 如何克服這種情況。 是否有任何庫在python中提取這些內容?

看起來您正在尋找生成n-gram (特別是bi-gram)。 如果是這樣,以下是實現此目的的一種方法:

from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
  print grams

如果您希望通過一些定界符(例如空格)來標記簡歷中的所有單詞,則根據您的示例輸入“ Data Science”並輸出[“ data”,“ science”],以下函數將小寫一個字符串,並將其拆分內容按空格返回一個字符串列表。

def tokenize(resume_string):
    return resume_string.lower().split(" ")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM