如何在Python中標記一組詞

Question

我正在用python開發一個應用程序，該應用程序根據上傳的簡歷給出工作建議。 我正在嘗試對簡歷進行標記化，然后再進行進一步處理。 我想標記一組單詞。 例如，當我標記化數據時， 數據科學是一個關鍵字，我將分別獲得數據和科學。 如何克服這種情況。 是否有任何庫在python中提取這些內容？

Answer 1

看起來您正在尋找生成n-gram （特別是bi-gram）。 如果是這樣，以下是實現此目的的一種方法：

from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
  print grams

Answer 2

如果您希望通過一些定界符（例如空格）來標記簡歷中的所有單詞，則根據您的示例輸入“ Data Science”並輸出[“ data”，“ science”]，以下函數將小寫一個字符串，並將其拆分內容按空格返回一個字符串列表。

def tokenize(resume_string):
    return resume_string.lower().split(" ")

如何在Python中標記一組詞

問題描述

2 個解決方案

解決方案1
2 已采納 2018-07-15 01:06:42

解決方案2
0 2018-07-14 06:56:12

如何在Python中標記一組詞

問題描述

2 個解決方案

解決方案1 2 已采納 2018-07-15 01:06:42

解決方案2 0 2018-07-14 06:56:12

解決方案1
2 已采納 2018-07-15 01:06:42

解決方案2
0 2018-07-14 06:56:12