如何使用 Tokenizer 函數 tensorflow 標記標點符號

Question

我使用tensorflow.keras.preprocessing.text的Tokenizer()函數作為：

from tensorflow.keras.preprocessing.text import Tokenizer
s = ["The quick brown fox jumped over the lazy dog."]
t = Tokenizer()
t.fit_on_texts(s)
print(t.word_index)

輸出：

{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog': 8}

Tokenizer 函數不包括標點符號。 如何標記標點符號？ （ . ，在這個例子中。）

Answer 1

一種可能性是用空格將標點符號與單詞分開。 我用預處理函數pad_punctuation做到這pad_punctuation 。 在此之后，我將Tokenizer與filter=''

import re
import string
from tensorflow.keras.preprocessing.text import Tokenizer

def pad_punctuation(s): return re.sub(f"([{string.punctuation}])", r' \1 ', s)

S = ["The quick brown fox jumped over the lazy dog."]
S = [pad_punctuation(s) for s in S]

t = Tokenizer(filters='')
t.fit_on_texts(S)
print(t.word_index)

結果：

{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog': 8, '.': 9}

pad_punctuation函數對所有標點符號都有效

如何使用 Tokenizer 函數 tensorflow 標記標點符號

問題描述

1 個解決方案

解決方案1
1 已采納 2020-09-29 20:46:13

如何使用 Tokenizer 函數 tensorflow 標記標點符號

問題描述

1 個解決方案

解決方案1 1 已采納 2020-09-29 20:46:13

解決方案1
1 已采納 2020-09-29 20:46:13