使用 Spacy 中的自定義標記器對沒有空格的字符串進行標記

Question

我想標記一些名為SMILES的化學表達式，例如[c]1ccc(C(=O)Nc2ccc(Br)cc2)cc1[N+](=O)[O-].C[NH] 。 There are no spaces in the string, and after the tokenization, we should get [c], 1, c, c, c, (, C, (, =, O, ), N, c, 2, c, c, c, (, Br, ), c, c, 2, ), c, c, 1, [N+], (, =, O, ), [O-], ., C, [NH] , which means some特殊標記有多個字符，例如[c] 、 Br和[N+] ，它們不應該被拆分。除了這些標記之外，其他標記只有一個字符，例如c ( N 。我如何使用Spacy的標記器來實現這一點？如果這里不需要 spacy 並且只有 python 的片段可以做到這一點，它也可以可以接受。任何幫助將不勝感激！

Answer 1

我認為這個正則表達式很簡單所以

s = "[c]1ccc(C(=O)Nc2ccc(Br)cc2)cc1[N+](=O)[O-].C[NH]"
tokens = re.findall("\[.+?]|.",s)

我想會做你想要的

使用 Spacy 中的自定義標記器對沒有空格的字符串進行標記

問題描述

1 個解決方案

解決方案1
0 已采納 2020-12-20 07:23:48

使用 Spacy 中的自定義標記器對沒有空格的字符串進行標記

問題描述

1 個解決方案

解決方案1 0 已采納 2020-12-20 07:23:48

解決方案1
0 已采納 2020-12-20 07:23:48