簡體   English   中英

是否可以將 spacy 令牌列表合並到文檔中

[英]Is it possible to merge a list of spacy tokens into a doc

我有一個使用 Spacy 標記器標記的文檔。 我想將ner應用於一系列令牌(本文檔的一部分)。

目前我正在創建一個文檔,然后應用ner

nlp = spacy.load("en_core_web_sm")
# tokens_list is a list of Spacy tokens
words = [tok.text for tok in tokens_list]

spaces = [True if tok.whitespace_ else False for tok in tokens_list]

doc = spacy.tokens.doc.Doc(blackstone_nlp.vocab,
      words=words, spaces=spaces)
doc = nlp.get_pipe("ner")(doc)

但這並不理想,因為我在文檔中丟失了它們的原始 ID,這很重要。

有沒有辦法將令牌合並到文檔中並仍然保持它們的 ID(包括其他未來的擴展)?

要將令牌列表合並回Doc您可能希望嘗試:

import spacy
nlp = spacy.load("en_core_web_sm")
txt = "This is some text"
doc = nlp(txt)
words = [tok.text for tok in doc]

spaces = [True if tok.whitespace_ else False for tok in doc]
doc2 = spacy.tokens.doc.Doc(nlp.vocab, words=words, spaces=spaces)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM