簡體   English   中英

防止 spaCy 對空格分隔的數字進行標記

[英]Prevent spaCy from tokenizing space-delimited numbers

我正在尋找一種方法來防止 spaCy 對以空格分隔的數字進行標記,如這句話:

這輛車將花費 10 000 美元。

“10 000”應該是一個表示“萬”的記號。

我需要修改哪些標記化規則才能實現這一點?

分詞器並不真正支持這一點。 相反,您可以使用匹配器找到正確的跨度,然后使用 retokenizer 在文檔中合並這些跨度。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM