[英]Are there any opportunities to tokenize hashtags into multi-words tokens?
我目前正在分析 Instagram 帖子,这些帖子通常有包含多个单词的主题标签(例如#pictureoftheday)。
但是,在 R package tidytext
它们标记化只会产生一个标记。 相反,我想拥有多个标记,例如“图片”“的”“那一天”。 不幸的是,我还没有找到能够这样做的 package。 你知道任何允许这种方法的 R package 吗?
提前致谢!
据我所知——你不能在不知道它们就是这样的情况下拆分连接的词。 您知道如果主题标签被分隔符分割,那么它会很容易。 没有它会变得非常复杂。 你需要一个依赖于语言的字典。
您可能必须自己单独处理数据。
试试这个 Python 回购: ekphrasis
from ekphrasis.classes.segmenter import Segmenter
seg = Segmenter(corpus="mycorpus")
print(seg.segment("smallandinsignificant"))
output:
> small and insignificant
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.