繁体   English   中英

(初学者)NLP:我试图了解如何对文本中的单词进行分类以识别与某个主题相关的所有单词

[英](Beginner to) NLP:I am trying to understand how I can categorise words in text to identify all the words related to a topic

我使用 BeautifulSoup 抓取了一个网站,现在我想分析我抓取的所有文本并创建该文本中出现的食物项目的长列表。

示例文本

如果你是一个素食主义者并且永远为你不能吃馄饨而哀叹,这些家伙是给你的! 馅料由硬豆腐碎简单混合制成,并用盐、姜、白胡椒和葱调味。 这非常简单,但非常令人满意。 确保将豆腐沥干并尽可能地晾干,这样馅料就不会太湿。 你甚至可以更进一步,给它一个压力:用纸巾把盘子排成一行,在上面放一些纸巾,然后用另一个盘子把豆腐压下来。 这些馄饨最好的地方是馅料完全煮熟,因此您只需品尝即可调整调味料。 只要确保馅料比你自己吃的时候稍微咸一点。 馄饨皮没有太多调味料。 这些家伙很快就做好了,因为你所做的只是在做馄饨皮。 一旦您将它们放入沸水中并漂浮到顶部,您就可以开始了。 给他们拌上辣酱油醋酱,你就上天堂了!

我想从中创建一个长长的清单,其中包括:馄饨、豆腐、醋、白胡椒、洋葱、盐

如果没有预先存在的食品清单,我不确定如何做到这一点。 因此,任何建议都会很棒。 寻找可以在没有太多人工干预的情况下自动执行此操作的东西! (我对 NLP 和深度学习很陌生,所以你推荐的任何文章/方法都会非常有用!)

谢谢!

如果您是该领域的新手,您可以使用 GENSIM,这是一个用于主题建模的免费 Python 库。您可以使用潜在语义分析或相似性查询提取食物项目。

https://radimrehurek.com/gensim/index.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM