[英]Is there any model to get context of each customer's review in Python?
我有客户写的 2 万条评论的数据。 我想使用 Python 检索或拉取每个客户评论的上下文。
例子:
“这件衬衫尺码对我来说太小了”。 在这句话中,他谈论的是产品尺寸,因此上下文应该类似于“产品尺寸”。
“价格太高了,我可以在亚马逊以更低的价格买到这个产品。”。 在这句话中,他谈论的是产品价格,因此上下文应该类似于“产品价格”。
“我在等我的鞋子,但很晚才拿到”。 上下文应该是“发货”。
我应该应用哪种模型来在 Python 中获得它,我必须执行哪些预处理步骤?
这是一个非常广泛的问题,关于其他地方已经写了多少,所以我不会在这里详细介绍,而是提供一些有用的链接,可以让您朝着正确的方向前进。
首先,它将帮助您对问题空间有一个广泛的了解。 您正在尝试解决文本(或文档)分类问题。 具体来说,您的问题是,“给定一些(任意长度?)文本,生成一个(或多个?)(手动策划或自动学习?)与该文本相关的主题。” 由于您在问题中没有具体说明,您需要自己填写该陈述中嵌入的问题。 这篇文章看起来像一个体面的,只是适度的技术概述。 正如它所提到的,有手动指定的基于规则和基于机器学习的方法来解决这个问题。
至于具体在 python 中执行此操作,同样,已经编写了很多您可以轻松搜索的内容,尽管我想您可能会在搜索正确的词汇方面有些挣扎,所以我会帮助您。 这看起来是一篇带有示例脚本的优秀文章,它将引导您解决预处理、模型构建和分析问题。 这是“python 文本分类”的第一个谷歌热门搜索。
最后,我会说这是一个复杂的领域,对于初学者来说,没有任何有价值的快速和肮脏的解决方案。 您将需要投入时间来了解该领域,以便学习如何构建准确且有意义的模型。 当然,有很多面向业务的服务将为您以更多的黑匣子方式为您执行此操作,还有像SageMaker这样的云服务和许多其他服务,但您似乎对滚动感兴趣您自己的模型,花时间学习是无可替代的。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.