[英]Feature extraction NLP
我正在處理評論數據集。 問題是要從評論中獲取該特定產品的重要(正面評價次數)正面和負面特征。
例如: some xyz car
正面:行駛里程長,外觀漂亮,寬敞等
負面:功能不佳,性能不佳,軟件問題等
事情是要提取關於產品的最佳和最糟糕的東西!
到目前為止,我一直使用gensim的doc2vec查找最上面的肯定和否定句子。 結果不是很好,因為它得到的句子結構相似,而羽毛卻不相似。
一些“單詞移動器的距離”計算的文章,用於識別相似的句子/短語,使用評論作為其數據集,並且似乎很好地提取了常見主題和代表性短語。
參見例如:
“使用Word Mover的距離在餐廳評論中導航主題” http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/
“使用Word2Vec和WMD查找相似的文檔” https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html
您似乎想要提取有關某產品的功能,這在您的評論中最常被提及。 這是典型的主題聚類問題。 您可以使用潛在Dirichlet分配模型進行主題聚類。
這種方法將為您提供功能,然后您可以運行情感分析模型以了解對該功能的正面或負面情緒。
碰巧的是,如果您已經了解這些功能,並且希望將其歸為一組,那么請查看此問答和問題中提到的論文。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.