簡體   English   中英

特征提取NLP

[英]Feature extraction NLP

我正在處理評論數據集。 問題是要從評論中獲取該特定產品的重要(正面評價次數)正面和負面特征。

例如: some xyz car

正面:行駛里程長,外觀漂亮,寬敞等

負面:功能不佳,性能不佳,軟件問題等

事情是要提取關於產品的最佳和最糟糕的東西!

到目前為止,我一直使用gensim的doc2vec查找最上面的肯定和否定句子。 結果不是很好,因為它得到的句子結構相似,而羽毛卻不相似。

一些“單詞移動器的距離”計算的文章,用於識別相似的句子/短語,使用評論作為其數據集,並且似乎很好地提取了常見主題和代表性短語。

參見例如:

“使用Word Mover的距離在餐廳評論中導航主題” http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/

“使用Word2Vec和WMD查找相似的文檔” https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

您似乎想要提取有關某產品的功能,這在您的評論中最常被提及。 這是典型的主題聚類問題。 您可以使用潛在Dirichlet分配模型進行主題聚類。

這種方法將為您提供功能,然后您可以運行情感分析模型以了解對該功能的正面或負面情緒。

碰巧的是,如果您已經了解這些功能,並且希望將其歸為一組,那么請查看此問答和問題中提到的論文。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM