簡體   English   中英

斯坦福大學的情感分析偏向負面嗎?

[英]Stanford Sentiment Analysis is biased towards negative?

我正在對現有的情緒分析器應用程序進行一些研究。 我目前正在查看Stanford CoreNlp /情感分析3.8.0,我在測試數據中注意到的預測似乎偏向負面。 這是一些負面的例子:

  1. 紐約是我最終想要度過我的教學生涯的地方,這個機會實在令人難以拒絕。 -負面
  2. 我知道成為一名有效和有影響力的老師是一種責任,但我渴望在上課前,下學期和下課后的幾個小時提出建議,以確保我是我的學生可用的資源。 -負面
  3. 根據我的親身經歷,我在課堂上學到了許多必要的生活技能,而我最有影響力的老師是我的動力和支持者。 -負面

我檢查了一下,只有一種可能的模型可以使用(因此,我認為沒有任何方法可以推動使用-我不想訓練模型)。 我可以使用其他/更好的(也許是?)POS,這可能會給我帶來不同的預測,但是由於我讀到的有關斯坦福圖書館的所有博客/評論都是積極的,而我的結果卻很糟糕,我對此感到有些困惑。 我想念什么嗎?

編碼:

    Properties props = new Properties();
    props.setProperty("annotators", "tokenize, ssplit, parse, sentiment");
    StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
    Annotation document = pipeline.process(text);
    pipeline.annotate(document);

    List<CoreMap> sentences = document.get(CoreAnnotations.SentencesAnnotation.class);
    int mainSentiment=0; int longest = 0;
    SimpleMatrix matrix = null;
    for (CoreMap sentence : sentences) {
        String s_sentiment = sentence.get(SentimentCoreAnnotations.SentimentClass.class);

        Tree tree = sentence
                .get(SentimentCoreAnnotations.SentimentAnnotatedTree.class);
        int sentiment = RNNCoreAnnotations.getPredictedClass(tree);
        matrix = RNNCoreAnnotations.getPredictions(tree);

        System.out.println(sentence);
        System.out.println(sentiment + "-" +s_sentiment + "\t" + matrix.elementMaxAbs());
    }

分數的可能值:0非常負1負2中性3正4非常正

如果您在生產應用程序中使用此庫,您是否發現可靠的結果以推動執行該庫?

首先,從3.3.1版本開始,不僅有一個模型作為參數傳遞給optioniment.model選項 ,還傳遞了兩個模型(遺憾的是,似乎在網站上的任何地方都沒有提到):

  • 四類模型( 非常消極消極中性積極非常積極edu/stanford/nlp/models/sentiment/sentiment.ser.gz
  • 兩類模型( NegativeNeutralPositiveedu/stanford/nlp/models/sentiment/sentiment.binary.ser.gz

這不是標准模型集的一部分,而是其他models-english模型 為了使用它,您需要獲取它,可以做一些更好的記錄。 適當的Maven工件依賴關系為

<dependency>
        <groupId>edu.stanford.nlp</groupId>
        <artifactId>stanford-corenlp</artifactId>
        <version>${stanford-corenlp.version}</version>
        <classifier>models-english</classifier>
        <scope>runtime</scope>
</dependency>

正如在描述他們的2013紙 ,他們用電影的語料庫審查,以建立自己的模型(一個或多個),這是非常可能的,這個數據是次優的分析你的語言的類型:例如, 好得盡管這是一個相對普遍的名詞,但他們的語料庫中的拒絕根本沒有任何結果

我本人也曾嘗試使用其預先訓練的模型來分析對話語言,其結果也不錯,但也並不令人驚訝:創建正負模式列表並在我的文本中尋找它們的准確性是與使用情緒分析器沒有太大區別。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM