安裝管道時出現Pyspark ML管道錯誤

Question

我第一次從三個pyspark.ml.feature（tokenizer，CV，idf）構建了一條管道，所有丁字褲都運行良好，但是第二次嘗試告訴我Py4JJavaError：調用o175.fit時發生錯誤。 有誰知道這個錯誤的原因是什么謝謝

   import findspark
   findspark.init()
   import pyspark.sql.types as typ
   import pyspark as ps
   from pyspark.sql import SparkSession
   import pandas as pd
   import numpy as np
   import warnings
   from pyspark.sql import SQLContext
   sparkSession = SparkSession.builder \
       .master("local[2]") \
       .appName("Pyspark Sentiment") \
       .getOrCreate()
   df = sparkSession.read.load('data/Microblog_Trialdata.csv', 
                          format='com.databricks.spark.csv', 
                          header='true', 
                          inferSchema='true')
df=df.select("sentiment score","spans")
(train_set, val_set, test_set) = df.randomSplit([0.6, 0.2, 0.2], seed = 42)
from pyspark.ml.feature import HashingTF, IDF, Tokenizer ,CountVectorizer
from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline

tokenizer = Tokenizer(inputCol="spans", outputCol="words")
CV = CountVectorizer(vocabSize=2**11, inputCol="words", outputCol='cv_')
idf = IDF(inputCol='cv_', outputCol="features", minDocFreq=5) #minDocFreq: 

remove sparse terms


#model=CV.fit(data)
    #vo=model.vocabulary 
    #print(type(vo))
    pipeline = Pipeline(stages=[tokenizer, CV, idf])

    pipelineFit = pipeline.fit(train_set)
    train_df = pipelineFit.transform(train_set)
    val_df = pipelineFit.transform(val_set)
    train_df.select("cv_").show(5,truncate=False)
    train_df.show(5)

Answer 1

在train_set中但在val_set中看不到的單詞可能導致錯誤。 Count Vectorizer具有handleInvalid選項來解決此問題。

# this will ignore not seen words
CV = CountVectorizer(vocabSize=2**11, inputCol="words", outputCol='cv_',handleInvalid='skip')

安裝管道時出現Pyspark ML管道錯誤

問題描述

1 個解決方案

解決方案1
0 2018-07-11 10:23:38

安裝管道時出現Pyspark ML管道錯誤

問題描述

1 個解決方案

解決方案1 0 2018-07-11 10:23:38

解決方案1
0 2018-07-11 10:23:38