[英]Spark-Sql returns 0 records without repairing hive table
我正在執行以下操作:
ALTER TABLE ... DROP IF EXISTS PARTITION (col='val1')
刪除配置單元分區ALTER TABLE ... DROP IF EXISTS PARTITION (col='val1')
hdfs dfs -rm -r path_to_remove
(col='val1')
並在HDFS文件夾下創建avro文件。 sqlContext.sql("select count(0) from table1 where col='val1'").show
返回0,直到MSCK REPAIR TABLE
為止。 是否必須執行修復步驟才能在spark-sql
再次查看數據? 請指教。
如果是外部表,是的,您需要修復該表。 我認為您不需要對托管表執行此操作。
SparkSQL從Hive Metastore讀取信息,並且沒有那里有關分區的信息,Spark或使用此Metastore的任何其他工具都無法計數
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.