簡體 English 中英

配置文件讀取文件

[英]Hive on spark reading files

原文 2017-07-20 15:33:51 9 1 hadoop/ apache-spark/ hive/ hiveql

我在Spark上使用Hive。 我在Hadoop中壓縮了日志文件。 它們的平均大小為40 MB，而塊大小為128 MB。 我相信，如果我以某種方式合並日志文件，我將擁有更少的塊，並且可以減少數據讀取時間。 例如，我每小時都有日志文件（每天24個文件-> 24個塊）。 聚合后，我有6個塊的1個文件（24小時）。

我已經使用Hive進行了基准測試，並注意到連接后的讀取時間和查詢執行時間比6倍增加了。

問題：我對Spark上的Hadoop-Hive的看法是什么？

1 個解決方案

壓縮的文本文件不可拆分。
您的原始數據已被多個映射器讀取。
單個映射器正在讀取您的合並數據。

火花不讀hive-site.xml嗎？

[英]Spark not reading hive-site.xml?

讀取 SPARK SQL 中的分區 HIVE 表

[英]Reading Partitioned HIVE table in SPARK SQL

讀取 Hive 表的空 Spark 數據集

[英]Empty Spark dataset reading Hive table

蜂巢火花。讀取實木復合地板文件

[英]Hive on spark. Reading parquet file

讀取 hadoop.hive.ql.io.HiveSequenceFileOutputFormat Z8A4AC216FB230D0F7ZDE 表中的表

[英]reading a hadoop.hive.ql.io.HiveSequenceFileOutputFormat hive table in spark

在Spark中讀取壓縮的xml文件

[英]Reading zipped xml files in Spark

正則表達式SERDE讀取蜂巢中的日志文件

[英]regex serde reading log files in hive

聚合后使用 spark 從 hive 表中讀取和寫入

[英]reading and writing from hive tables with spark after aggregation

從 spark 中讀取使用 CTE（With 子句）創建的 Hive 視圖

[英]Reading Hive view created with CTE (With clause) from spark

spark saveAsTable 在讀寫 hive 表時如何工作

[英]How does spark saveAsTable work while reading and writing to hive table

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 火花不讀hive-site.xml嗎？讀取 SPARK SQL 中的分區 HIVE 表讀取 Hive 表的空 Spark 數據集蜂巢火花。讀取實木復合地板文件讀取 hadoop.hive.ql.io.HiveSequenceFileOutputFormat Z8A4AC216FB230D0F7ZDE 表中的表在Spark中讀取壓縮的xml文件正則表達式SERDE讀取蜂巢中的日志文件聚合后使用 spark 從 hive 表中讀取和寫入從 spark 中讀取使用 CTE（With 子句）創建的 Hive 視圖 spark saveAsTable 在讀寫 hive 表時如何工作

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM