[英]SPARK - How to use function in group by query
我將將SHARK查詢遷移到SPARK 。 以下是我的示例SHARK查詢,該查詢在group by子句中使用函數。 這個查詢在SPARK sql中不起作用,它給出以下錯誤; 錯誤: org.apache.spark.sql.catalyst.errors.package $ T ...
[英]SPARK - How to use function in group by query
我將將SHARK查詢遷移到SPARK 。 以下是我的示例SHARK查詢,該查詢在group by子句中使用函數。 這個查詢在SPARK sql中不起作用,它給出以下錯誤; 錯誤: org.apache.spark.sql.catalyst.errors.package $ T ...
[英]java HiveClient fails select: java.sql.SQLException: Query returned non-zero code: 9
我對Hive和HDFS還是很陌生,但是我設法在Java中創建了一個可正常運行的HiveClient,它可以成功連接並在HDFS服務器上執行查詢,即select語句以外的所有查詢。 我的代碼如下所示: 當我運行它時,錯誤是這樣的: java.sql.SQLExcept ...
[英]Does Spark support insert overwrite static partitions?
我在當前的Spark Sql手冊中注意到,不支持將其插入動態分區: 蜂巢的主要功能 Spark SQL當前不支持使用動態分區插入表。 但是,是否支持在靜態分區中插入/覆蓋? ...
[英]Can we use Shark 0.9.1 version with Spark 1.1.0?
我知道Shark已被Spark SQL(Apache Spark中的新模塊)所包含。 但是我的問題是,我們可以將現有的Shark與新的Spark版本一起使用嗎? ...
[英]How to create a Shark query from a saved text file out of a RDD?
我有一個JavaPairRDD<String, String> results並通過調用保存它: 然后我得到文件內容,如: 現在,我想使用Shark創建具有三個字段的表: 我怎樣才能做到這一點? ...
[英]Connect to Spark SQL via ODBC
根據此頁面: https : //spark.apache.org/sql/您可以通過ODBC或JDBC將現有BI工具連接到Spark SQL: 我不是指鯊魚,因為這基本上是EOL : 正是出於這個原因,我們將Shark中的開發作為一個單獨的項目結束,並將所有開發資源轉移到Spa ...
[英]How can I get Spark/Shark to start on DSE 4.5.1
最初這是開箱即用的,然后AWS幫我關閉了該服務器。 因此,我對其進行了重新構建,並使其成為新的作業跟蹤器(它也是舊的作業跟蹤器)。 現在我不知道如何運行Spark / Shark。 只需輸入dse shark獲得與添加環境變量相同的輸出。 我不確定缺少什么或在哪里設置什么變量使它們起作用 ...
[英]Can someone explain this : “Spark SQL supports a different use case than Hive.”
我指的是以下鏈接: Hive對Spark的支持 它說 : “ Spark SQL支持與Hive不同的用例。” 我不確定為什么會這樣。 這是否意味着作為Hive用戶,我無法通過Spark SQL使用Spark執行引擎? 一些問題: Spark SQL使用H ...
[英]Shark external table performance
在查詢性能方面,從位於本地文件系統上的Shark中的外部表進行查詢與使用位於HDFS上的數據進行比較有何不同? 我打算使用一台高端服務器來運行shark查詢,並且想知道安裝hadoop / hdfs是否絕對必要。 ...
[英]hive internal error with Amplab shark on spark
請...需要幫助。 我已按照步驟構建“火花”和“鯊魚”以從hdfs / cassandra查詢數據。 我在hdfs上有一個Cassandra集群,可以成功查看數據庫。 但不能運行選擇語句 shark>從calls_flow限制1中選擇*; 失敗:Hive內部錯誤:java ...
[英]Running query from Amplab-shark to cassandra on hdfs
請在hdfs中的Cassandra上查詢Amplab-Shark時需要幫助。 我可以成功運行: 使用數據庫 顯示表格; 等等 但是不能運行任何選擇語句,即: select * from table; 我收到以下錯誤: 謝謝 ...
[英]Why does Shark running on EC2 give me a “Wrong FS” error when writing data to S3
我正在使用提供的設置腳本在Amazon EC2上運行Shark / Spark(0.9.1)。 我正在從S3中讀取數據,然后嘗試將表寫回到S3中。 可以從S3正常讀取數據(因此我的憑據是正確的),但是當我嘗試將數據寫入S3時,出現以下錯誤: 14/07/31 16:42:30 IN ...
[英]UDF not working in Spark SQL
我正在嘗試計算Spark SQL上的Jaccard索引。 我在Hive上的表有以下數據: 表DDL: 我正在使用Brickhouse的UDF 。 從spark-shell ,我可以執行以下命令來創建臨時函數。 我還將.jar文件添加到了CLASSPATH for sp ...
[英]JDBC connection to Shark Server hangs
我正在為鯊魚群集使用以下配置 斯卡拉2.10.3 星火0.9.0 蜂巢0.12.0-chd5.0.2 鯊魚0.9.0 通過Cloudera Manager(CDH 5.0.2)配置Spark和Hive 我正在按照本教程連接到鯊魚服務器: https ...
[英]which Hadoop component can handle all the oracle queries.?
哪個hadoop組件可以處理所有oracle函數且延遲時間短。.我正在考慮使用Presto,Drill和Shark之類的組件。任何人都可以分辨出上述哪種技術可以處理oracle中的所有函數並降低延遲。或至少具有更大的兼容性並可以處理oracle的所有功能。.我可以靈活地使用一種以上的技術,但是對 ...
[英]Shark integration with datastax enterprise 4.0.3 cassandra
我正在嘗試在Datastax Enterprise 4.0.3 Hadoop節點上將Shark 0.9.1(針對hadoop 1)與hive集成。 我已經成功安裝並配置了Scala 2.10.3和Spark 1.0.0。 Scala和sparks shell也可以正常工作。 現在,當我嘗試 ...
[英]Querying Cassandra using Shark takes too much time
我已經建立了一個兩(2)節點的Cassandra集群,並嘗試使用shark執行查詢。 但是查詢大約需要10分鍾。 但是查詢工作正常。 (我使用Cloudera為我安裝軟件) 在/opt/shark/shark/conf/shark-env.sh:我通過改變一些參數試圖調整鯊魚(SP ...
[英]Spark Streaming historical state
我正在構建用於檢測欺詐ATM卡交易的實時處理。 為了有效地檢測欺詐,邏輯要求按卡分配最后交易日期,交易金額按天(或最后24小時)計算。 其中一個用例是,如果在該國家/地區之外的卡片交易超過該國家最后一次交易的30天,則會發送警報作為可能的欺詐行為 所以試着將Spark流視為一種解決 ...
[英]installing apache shark in stand alone mode result in scala error
我基本上都遵循https://github.com/amplab/shark/wiki/Running-Shark-Locally上的指南。 我下載了我正在使用EC2 Amazon Linux的Scala 我的shark / shark-0.8.0 / conf / shark-env. ...
[英]installing HDFS for use with SHARK without YARN
我正在嘗試安裝Apache Shark。 要求之一是安裝HDFS。 我不想使用YARN或MESOS。 我只想要HDFS。 我的問題是:這是否意味着我只能在2.x之前安裝hadoop發行版? 如果是這樣,哪一個? 還是可以使用Hadoop 2.4並以某種方式禁用YARN? 我不太 ...