cost 235 ms
Spark 2.3 Stream-Stream Join 丟失左表鍵

[英]Spark 2.3 Stream-Stream Join lost left table key

我正在嘗試使用 Spark 2.3.0 實現流連接玩具當條件匹配時,stream 連接工作正常,但即使使用 leftOuterJoin,條件不匹配時也會丟失左 stream 值。 提前致謝這是我的源代碼和數據,基本上,我正在創建兩個 sockets,一個是 9999 作為右側 stream 源,99 ...

在 Spark 中找到最長的連續條紋

[英]Find Longest Continuous Streak In Spark

我有一個像這樣的單列 dataframe 我必須得到最長的連續時間段的開始日期和結束日期。 所以在上面的例子中,我有一個像這樣的 output 我的方法:對數據進行排序並找到前一行的滯后,每當滯后 > 1 時,重置周期長度但我無法找到在特定條件下重置周期的方法。 我正在使用火花 2.3 ...

SparkSession.catalog.clearCache() 可以從 hdfs 中刪除數據嗎?

[英]Can SparkSession.catalog.clearCache() delete data from hdfs?

自從我們從 CDH 遷移到 HDP(spark 2.2 到 2.3)后,我遇到了一些數據刪除問題。 這些表是從 hdfs 位置讀取的,在運行讀取和處理這些表的 spark 作業一段時間后,它會拋出table not found 異常,當我們檢查該位置時,所有記錄都消失了。 在讀取該表之前我看到的 ...

SparkSubmitOperator vs SSHOperator 用於在 airflow 中提交 pyspark 應用程序

[英]SparkSubmitOperator vs SSHOperator for submitting pyspark applications in airflow

我有不同的 spark 和 airflow 服務器。 而且我在 airflow 服務器中沒有 spark 二進制文件。 我能夠很好地使用 SSHOperator 並在集群模式下運行 spark 作業。 我想知道從長遠來看,使用 SSHOperator 或 SparkSubmitOperator 提交 ...

HDFS 中的 Pyspark 重命名文件

[英]Pyspark renaming file in HDFS

我正在使用 spark 2.3.1 並想在 pyspark 程序中重命名 HDFS 文件。 我正在關注這個答案[ https://stackoverflow.com/a/58172249/12927963] (Pyspark) 對於這條線 fs.rename(路徑(hdfs_dir+''+file_ ...

優化讀取數據以激發 Azure blob

[英]Optimizing reading data to spark from Azure blob

我們將數據駐留在 Azure blob 存儲中的表中,該表充當數據湖。 數據每 30 分鍾攝取一次,從而在 UTC 中形成如下時間分區 用於捕獲數據的文件格式是 orc,並且時間分區內的數據分區大小相同。 我們的用例是使用 Spark (V 2.3) 在 IST 中捕獲日級別的數據進行處理。 ...

執行多個 Spark 作業

[英]Execute multiple Spark jobs

我正在運行具有以下集群和應用程序配置的 Spark 作業: 總節點:3 個Master Node Memory 7.5GB, 2 Cores Worker Node1, Memory 15GB, 4 Cores Worker Node2, Memory 15GB, 4 Cores 應用程序配置: 我 ...

Janusgraph 庫無法在 kerberos 環境中與 hbase 通信(無法指定服務器的 Kerberos 主體名稱)

[英]Janusgraph libs cant communicate with hbase in kerberos environment(Failed to specify server's Kerberos principal name)

嘗試在 kerberos hadoop 集群中使用 janusgraph 連接到 habse 時,出現“無法指定服務器的 Kerberos 主體名稱” 首先是一些環境信息 - 操作系統:7.6.1810 Java:1.8.0_191-b12 火花:2.3.2.3.1.0.78-4 紗線:2.5. ...

Pyspark自聯接,錯誤為“缺少已解決的屬性”

[英]Pyspark self-join with error “Resolved attribute(s) missing”

在執行pyspark數據幀自聯接時,出現錯誤消息: 這是一個簡單的數據幀自連接,如下所示,它可以正常工作,但是在對數據幀進行了幾次操作(如添加列或與其他數據幀連接)后,就會出現上述錯誤。 使用像波紋管這樣的數據框別名也不起作用,並且會出現相同的錯誤消息: ...

Spark(2.3)無法識別通過 Hive Alter Table 命令添加的 Parquet 表中的新列

[英]Spark(2.3) not able to identify new columns in Parquet table added via Hive Alter Table command

我有一個使用 Spark 2.3 API df.saveAstable創建的 Hive Parquet 表。 有一個單獨的 Hive 進程可以更改同一個 parquet 表以添加列(根據要求)。 但是,下次當我嘗試將同一個 parquet 表讀入 Spark 數據幀時,使用 Hive Alter T ...

將DataFrame寫為鑲木地板會創建空文件

[英]Writing DataFrame as parquet creates empty files

我正在嘗試使用bucketing技術為Spark作業進行一些性能優化。 我正在閱讀.parquet和.csv文件並進行一些轉換。 在我進行分組並加入兩個DataFrame之后。 然后我寫了加入DF到實木復合地板,但我有一個~500B而不是500Mb的空文件。 Cloudera(c ...

使用現有列在pyspark數據框中創建新列

[英]create new column in pyspark dataframe using existing columns

我正在嘗試使用pyspark數據框,我想知道如何使用現有列創建和填充新列。 可以說我有一個像這樣的數據框: 我正在尋找創建像這樣的數據框的方法: _4只是從_1中刪除的“-”,而_5使用了_1和_3中的值 我正在使用spark-2.3.3和python 2.7 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM