標簽[spark-dataframe] - 堆棧內存溢出

使用createDataFrame創建Spark向量列

[英]Creating a Spark Vector Column with createDataFrame

我可以使用toDF方法創建帶有向量列的Spark DataFrame。我不確定如何使用createDataFrame方法創建向量列。 org.apache.spark.sql.types中沒有VectorType類型。這不起作用： ...

從案例類創建 DataFrame

[英]Create DataFrame from case class

我已閱讀其他相關問題，但沒有找到答案。我想從 Spark 2.3 中的案例類創建一個DataFrame 。斯卡拉 2.11.8。代碼這是我在 spark-shell 中嘗試過的：錯誤 ...

生成具有各種列數的數據框

[英]Generate Dataframe with various number of columns

想象一個csv，如下所示：我想自動獲取具有4列a，b，c，d的DF。手動技術可以是：這項技術的問題在於，我必須手動精確調整列a，b，c，d的數量，這對於成百上千個或更多功能可能是有問題的。我想象它存在一個可能由sparkSession傳遞的更有用的方法，但是我 ...

快速搜索Pandas數據框列

[英]Fast searching a Pandas dataframe column

我有一列包含字符串ID的Pandas數據框。我正在使用idxmax（）返回找到的ID的索引，但是由於數據超過一百萬行，因此需要大量時間進行搜索。有什么有效的搜索方法可以減少時間。我目前尚未對ID進行排序。 ...

在SparkTypes上使用Typeclasses

[英]using Typeclasses on SparkTypes

我正在嘗試在Spark Types上使用scala TypeClass，這是我編寫的一個小代碼段。當我在本地intellij上運行此命令時，將引發以下錯誤我還使用String和Int嘗試了相同的操作，並且效果很好。有人可以在SparkTypes上幫助我嗎？ ...

在scala中應用條件修剪均值

[英]Applying conditional trimmed mean in scala

我正在嘗試將scala中的每個小組的平均均值降低80％，以消除異常值。但這僅在該組中的記錄數至少大於10時才適用。例，因此，在此數據集中，如果我對此進行分組，因此，在這種情況下，如果計數大於10，則應除去異常值（可以將平均值修整為80％），否則直接avg（$“ a ...

Spark分組的Dataframe詳細信息

[英]Spark grouped Dataframe details

如何獲得分組的spark-dataframe鍵？還有一個問題： pyspark.sql.group.GroupedData對象包含什么？ ...

將數據框的順序保存到HDFS

[英]Saving Order of a Dataframe to HDFS

輸入數據：碼用列key,data,value將數據讀入DF之后我試圖按列鍵排序列，並在保存到hdfs之前將同一列刪除（每天放入一個文件中）。我無法在輸出文件中保留順序。如果我不使用合並順序，則保留順序，但是會生成多個文件。輸出：預期的OP： ...

Spark：在每個分區中變得不同

[英]Spark: get distinct in each partition

我想使用ID對數據進行分區，並希望在每個分區中 -應用一組操作采取不同在每個分區內進行區分將避免混洗。現在做類似的事情- applyOpers（dataset）應該做類似的事情- ...

如何將String變量分配給數據框名稱

[英]How to assign a String variable to a dataframe name

我有一個問題，這是一個for循環程序。如下所示：但“ new_df_name ”只是一個Variable和String類型。如何實現這些？ ...

Pyspark 將 StructType 轉換為 ArrayType<StructType>

[英]Pyspark Cast StructType as ArrayType<StructType>

我有一個數據框 df1，其中的列 col1 具有結構：和另一個具有 col1 結構的數據幀 df2：為了聯合 df1.union(df2)，我試圖在 df2 中轉換列以將其從 StructType 轉換為 ArrayType(StructType)，但是我嘗試過的任何事情都沒有解決。 ...

Spark Streaming - 將 json 格式的消息 Dstream 到 DataFrame

[英]Spark Streaming - Dstream messages in json format to DataFrame

我正在嘗試通過 Apache Spark Streaming 讀取 Kafka 主題，但無法弄清楚如何將 DStream 中的數據轉換為 DataFrame，然后存儲在臨時表中。 Kafka 中的消息采用 Avro 格式，由 Kafka JDBC Connect 從數據庫創建。我有下面的代碼，它 ...

如何使用Spark數據幀和partitioningby子句將新數據追加到現有Hive表中

[英]How to append new data to existing Hive table using Spark data frame and partitionby clause

我有一個要使用partitionBy寫入Hive表的數據框- 如果我創建另一個數據框，並希望通過保持分區完整而將該數據框的內容追加到同一張表中，那我該怎么做呢？這是正確的方法嗎？我想要下面的輸出，但我希望按day對表進行分區，即使我一直將數據追加到原始表之后也是如此。 ...

Spark SQL 2.3-LIKE'％message％'的搜索結果慢

[英]Spark SQL 2.3 - Slow search results for LIKE '%message%'

我得到log4j格式的日志，對其進行處理並將其存儲在Spark中。我不在群集或多節點環境中。將Spark用作單節點應用程序。我只是spark的初學者，通過編寫應用程序來學習概念。我不是使用DB（MySQL），而是使用Spark作為后端，因此處理將比DB（用於數百萬條記錄）快得多。 ...

禁用火花催化劑優化器

[英]Disable spark catalyst optimizer

為了提供一些背景知識，我正在嘗試使用和不使用 Spark 的催化劑優化器在 Spark 上運行 TPCDS 基准測試。對於較小數據集上的復雜查詢，我們可能花費更多時間優化計划而不是實際執行計划。因此想要衡量優化器對查詢整體執行的性能影響有沒有辦法禁用部分或全部火花催化劑優化規則？ ...

左外部聯接用於在Spark Scala中為兩個數據幀記錄不平衡

[英]Left Outer join for unequla records fro two data frames in spark scala

我有兩個數據框。數據框一數據幀二是現在，我想將數據幀的所有列添加為兩個數據幀，但三列TimeStamp ,OrganizationID and SourceID不同的記錄除外。因此，在這種情況下，數據幀一的記錄將不會添加到數據幀二。如果TimeStamp |Organ ...

數據框列名稱未使用別名更新

[英]Dataframe column name is not updated using alias

我正在對創建的數據框進行某種聚合。步驟如下但是，當我在新創建的DataFrame上執行printSchema時，我沒有看到列名，就像我提供的別名一樣，而是顯示我期望列名在哪里我正在尋求幫助以了解為什么在新DF中未更新Alias。以及如何修改代碼以反映別名中提 ...

火花流持久表更新

[英]spark streaming persistent table updates

我有一個Spark結構化的流應用程序（正在聽kafka），該應用程序也正在從s3中的持久表中讀取數據，我正在嘗試對每個微批處理檢查表的更新。我努力了和兩者都不在流上下文中工作。問題在於鑲木地板文件在每次更新時都會更改，並且spark不會運行任何常規命令來刷新，例如： ...

如何替換DataFrame列中的空值？

[英]How to replace empty values in a column of DataFrame?

如何替換 DataFrame df列Field1的空值？此命令未提供預期結果：預期結果： ...

根據多個條件過濾列：Scala Spark

[英]Filter a column based on multiple conditions: Scala Spark

我在嘗試根據多個條件來篩選列中的行時遇到了麻煩。基本上，我將多個條件存儲在一個數組中，並且希望對它們全部進行過濾。但是，最后我總是出錯。誰能建議解決此問題的方法？這是我要實現的一些示例代碼： ...