cost 222 ms
生成具有各種列數的數據框

[英]Generate Dataframe with various number of columns

想象一個csv,如下所示: 我想自動獲取具有4列a,b,c,d的DF。 手動技術可以是: 這項技術的問題在於,我必須手動精確調整列a,b,c,d的數量,這對於成百上千個或更多功能可能是有問題的。 我想象它存在一個可能由sparkSession傳遞的更有用的方法,但是我 ...

快速搜索Pandas數據框列

[英]Fast searching a Pandas dataframe column

我有一列包含字符串ID的Pandas數據框。 我正在使用idxmax()返回找到的ID的索引,但是由於數據超過一百萬行,因此需要大量時間進行搜索。 有什么有效的搜索方法可以減少時間。 我目前尚未對ID進行排序。 ...

在SparkTypes上使用Typeclasses

[英]using Typeclasses on SparkTypes

我正在嘗試在Spark Types上使用scala TypeClass,這是我編寫的一個小代碼段。 當我在本地intellij上運行此命令時,將引發以下錯誤 我還使用String和Int嘗試了相同的操作,並且效果很好。 有人可以在SparkTypes上幫助我嗎? ...

在scala中應用條件修剪均值

[英]Applying conditional trimmed mean in scala

我正在嘗試將scala中的每個小組的平均均值降低80%,以消除異常值。 但這僅在該組中的記錄數至少大於10時才適用。 例, 因此,在此數據集中,如果我對此進行分組, 因此,在這種情況下,如果計數大於10,則應除去異常值(可以將平均值修整為80%),否則直接avg($“ a ...

將數據框的順序保存到HDFS

[英]Saving Order of a Dataframe to HDFS

輸入數據: 碼 用列key,data,value將數據讀入DF之后 我試圖按列鍵排序列,並在保存到hdfs之前將同一列刪除(每天放入一個文件中)。 我無法在輸出文件中保留順序。 如果我不使用合並順序,則保留順序,但是會生成多個文件。 輸出: 預期的OP: ...

Spark:在每個分區中變得不同

[英]Spark: get distinct in each partition

我想使用ID對數據進行分區,並希望在每個分區中 -應用一組操作 采取不同 在每個分區內進行區分將避免混洗。 現在做類似的事情- applyOpers(dataset)應該做類似的事情- ...

Spark Streaming - 將 json 格式的消息 Dstream 到 DataFrame

[英]Spark Streaming - Dstream messages in json format to DataFrame

我正在嘗試通過 Apache Spark Streaming 讀取 Kafka 主題,但無法弄清楚如何將 DStream 中的數據轉換為 DataFrame,然后存儲在臨時表中。 Kafka 中的消息采用 Avro 格式,由 Kafka JDBC Connect 從數據庫創建。 我有下面的代碼,它 ...

如何使用Spark數據幀和partitioningby子句將新數據追加到現有Hive表中

[英]How to append new data to existing Hive table using Spark data frame and partitionby clause

我有一個要使用partitionBy寫入Hive表的數據框- 如果我創建另一個數據框,並希望通過保持分區完整而將該數據框的內容追加到同一張表中,那我該怎么做呢? 這是正確的方法嗎? 我想要下面的輸出,但我希望按day對表進行分區,即使我一直將數據追加到原始表之后也是如此。 ...

Spark SQL 2.3-LIKE'%message%'的搜索結果慢

[英]Spark SQL 2.3 - Slow search results for LIKE '%message%'

我得到log4j格式的日志,對其進行處理並將其存儲在Spark中。 我不在群集或多節點環境中。 將Spark用作單節點應用程序。 我只是spark的初學者,通過編寫應用程序來學習概念。 我不是使用DB(MySQL),而是使用Spark作為后端,因此處理將比DB(用於數百萬條記錄)快得多。 ...

禁用火花催化劑優化器

[英]Disable spark catalyst optimizer

為了提供一些背景知識,我正在嘗試使用和不使用 Spark 的催化劑優化器在 Spark 上運行 TPCDS 基准測試。 對於較小數據集上的復雜查詢,我們可能花費更多時間優化計划而不是實際執行計划。 因此想要衡量優化器對查詢整體執行的性能影響 有沒有辦法禁用部分或全部火花催化劑優化規則? ...

左外部聯接用於在Spark Scala中為兩個數據幀記錄不平衡

[英]Left Outer join for unequla records fro two data frames in spark scala

我有兩個數據框。 數據框一 數據幀二是 現在,我想將數據幀的所有列添加為兩個數據幀,但三列TimeStamp ,OrganizationID and SourceID不同的記錄除外。 因此,在這種情況下,數據幀一的記錄將不會添加到數據幀二。如果TimeStamp |Organ ...

數據框列名稱未使用別名更新

[英]Dataframe column name is not updated using alias

我正在對創建的數據框進行某種聚合。 步驟如下 但是,當我在新創建的DataFrame上執行printSchema時,我沒有看到列名,就像我提供的別名一樣,而是顯示 我期望列名在哪里 我正在尋求幫助以了解為什么在新DF中未更新Alias。 以及如何修改代碼以反映別名中提 ...

火花流持久表更新

[英]spark streaming persistent table updates

我有一個Spark結構化的流應用程序(正在聽kafka),該應用程序也正在從s3中的持久表中讀取數據,我正在嘗試對每個微批處理檢查表的更新。 我努力了 和 兩者都不在流上下文中工作。 問題在於鑲木地板文件在每次更新時都會更改,並且spark不會運行任何常規命令來刷新,例如: ...

根據多個條件過濾列:Scala Spark

[英]Filter a column based on multiple conditions: Scala Spark

我在嘗試根據多個條件來篩選列中的行時遇到了麻煩。 基本上,我將多個條件存儲在一個數組中,並且希望對它們全部進行過濾。 但是,最后我總是出錯。 誰能建議解決此問題的方法? 這是我要實現的一些示例代碼: ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM