cost 460 ms
Spark 是否適合在許多節點中自動運行統計分析腳本以加快速度?

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一個 Python 腳本,它運行統計分析並對輸入數據訓練深度學習模型。 數據量相當小 (~5Mb),但由於分析腳本的復雜性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同節點上運行我的腳本,以便我可以獲得加速。 基本上,我想將輸入數據分成許多子集並並行運行分析腳本。 Spark ...

在 Flink 中是否可以將 state 與非鍵控 stream 一起使用?

[英]In Flink is it possible to use state with a non keyed stream?

讓我們假設我有一個輸入 DataStream 並想實現一些需要“內存”的功能,所以我需要 ProcessFunction 讓我可以訪問 state。是否可以直接對 DataStream 進行操作,或者唯一的方法是通過初始 stream 進行鍵控並在鍵控上下文中工作? 我認為一種解決方案是使用硬編碼 ...

hadoop 從 hdfs 中現有的存檔文件中獲取文件

[英]hadoop get files from existing archived file in hdfs

我有一個包含 8 個文件的目錄“SmallFiles”,我使用“hadoop archive -archiveName myArch.har -p /Files/SmallFiles /Files”將它們存檔,然后刪除了原始文件。 我想知道如何再次提取文件? 當我下載它時,我得到這 3 個文件“in ...

關於spark分布式聚合的一個問題

[英]A question about spark distributied aggregation

我正在閱讀這里的火花在某一時刻,博客說: 考慮一個應用程序,它想要計算語料庫中每個單詞的出現次數,並將結果作為 map 拉入驅動程序。可以通過聚合操作完成的一種方法是在每個分區計算本地 map,然后合並司機的地圖。 可以使用 aggregateByKey 實現的替代方法是以完全分布式的方式執行計數, ...

如何找出 MongoDB 數組中元素的數量?

[英]How to find out number of elements in MongoDB array?

我的產品集合包括_id 、 product/title 、 product/price和reviews 。 Reviews是一個數組,其中包含該特定產品的所有評論。 我試圖打印出評論數量最多的 10 個產品,但找不到合適的解決方案。 到目前為止,這是我嘗試過的: 當我運行這段代碼時,它打印出 1 ...

如何檢查集合中是否存在具有多個值的鍵?

[英]How to check if there is a key in collection that has more than one value?

我的收藏看起來像這樣: 我的目標是找出是否有任何產品具有多個價格。 鍵“產品/價格”的值可以是“未知”或數字(例如“12.75”)。 有沒有辦法為此編寫聚合管道,或者我是否需要使用 map-reduce 算法? 我嘗試了這兩種選擇,但沒有找到解決方案。 ...

如何在本地Window機器上調試測試MapReduce?

[英]How to debug and test MapReduce on local Window machine?

我發現調試和測試 MapReduce 項目具有挑戰性。 為了調試和測試,我通常獲取上面的腳本並將其放入public static void main(String[] args)在另一個測試 class 中並在 Intellij IDEA 的調試模式下運行並從本地文件系統讀取示例數據。 因此,我很 ...

在 aws emr 作業流程中,每個步驟是否都收到上一步的 output?

[英]in aws emr job flow, does each step receive the output from the previous step?

我正在 Java 中制作一個 map reduce 程序,它有 4 個步驟。 每一步都是對上一步的output進行操作。 到目前為止,我在本地手動運行了這些步驟,我想開始使用作業流程在 AWS EMR 上運行。 我的教授給了我們一些代碼來配置作業流程的步驟,但現在我們面臨一個問題: 我的每個步驟都 ...

spark如何計算hash shuffle中reducer的數量?

[英]How does spark calculate the number of reducers in a hash shuffle?

我想了解 Spark 中的哈希隨機播放。 我正在閱讀這篇文章 Hash Shuffle:每個 mapper 任務為每個單獨的 reducer 創建單獨的文件,導致集群上的文件總數為 M * R,其中 M 是“映射器”的數量,R 是“reducer”的數量。 對於大量的映射器和縮減器,這會導致很大的 ...

我可以用函數 mr 返回一個非分區表嗎?

[英]Can I return a non-partitioned table with function mr?

我編寫了下面的代碼以使用函數mr返回表 t。 但是將表 t 與內存表連接會引發一個錯誤,要求兩個表都未分區。 將 t 轉換為非分區的任何有效方法? ...

使用 Apache Spark 或其他類似解決方案返回按天分配的總和的有效方法是什么?

[英]What is an effective way to return sum distributed by days using Apache Spark or another similiar solution?

假設我們有許多具有屬性的記錄:id、start_day、end_date、sum。 這些記錄具有由開始日期和結束日期定義的不同時期,並且這些時期的長度不同。 我需要得到一組記錄作為結果,例如: 對於每一天和每個時期。 因此,每條記錄的總和分布在屬於該記錄期間的所有日期之間。 例如,如果我有初始集: ...

Pyspark MapReduce - 如何獲取元組列表中出現的次數

[英]Pyspark MapReduce - how to get number occurrences in a list of tuple

我有一個像這樣的列表: 並且我將以下 map 函數應用到 map 的每一行,其中包含出現次數:map(lambda x: ((x.split(',')[0], x.split(',')[1]), 1)) 要得到這個: 我的最終目標是找到兩個人(用字母表示)具有相同日期的次數,例如上面的示例中的 o ...

按 ID 和 JavaScript 中的項目減少數組

[英]Reduce an array by ID and by item in JavaScript

我有一個安排,我需要根據參加活動的用戶取一個總和的平均值我有一個數組,其中有一個活動列表,因此假設整個組織都參加了“2022-11-25”這一天的活動,這是一個星期五,因此狀態isAttendanceAllOrg為 true 因此, usersNotAttendance數組為空,但在星期六的“202 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM