簡體 English 中英

pyspark使用partitionby分區數據

[英]pyspark partitioning data using partitionby

原文 2016-03-13 17:45:54 9 2 python/ apache-spark/ pyspark/ partitioning/ rdd

我知道partitionBy函數分區我的數據。 如果我使用rdd.partitionBy(100)它會將我的數據按鍵分成100個部分。 即，與類似鍵相關聯的數據將被組合在一起

我的理解是否正確？
是否建議將分區數等於可用內核數？ 這會使處理更有效嗎？
如果我的數據不是鍵值格式怎么辦？ 我還能使用這個功能嗎？
假設我的數據是serial_number_of_student，student_name。 在這種情況下，我可以通過student_name而不是serial_number對我的數據進行分區嗎？

2 個解決方案

不完全是。 Spark，包括PySpark，默認使用散列分區 。 排除相同的密鑰，分配給單個分區的密鑰之間沒有實際的相似性。
這里沒有簡單的答案。 全部取決於數據量和可用資源。 分區數量太大或太少都會降低性能。
一些資源聲稱分區數量應該是可用核心數量的兩倍左右。 另一方面，單個分區通常不應超過128MB，單個shuffle塊不能超過2GB（參見SPARK-6235 ）。
最后，您必須糾正潛在的數據偏差。 如果某些密鑰在您的數據集中過多，則可能導致資源使用次優和潛在失敗。
不，或者至少不是直接的。 您可以使用keyBy方法將RDD轉換為所需的格式。 此外，任何Python對象都可以被視為鍵值對 ，只要它實現了所需的方法，使其行為類似於長度等於2的Iterable 。 請參閱如何確定對象是否是PySpark中的有效鍵值對
這取決於類型。 只要密鑰可以清洗 *然后是。 通常，它意味着它必須是不可變結構，並且它包含的所有值也必須是不可變的。 例如，列表不是有效鍵，而是整數tuple 。

引用Python詞匯表：

如果一個對象具有一個在其生命周期內永遠不會改變的哈希值（它需要__hash__()方法），並且可以與其他對象進行比較（它需要__eq__()方法），則該對象是可__hash__() 。 比較相等的可哈希對象必須具有相同的哈希值。

我最近使用了partitionby。 我所做的是重構我的數據，以便我想要放在同一個分區中的所有那些具有相同的密鑰，而密鑰又是數據中的值。 我的數據是一個字典列表，我用字典中的密鑰轉換成了tupples。最初，partitionby沒有在同一個分區中保存相同的密鑰。 但后來我意識到鍵是字符串。 我把它們轉換為int。 但問題仍然存在。 數字非常大。 然后，我將這些數字映射到小數值，它工作。 所以我的收獲是密鑰需要是小整數。

在pyspark中使用partitionBy（）和persist（）

[英]Using partitionBy() and persist() in pyspark

Pyspark partitionBy、groupBy，用於數據過濾

[英]Pyspark partitionBy, groupBy, for data filtering

Pyspark partitionBy: How do I partition my data 然后 select 列

[英]Pyspark partitionBy: How do I partition my data and then select columns

PySpark partitionBy，重新分區，還是什么都沒有？

[英]PySpark partitionBy, repartition, or nothing?

使用 Databricks 中的 PySpark 在 Azure DataLake 中使用 partitionBy 和覆蓋策略

[英]partitionBy & overwrite strategy in an Azure DataLake using PySpark in Databricks

如何在 pyspark dataframe 中使用 write.partitionBy 時刪除重復項？

[英]How to drop duplicates while using write.partitionBy in a pyspark dataframe?

partition使用Pyspark在S3上保存數據集時花費的時間太長

[英]partitionBy taking too long while saving a dataset on S3 using Pyspark

如何在Pyspark中一起使用partitionBy和orderBy

[英]How to use partitionBy and orderBy together in Pyspark

pyspark Window.partitionBy vs groupBy

[英]pyspark Window.partitionBy vs groupBy

我真的需要 HDFS 用於 pyspark Partitionby()

[英]Do i really need HDFS for pyspark Partitionby()

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在pyspark中使用partitionBy（）和persist（） Pyspark partitionBy、groupBy，用於數據過濾 Pyspark partitionBy: How do I partition my data 然后 select 列 PySpark partitionBy，重新分區，還是什么都沒有？使用 Databricks 中的 PySpark 在 Azure DataLake 中使用 partitionBy 和覆蓋策略如何在 pyspark dataframe 中使用 write.partitionBy 時刪除重復項？ partition使用Pyspark在S3上保存數據集時花費的時間太長如何在Pyspark中一起使用partitionBy和orderBy pyspark Window.partitionBy vs groupBy 我真的需要 HDFS 用於 pyspark Partitionby()

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM