標簽[spark-koalas] - 堆棧內存溢出

`pd.groupby.GroupBy.prod()` 方法還沒有實現

[英]The method `pd.groupby.GroupBy.prod()` is not implemented yet

我有一個包含兩列的數據庫：名稱 (str) 和概率 (float)。我正在運行這個命令：在 Databricks（運行時 7.3）筆記本上，df 是一個 pyspark.pandas 數據框。我得到的錯誤是：我想知道是否有解決方法。 ...

如何在 spark 上使用 pandas api 旋轉字符串列

[英]How to pivot string column using pandas api on spark

我正在嘗試將我的組織使用的一些代碼從 pandas 數據幀轉換為 spark 數據幀上的 pandas api。當我們嘗試轉換我們的數據透視函數時，我們遇到了一個問題，其中 spark 上的 pandas api 不允許對字符串列進行數據透視操作。我重新創建了一個小例子來演示這個問題。以下 p ...

在 pandas API 上分組

[英]group by in pandas API on spark

我下面有一個 pandas dataframe，這里 df 是一個 Pandas dataframe。我正在嘗試將此 dataframe 轉換為 pandas API on spark 現在 dataframe 類型是 '<class 'pyspark.pandas.frame.DataF ...

Koalas Dataframe read_csv 將 null 列讀取為不是 null

[英]Koalas Dataframe read_csv reads null column as not null

我正在使用考拉加載示例 csv 文件。我看到的是一種奇怪的行為。該文件有一個空白列area_code ，如下所示。如您所見，它是一個空白列。此列的所有行都有空白。當我將文件讀取為df = ks.read_csv('zipcodes.csv')時，我得到以下 output，這意味着該列有 ...

Pandas to Koalas 不解決 spark.rpc.message.maxSize exceeded 錯誤

[英]Pandas to Koalas does not solve spark.rpc.message.maxSize exceeded error

我有一個現有的數據塊作業，它大量使用 Pandas 並且下面的代碼片段給出了錯誤“org.apache.spark.SparkException：作業因階段故障而中止：序列化任務 101059:0 超過允許的 1449948615 個字節，這.message.maxSize（268435456 字節 ...

DataFrame Styler 對象 HTML 無法在 Amazon SES 電子郵件中正確呈現

[英]DataFrame Styler Object HTML Does Not Render Correctly in Amazon SES Email

我正在使用 DataBricks Python 筆記本。我目前可以在筆記本中成功渲染 DataFrame Styler 對象，如下所示：我現在想通過電子郵件將上述內容作為報告發送到電子郵件正文中。我遵循了本指南： https ://docs.databricks.com/_static/ ...

AttributeError: 'DataFrame' object 沒有屬性 'randomSplit'

[英]AttributeError: 'DataFrame' object has no attribute 'randomSplit'

我正在嘗試將我的數據分成訓練集和測試集。數據是一只 Koalas dataframe。但是，當我運行以下代碼時出現錯誤：請在下面找到我正在使用的代碼：此外，我嘗試了將 Koalas 轉換為 pandas 后拆分數據的常用方法。但在 Synapse 中執行需要花費大量時間。下面是代碼： ...

Spark 3.2 上的 Pandas -NLP.pipe - pd.Series.__iter__() 未實現

[英]Pandas on Spark 3.2 -NLP.pipe - pd.Series.__iter__() is not implemented

我目前正在嘗試將一些進程從 python 遷移到（pandas on）spark 以衡量性能，直到此時一切順利： df_info 的類型為 pyspark.pandas nlp 定義為： nlp = spacy.load('es_core_news_sm', disable=["tagger", ...

在特定列上有效地迭代兩個不同的數據幀並僅存儲公共行

[英]Iterate of two different dataframes efficiently on a specific column and store only the common rows

我有兩個數據框，如下所示。這兩個數據框有一個名為code的列，我想檢查my_data中存在的code列中的值以及input_data中也存在的值，並將它們存儲在名為output的結果 dataframe 中。 output dataframe 將只有 input_data 中存在的code列值。 ...

使用考拉將兩個數據框加入 name_data dataframe 中特定列中存在的值

[英]Join two dataframes on the values present in a specific column in the name_data dataframe using koalas

我正在嘗試在name_data dataframe 中存在的code列值上連接兩個數據幀，如下所示。我有兩個數據框如下所示，我希望得到一個結果 dataframe，它只會包含來自 `team_data dataframe where the corresponding代碼value column ...

Azure Databricks - 與考拉一起讀書的桌子

[英]Azure Databricks - reading tables with koalas

我對 Databricks 很陌生，我正在嘗試用考拉做一些基本的數據探索。當我登錄 Databricks 時，在 DATA 下我看到 2 個主要選項卡，DATABASE TABLES 和 DBFS。我設法將 csv 文件讀取為 koalas 數據幀（ ksdf=ks.read_csv('/Fil ...

PandasNotImplementedError 將 pandas dataframe 轉換為 Koalas dataframe

[英]PandasNotImplementedError for converted pandas dataframe to Koalas dataframe

我在代碼邏輯中遇到了一個小問題。我正在將使用 pandas dataframe 的一行代碼轉換為使用 Koalas dataframe 並且在代碼執行期間出現以下錯誤。使用 pandas dataframe 的原始代碼行如下所示：我使用 dataframe 轉換了上面的代碼，如下所示。使用 ...

類型錯誤：“模塊”object 在考拉 dataframe 上無法調用時間

[英]TypeError: 'module' object is not callable for time on Koalas dataframe

我正在將一行代碼從 pandas 轉換為考拉時遇到一個小問題。注意：我正在數據塊中執行我的代碼。下面一行是 pandas 代碼：我按如下方式轉換為考拉。順便提一下，我已經在以下代碼行之前將 input_data dataframe 定義為 Koalas 類型。我在 Koalas 轉換中收到 ...

如何通過本地 Jupyter Notebook 在 Dataproc 中使用考拉

[英]How to use Koalas in Dataproc from a local Jupyter Notebook

查看 Google 文檔，我能夠將 Spark 作業提交到 Dataproc 集群並在集群內安裝 JupyterLab 以在筆記本上運行迭代操作。但是，我找不到使用 DataProc 集群資源從本地 Jupyer Notebook（在我的機器上）運行迭代命令的正確配置。我特別有興趣從本地 Jup ...

pySpark dataframe 轉換性能

[英]pySpark dataframe transformations performance

我最近開始使用 pySpark。（在此之前我使用 Pandas）我想了解 Spark 如何在 dataframe 上執行和優化轉換。我可以使用 dataframe 的一個變量一一進行轉換嗎？像這兒轉換方式#1：或者我應該在一個變量賦值中使用所有轉換？像這兒轉換方式#2：方式＃1對我來說 ...

如何在將 pandas 轉換為考拉時轉換 np.where()？

[英]How to convert np.where() while converting pandas to koalas?

我正在將一些 pandas 系列和 pandas 數據幀轉換為考拉以實現可擴展性。但是在我使用np.where()的地方，我嘗試傳遞 koalas dataframe，就像它之前傳遞 pandas dataframe 一樣。但是我收到了 PandasNotImplementedError 錯誤。 ...

使用考拉代替 pandas

[英]Use of koalas instead of pandas

我是考拉的新手。我被告知在我的工作中實現考拉而不是 pandas。早些時候，當我們有 dataframe 時，我們將其轉換為 pandas 並將其用於 np.where 並在內部進行條件檢查。 pandas 中的示例我們曾經像 np.where(condition,action1,actio ...

如何使用另一個 dataframe 的索引創建考拉 dataframe？

[英]How to create a koalas dataframe with index from another dataframe?

如何使用另一個 dataframe 的索引創建考拉 dataframe？我可以在 pandas 中做到這一點，但我正在努力在考拉中實現同樣的目標。以下是我迄今為止的嘗試： pandas（工作）：考拉（因錯誤而失敗）： pandas（工作）：考拉（沒有錯誤地失敗）： ...

將考拉列表的列拆分為多列

[英]Split a koalas column of lists into multiple columns

我如何從 df 到 df1 go ，其中 df 和 df1 如下所示？我可以在這里看到 pandas 的解決方案。但是這個解決方案將收集驅動程序端的所有數據，這不是我想要發生的。我想要一個考拉（pyspark 上的熊貓）解決方案 ...

無法將考拉系列指定為考拉中的新列

[英]cannot assign a koalas series as a new column in koalas

我無法將系列作為新列分配給考拉 dataframe。下面是我正在使用的代碼庫： output：您能幫我了解我的方法出了什么問題以及如何將新列分配給考拉數據集嗎？ ...