cost 85 ms
`pd.groupby.GroupBy.prod()` 方法還沒有實現

[英]The method `pd.groupby.GroupBy.prod()` is not implemented yet

我有一個包含兩列的數據庫:名稱 (str) 和概率 (float)。 我正在運行這個命令: 在 Databricks(運行時 7.3)筆記本上,df 是一個 pyspark.pandas 數據框。 我得到的錯誤是: 我想知道是否有解決方法。 ...

如何在 spark 上使用 pandas api 旋轉字符串列

[英]How to pivot string column using pandas api on spark

我正在嘗試將我的組織使用的一些代碼從 pandas 數據幀轉換為 spark 數據幀上的 pandas api。 當我們嘗試轉換我們的數據透視函數時,我們遇到了一個問題,其中 spark 上的 pandas api 不允許對字符串列進行數據透視操作。 我重新創建了一個小例子來演示這個問題。 以下 p ...

在 pandas API 上分組

[英]group by in pandas API on spark

我下面有一個 pandas dataframe, 這里 df 是一個 Pandas dataframe。 我正在嘗試將此 dataframe 轉換為 pandas API on spark 現在 dataframe 類型是 '<class 'pyspark.pandas.frame.DataF ...

Koalas Dataframe read_csv 將 null 列讀取為不是 null

[英]Koalas Dataframe read_csv reads null column as not null

我正在使用考拉加載示例 csv 文件。 我看到的是一種奇怪的行為。 該文件有一個空白列area_code ,如下所示。 如您所見,它是一個空白列。 此列的所有行都有空白。 當我將文件讀取為df = ks.read_csv('zipcodes.csv')時,我得到以下 output,這意味着該列有 ...

Pandas to Koalas 不解決 spark.rpc.message.maxSize exceeded 錯誤

[英]Pandas to Koalas does not solve spark.rpc.message.maxSize exceeded error

我有一個現有的數據塊作業,它大量使用 Pandas 並且下面的代碼片段給出了錯誤“org.apache.spark.SparkException:作業因階段故障而中止:序列化任務 101059:0 超過允許的 1449948615 個字節,這.message.maxSize(268435456 字節 ...

DataFrame Styler 對象 HTML 無法在 Amazon SES 電子郵件中正確呈現

[英]DataFrame Styler Object HTML Does Not Render Correctly in Amazon SES Email

我正在使用 DataBricks Python 筆記本。 我目前可以在筆記本中成功渲染 DataFrame Styler 對象,如下所示: 我現在想通過電子郵件將上述內容作為報告發送到電子郵件正文中。 我遵循了本指南: https ://docs.databricks.com/_static/ ...

AttributeError: 'DataFrame' object 沒有屬性 'randomSplit'

[英]AttributeError: 'DataFrame' object has no attribute 'randomSplit'

我正在嘗試將我的數據分成訓練集和測試集。 數據是一只 Koalas dataframe。但是,當我運行以下代碼時出現錯誤: 請在下面找到我正在使用的代碼: 此外,我嘗試了將 Koalas 轉換為 pandas 后拆分數據的常用方法。但在 Synapse 中執行需要花費大量時間。 下面是代碼: ...

在特定列上有效地迭代兩個不同的數據幀並僅存儲公共行

[英]Iterate of two different dataframes efficiently on a specific column and store only the common rows

我有兩個數據框,如下所示。 這兩個數據框有一個名為code的列,我想檢查my_data中存在的code列中的值以及input_data中也存在的值,並將它們存儲在名為output的結果 dataframe 中。 output dataframe 將只有 input_data 中存在的code列值。 ...

使用考拉將兩個數據框加入 name_data dataframe 中特定列中存在的值

[英]Join two dataframes on the values present in a specific column in the name_data dataframe using koalas

我正在嘗試在name_data dataframe 中存在的code列值上連接兩個數據幀,如下所示。 我有兩個數據框如下所示,我希望得到一個結果 dataframe,它只會包含來自 `team_data dataframe where the corresponding代碼value column ...

Azure Databricks - 與考拉一起讀書的桌子

[英]Azure Databricks - reading tables with koalas

我對 Databricks 很陌生,我正在嘗試用考拉做一些基本的數據探索。 當我登錄 Databricks 時,在 DATA 下我看到 2 個主要選項卡,DATABASE TABLES 和 DBFS。 我設法將 csv 文件讀取為 koalas 數據幀( ksdf=ks.read_csv('/Fil ...

PandasNotImplementedError 將 pandas dataframe 轉換為 Koalas dataframe

[英]PandasNotImplementedError for converted pandas dataframe to Koalas dataframe

我在代碼邏輯中遇到了一個小問題。 我正在將使用 pandas dataframe 的一行代碼轉換為使用 Koalas dataframe 並且在代碼執行期間出現以下錯誤。 使用 pandas dataframe 的原始代碼行如下所示: 我使用 dataframe 轉換了上面的代碼,如下所示。 使用 ...

類型錯誤:“模塊”object 在考拉 dataframe 上無法調用時間

[英]TypeError: 'module' object is not callable for time on Koalas dataframe

我正在將一行代碼從 pandas 轉換為考拉時遇到一個小問題。 注意:我正在數據塊中執行我的代碼。 下面一行是 pandas 代碼: 我按如下方式轉換為考拉。 順便提一下,我已經在以下代碼行之前將 input_data dataframe 定義為 Koalas 類型。 我在 Koalas 轉換中收到 ...

如何通過本地 Jupyter Notebook 在 Dataproc 中使用考拉

[英]How to use Koalas in Dataproc from a local Jupyter Notebook

查看 Google 文檔,我能夠將 Spark 作業提交到 Dataproc 集群並在集群內安裝 JupyterLab 以在筆記本上運行迭代操作。 但是,我找不到使用 DataProc 集群資源從本地 Jupyer Notebook(在我的機器上)運行迭代命令的正確配置。 我特別有興趣從本地 Jup ...

pySpark dataframe 轉換性能

[英]pySpark dataframe transformations performance

我最近開始使用 pySpark。 (在此之前我使用 Pandas)我想了解 Spark 如何在 dataframe 上執行和優化轉換。 我可以使用 dataframe 的一個變量一一進行轉換嗎? 像這兒轉換方式#1: 或者我應該在一個變量賦值中使用所有轉換? 像這兒轉換方式#2: 方式#1對我來說 ...

如何在將 pandas 轉換為考拉時轉換 np.where()?

[英]How to convert np.where() while converting pandas to koalas?

我正在將一些 pandas 系列和 pandas 數據幀轉換為考拉以實現可擴展性。 但是在我使用np.where()的地方,我嘗試傳遞 koalas dataframe,就像它之前傳遞 pandas dataframe 一樣。但是我收到了 PandasNotImplementedError 錯誤。 ...

使用考拉代替 pandas

[英]Use of koalas instead of pandas

我是考拉的新手。 我被告知在我的工作中實現考拉而不是 pandas。 早些時候,當我們有 dataframe 時,我們將其轉換為 pandas 並將其用於 np.where 並在內部進行條件檢查。 pandas 中的示例我們曾經像 np.where(condition,action1,actio ...

如何使用另一個 dataframe 的索引創建考拉 dataframe?

[英]How to create a koalas dataframe with index from another dataframe?

如何使用另一個 dataframe 的索引創建考拉 dataframe? 我可以在 pandas 中做到這一點,但我正在努力在考拉中實現同樣的目標。 以下是我迄今為止的嘗試: pandas(工作): 考拉(因錯誤而失敗): pandas(工作): 考拉(沒有錯誤地失敗): ...

將考拉列表的列拆分為多列

[英]Split a koalas column of lists into multiple columns

我如何從 df 到 df1 go ,其中 df 和 df1 如下所示? 我可以在這里看到 pandas 的解決方案。 但是這個解決方案將收集驅動程序端的所有數據,這不是我想要發生的。 我想要一個考拉(pyspark 上的熊貓)解決方案 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM