如何使用 Python 使用一個數據集來模擬另一個數據集？

Question

我有以下示例df：

import pandas as pd

cars = {'Brand': ['Honda Civic','Toyota Corolla','Ford Focus','Audi A4'],
        'Price': [22000,25000,27000,35000]
        }

df = pd.DataFrame(cars, columns = ['Brand','Price'], index=['Car_1','Car_2','Car_3','Car_4'])

有沒有辦法用第一個參數生成一個新的數據集？ 我希望“品牌”值相同，但“價格”值是通過使用“價格”中原始值的最小值、最大值和平均值隨機生成的。

我可以手動編碼，但想知道是否有辦法讓 python 檢測 dataframe 的參數並使用這些參數創建一個新參數。

注意：我提供的示例 dataframe 很小，但這些概念適用於更大的數據。

Answer 1

您可以使用 np.random.randint。 前兩個參數設置界限，第三個參數給出值的數量。

import pandas as pd
import numpy as np

df2 = pd.DataFrame({'Brand': df['Brand'],
                    'Price': np.random.randint(df['Price'].min(),
                                               df['Price'].max(), df.shape[0])})

print(df2)

       Brand            Price
Car_1  Honda Civic      29797
Car_2  Toyota Corolla   33306
Car_3  Ford Focus       26237
Car_4  Audi A4          23580

如何使用 Python 使用一個數據集來模擬另一個數據集？

問題描述

1 個解決方案

解決方案1
0 2020-07-11 20:57:29

如何使用 Python 使用一個數據集來模擬另一個數據集？

問題描述

1 個解決方案

解決方案1 0 2020-07-11 20:57:29

解決方案1
0 2020-07-11 20:57:29