Pandas - 直接从 URL 读取大型 CSV

Question

我一般是 python/数据科学的新手，试图理解为什么下面不起作用：

import pandas as pd
url = 'https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2017-06.csv'
trip_df = []
for chunk in pd.read_csv(url, chunksize=1000, nrows=10000):
    trip_df.append(chunk)
trip_df = pd.concat(trip_df, axis='rows')

它返回了一个 MemoryError，但我的印象是分块加载文件是一种解决方法。 我不想将 csv 保存到我的硬盘上，而且我不完全确定这是否有帮助。

我的电脑非常有限，只有 4GB 的 RAM（2.9 可用）。 我想这是一个因素，但如果无法导入整个文件，我将如何获取其中的一部分，比如 5,000 行？

Answer 1

试试这个：

reader = pd.read_csv(url, chunksize=1000, nrows=10000)
df = pd.concat([x for x in reader], ignore_index=True)

我怎么才能得到它的一部分，比如 5,000 行？

df = pd.read_csv(url, nrows=5000)

Answer 2

只需在命令行中获取 5000 行

wget -q -O - https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2017-06.csv | head -n 5000 > tmp.csv

然后继续 tmp.csv

Answer 3

这对我有用

with contextlib.closing(urllib.request.urlopen(url=url)) as rd:
    for df in pd.read_csv(rd, chunksize=5, index_col=0):
        print(df)

而只是

pd.read_csv(url, chunksize=5, index_col=0)

因 MemoryError 崩溃。

Pandas - 直接从 URL 读取大型 CSV

问题描述

3 个解决方案

解决方案1
0 2017-11-22 20:36:56

解决方案2
0 2017-11-22 20:39:21

解决方案3
0 2021-03-06 22:26:43

Pandas - 直接从 URL 读取大型 CSV

问题描述

3 个解决方案

解决方案1 0 2017-11-22 20:36:56

解决方案2 0 2017-11-22 20:39:21

解决方案3 0 2021-03-06 22:26:43

解决方案1
0 2017-11-22 20:36:56

解决方案2
0 2017-11-22 20:39:21

解决方案3
0 2021-03-06 22:26:43