簡體   English   中英

Python - 讀取沒有熊貓的鑲木地板文件

[英]Python - read parquet file without pandas

目前我在Python 3.5, Windows上使用下面的代碼來讀取parquet文件。

import pandas as pd

parquetfilename = 'File1.parquet'
parquetFile = pd.read_parquet(parquetfilename, columns=['column1', 'column2'])  

但是,我想在不使用熊貓的情況下這樣做。 如何最好地做到這一點? 我在Windows上同時使用Python 2.7 and 3.6

您可以為此使用duckdb 它是一個類似於 SQLite 但考慮到 OLAP 的嵌入式 RDBMS。 有一個很好的 Python API 和一個 SQL 函數來導入 Parquet 文件:

import duckdb

conn = duckdb.connect(":memory:") # or a file name to persist the DB

# Keep in mind this doesn't support partitioned datasets,
# so you can only read one partition at a time
conn.execute("CREATE TABLE mydata AS SELECT * FROM parquet_scan('/path/to/mydata.parquet')")

# Export a query as CSV
conn.execute("COPY (SELECT * FROM mydata WHERE col = 'val') TO 'col_val.csv' WITH (HEADER 1, DELIMITER ',')")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM