[英]Read TSV file in pyspark
在 pyspark 中使用 header 讀取 .tsv 文件並將其存儲在 spark 數據框中的最佳方法是什么。
我正在嘗試使用“spark.read.options”和“spark.read.csv”命令但是沒有運氣。
謝謝。
問候, 吉特
如果有 header 可用,您可以直接讀取 tsv 文件而不提供外部模式:
df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')
由於 spark 被懶惰地評估,它只會讀取選定的列。 希望能幫助到你。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.