[英]Python pandas to remove header and footer records if detected before converting to dataframe
我正在尝试在处理之前清理我的数据。 下面是我的数据 in.txt 文件格式的示例
输入
20210320
Name|email|age|books|return-date
yuzu|yuzu@gmail.com|23|2020-09-23
apple|apple@gmail.com|27|2021-01-34
Total generated records: 2 rows
Exported on 2021-03-20
Output - 将通过拆分转换为 dataframe |
Name|email|age|books|return-date
yuzu|yuzu@gmail.com|23|2020-09-23
apple|apple@gmail.com|27|2021-01-34
如何使用 python 删除 header 和页脚记录? 由于我将处理多个文件并且 header 和页脚可能并不总是出现,因此代码需要能够检测并删除它是否在文本文件中。
任何帮助表示赞赏!
考虑到所需行包含“|”的事实分隔符,您可以使用以下代码:
f = open("filename.txt",'r',encoding = 'utf-8')
for line in f:
if '|' not in line:
continue
else:
print(line)
Output
Name|email|age|books|return-date
yuzu|yuzu@gmail.com|23|2020-09-23
apple|apple@gmail.com|27|2021-01-34
如果要在每行之后删除新行,可以使用print(line.strip())
Output
Name|email|age|books|return-date
yuzu|yuzu@gmail.com|23|2020-09-23
apple|apple@gmail.com|27|2021-01-34
我想这就是答案。 如果您告诉我您的列的名称是什么,我也可以编辑这些列。
df = pd.read_csv("yourfilename.txt", skiprows=1,skipfooter=2)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.