繁体   English   中英

AWS Textract 表提取将包含逗号的整数行拆分为另一列

[英]AWS Textract table extraction broke rows with integers that has comma inside it into another column

我想使用 AWS Textract 将我的图像转换为 Python 中的表格并将其下载为 CSV。

所以,我在这里遵循了 AWS 的文档和示例代码: https : //github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py

显然,上面链接中的代码会将整数中的逗号分隔到另一列中。 我将用图像和步骤来解释重现以下错误:

所以这是我的表格的图像形式的例子。 在此处输入图片说明

如果要重现错误,请在 github 存储库中克隆代码并在您的 cmd/终端中键入以下代码

python textract_python_table_parser.py <your-image-filename.png>

错误如下附:

在此处输入图片说明

正如您在 ["Amount (USD)"] 列中看到的那样,其中包含逗号的值将进入 ["Transaction Date"] 列。 即使我在 Pandas 中读取 csv 文件也没有用。

我想知道 GitHub repo 中的哪一行代码将逗号分隔符分成了另一列

刚刚发现在GitHub链接中,对于第114行,只需将“”添加到大括号中即可:

csv += '"{}"'.format(text) + ","

原因是将所有文本转换为字符串,以便 CSV 在格式化过程中不会考虑字符串中的逗号。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM