简体   繁体   中英

PDF data into XML format using Python

Extracting text from PDF files in python can be done using python different packages , but i am looking deep learning solution? How deep learning can be used to extract the text in format xml ? Heard a lot of times deep learning can be used ? Can any one have any used case and explain the process?

pdf解析的问题不是输出而是页面分析的过程。所以如果你分析页面,你可以以你想要的任何格式输出结果(这应该是最简单的部分)。我建议阅读源代码pdfminer 女巫我认为是最复杂的,所以你可以开始学习如何开始,这样你就可以解析 pdf。至于深度学习,我认为这会很复杂,但是它的应用程序是 pdf 文件中最难的问题是管理文本方向、行间距、垂直或横向、字边距等。如果您开始一个项目并始终记住 PDF 是邪恶的,那么祝您好运。

The technical post webpages of this site follow the CC BY-SA 4.0 protocol. If you need to reprint, please indicate the site URL or the original address.Any question please contact:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM