[英]PDF to Text extraction for non-english language PDF
我正在使用 DataLogic 实用程序 (Datalogics.PDFL) 来操作 PDF,我面临以下情况的问题。 带有非英文文本的 PDF 变得奇怪 output。
示例输入文件 SS
以相同的格式获取 output:
WordFinderConfig wordConfig = new WordFinderConfig();
wordConfig.IgnoreCharGaps = false;
wordConfig.IgnoreLineGaps = false;
wordConfig.NoAnnots = false;
wordConfig.NoEncodingGuess = false;
// Std Roman treatment for custom encoding; overrides the noEncodingGuess option
wordConfig.UnknownToStdEnc = true;
wordConfig.DisableTaggedPDF = false; // legacy mode WordFinder creation
wordConfig.NoXYSort = true;
wordConfig.PreserveSpaces = false;
wordConfig.NoLigatureExp = false;
wordConfig.NoHyphenDetection = false;
wordConfig.TrustNBSpace = false;
wordConfig.NoExtCharOffset = false; // text extraction efficiency
wordConfig.NoStyleInfo = false; // text extraction efficiency
WordFinder wordFinder = new WordFinder(doc, WordFinderVersion.Latest, wordConfig);
我鼓励您升级到最新版本(例如通过 Nuget),如果您仍然遇到有问题的文本提取结果,请联系我们的 (Datalogics) 支持部门寻求帮助,并向他们提供输入文档和可运行的复制样本目的。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.