使用 iText7 + C# 從 pdf 讀取文本，無法識別文本

Question

我想從pdf文檔中讀取數據。 我使用 iText7：

var src = "<file location>";
var pdfDocument = new PdfDocument(new PdfReader(src));
var strategy = new LocationTextExtractionStrategy();
for (int i = 1; i <= pdfDocument.GetNumberOfPages(); ++i)
{
     var page = pdfDocument.GetPage(i);
     string text = PdfTextExtractor.GetTextFromPage(page, strategy);
     string processed = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
}
pdfDocument.Close();

它有效，但不識別字母。 所有文字看起來像

" \\n \\n \\n

它是英文的，所以我不希望編碼有任何問題。 這個問題的原因是什么，我該如何解決？

Answer 1

你不需要你正在做的轉換。 將代碼更改為：

StringBuilder processed = new StringBuilder();

    for (int i = 1; i <= pdfDocument.GetNumberOfPages(); ++i)
    {
         var page = pdfDocument.GetPage(i);
         string text = PdfTextExtractor.GetTextFromPage(page, strategy);
         processed.Append(text);
    }

使用 iText7 + C# 從 pdf 讀取文本，無法識別文本

問題描述

1 個解決方案

解決方案1
0 2020-03-20 09:09:06

使用 iText7 + C# 從 pdf 讀取文本，無法識別文本

問題描述

1 個解決方案

解決方案1 0 2020-03-20 09:09:06

解決方案1
0 2020-03-20 09:09:06