[英]PDFTextStripper parsing with wrong encoding
PDFTextStripper stripper = new PDFText2HTML(encoding);
String result = stripper.getText(document).trim();
結果包含類似
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd"> <html><head><title>Inserat
SeLe EE rev</title> <meta http-equiv="Content-Type"
content="text/html; charset=utf-8"> </head> <body> <div
style="page-break-before:always;
page-break-after:always"><div><p>�&#...
代替
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd"> <html><head><title>Inserat
SeLe EE rev</title> <meta http-equiv="Content-Type"
content="text/html; charset=utf-8"> </head> <body> <div
style="page-break-before:always; page-break-after:always"><div><p>any
blablabla characters...
當我將編碼更改為Windows-1252或utf-8時,結果未更改。 錯誤的pdf網址http://www.permaco.ch/fileadmin/user_upload/jobs/Inserat_SeLe_EE_rev.pdf
如何解析這個PDF文件?
如何解析這個PDF文件 ?
缺少OCR,您不需要。
所討論的PDF不包含在不進行至少某些OCR(至少OCR對所使用字體的每個字符進行OCR查找從字形到字符的映射)的情況下提取文本所需的信息,這需要附加的庫和代碼。
作為文本提取的要求,PDF規范ISO 32000-1:2008在9.10.2節中正確規定,用於提取文本的字體需要
通常,一個良好的第一個測試是嘗試使用Adobe Reader復制和粘貼文本,因為Reader的代碼中包含大量的文本提取經驗。 嘗試這樣做時,您會看到只得到垃圾。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.