[英]how do I convert the characters of a mixed encoded file
我從PDF文件復制並粘貼了文本,但沒有提取數字。 如果我對導出的txt文件執行的操作更少或更多,則會看到以下內容:
"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"
它應顯示為:
“ 1665年11月5日,大衛·布羅迪(David Brodie)的女兒克里斯蒂娜(Christina)。
最初,我雖然可以進行簡單的搜索和替換,但是<U+F73n>
數字是經過編碼的,雖然我確實將文件另存為utf-8
,但我不確定如何提取它們甚至對其進行編碼。本來。 我試圖使用php的mb_string
函數來查看是否可以某種方式提取代碼,但是我沒有成功。
還有其他人遇到過這個問題嗎?有沒有一個簡單的解決方案讓我望而卻步?
不幸的是,U + Fxxx在Unicode的專用區域中。 沒有自動解決此問題的方法,除非提前知道映射。 根據示例中的代碼點,我敢說您可以從字符值中減去0xF731,然后添加0x30以將其轉換為ASCII數字。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.