簡體   English   中英

如何轉換混合編碼文件的字符

[英]how do I convert the characters of a mixed encoded file

我從PDF文件復制並粘貼了文本,但沒有提取數字。 如果我對導出的txt文件執行的操作更少或更多,則會看到以下內容:

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of" 

它應顯示為:

“ 1665年11月5日,大衛·布羅迪(David Brodie)的女兒克里斯蒂娜(Christina)。

最初,我雖然可以進行簡單的搜索和替換,但是<U+F73n>數字是經過編碼的,雖然我確實將文件另存為utf-8 ,但我不確定如何提取它們甚至對其進行編碼。本來。 我試圖使用php的mb_string函數來查看是否可以某種方式提取代碼,但是我沒有成功。

還有其他人遇到過這個問題嗎?有沒有一個簡單的解決方案讓我望而卻步?

不幸的是,U + Fxxx在Unicode的專用區域中。 沒有自動解決此問題的方法,除非提前知道映射。 根據示例中的代碼點,我敢說您可以從字符值中減去0xF731,然后添加0x30以將其轉換為ASCII數字。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM