如何轉換混合編碼文件的字符

Question

我從PDF文件復制並粘貼了文本，但沒有提取數字。 如果我對導出的txt文件執行的操作更少或更多，則會看到以下內容：

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"

它應顯示為：

“ 1665年11月5日，大衛·布羅迪（David Brodie）的女兒克里斯蒂娜（Christina）。

最初，我雖然可以進行簡單的搜索和替換，但是<U+F73n>數字是經過編碼的，雖然我確實將文件另存為utf-8 ，但我不確定如何提取它們甚至對其進行編碼。本來。 我試圖使用php的mb_string函數來查看是否可以某種方式提取代碼，但是我沒有成功。

還有其他人遇到過這個問題嗎？有沒有一個簡單的解決方案讓我望而卻步？

Answer 1

不幸的是，U + Fxxx在Unicode的專用區域中。 沒有自動解決此問題的方法，除非提前知道映射。 根據示例中的代碼點，我敢說您可以從字符值中減去0xF731，然后添加0x30以將其轉換為ASCII數字。