簡體   English   中英

PHP:如何將外來字符從simple_html_dom轉換為UTF8?

[英]PHP: how do I convert foreign characters from simple_html_dom to UTF8?

我遇到了來自網頁中包含外來字符的字符串的麻煩。

該字符串是通過使用str_get_html()解析網頁生成的,其后是$htmldom->innertext; (simple_html_dom類庫)。

當我使用htmlentities()輸出字符串時,它顯示得很好; 但是在字符串上使用explode()並打印零件,我得到了一個傾斜的塊,其中每個問號都帶有問號。

我需要將字符串存儲在utf8 MySQL數據庫中,因此我需要正確的外來字符。

我的頁面的標頭帶有utf8字符集。

我已經嘗試過mb_split()preg_split() ,但是它們有相同的問題。

我用以下方法解決了這個問題: https : //github.com/neitanod/forceutf8

它具有強大的功能,可以將任何內容轉換為utf-8,無論其來源是什么(只要它來自Latin1(iso 8859-1),Windows-1252或UTF8,或者它們的混合)。

非常感謝Sebastian Grignoli。

PHP和UTF-8並不是很好的組合。 有些功能可以在UTF-8上正常工作,而其他功能則不能,最差的是那些已被證明可以正常工作的功能,但實際上卻不行(例如DOMDocument)。

您可以使用mb_convert_encoding()將多字節字符轉換為HTML實體,這通常提供了一種可接受的解決方法:

$string = mb_convert_encoding($string, 'HTML-ENTITIES', 'UTF-8');

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM