[英]How to convert Bytes (UTF-8) embeded emoji in a string
我正在從 WhatsApp 聊天備份 (chat.txt) 中抓取數據。 它看起來像這樣:
7/21/20, 1:31 PM - mark: Can we look google😂😂
7/21/20, 1:31 PM - elon: No
7/21/20, 1:31 PM - mark: Can we smile ?
7/21/20, 1:31 PM - elon: Ya🤩
當我逐行提取時
with open ('chat.txt','rb') as file:
for line in file:
print(str(line.strip()))
我懂了:
b'7/21/20, 7:37 AM - mark: Can we look google\xf0\x9f\xa4\xa9\xf0\x9f\x98\x82\xf0\x9f\x98\x82'
b'7/21/20, 7:37 AM - elon: No'
b'7/21/20, 1:31 PM - mark: Can we smile ?'
b'7/21/20, 7:37 AM - elon: Ya\xf0\x9f\x98\x82'
我們怎樣才能 git 擺脫b''
? (我試過.decode('utf-8')
,但沒用)
我怎樣才能轉換
Can we look google\xf0\x9f\xa4\xa9\xf0\x9f\x98\x82\xf0\x9f\x98\x82
到
Can we look google?
使用正確的編碼打開文件,而不是二進制模式:
with open ('chat.txt', encoding='utf8') as file:
for line in file:
print(line, end='')
效果如何取決於您的執行環境。 您需要支持打印代碼點的終端/IDE 和字體才能成功print
,但這不是 Python 問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.