簡體   English   中英

將python string.split()與utf-8編碼一起使用

[英]use python string.split() with a line of utf-8 encoding

我有一個utf-8編碼的文本文件,我想使用split作為簡單的標記生成器標記每一行。 代碼如下:

import codecs
file = codecs.open(fileAddress, 'r', 'utf-8')
line = file.readline()
file.close()
line.split()

這不會像我在ascii文件上使用的那樣拆分utf-8字符串。 我希望使用utf-8編碼的“ hi i am here”這樣的行成為令牌列表,例如[“ hi”,“ i”,“ am”,“ here”]],使用ascii可以很容易地使用該行。分裂()。

是否有解決此問題的簡單方法?

正如Martijn Pieters指出的那樣,只要您的文件具有規則的空格作為分隔符,您的代碼就可以正常工作。 與您期望的結果的唯一區別是令牌將是unicode類型而不是str類型。

還有其他一些用於表示空格的unicode字符http://en.wikipedia.org/wiki/Whitespace_character#Unicode ,這可能會造成混亂,即使是這種情況,即使是readline也可能會出現問題...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM