[英]Python csv reader: ignoring special characters
我正在嘗試讀取制表符分隔的文件,以便可以逐行處理它。 行中某些分隔字段可能是很長的字符串,其中包含帶有HTML p標簽的文本和其他特殊字符,例如:
"String1" "String2" "<p>This should</p>
<p>be read as one</p>
<p>string.</p>"
"String4" "String5" "String6"
我得到的是:
"String1" "String2" "<p>This should</p>"
"<p>be read as one</p>"
"<p>string.</p>"
"String4" "String5" "String6"
即第三個字符串被分割。
我正在嘗試使用Python csv閱讀器讀取tsv文件,並嘗試了方言的多種設置,但沒有弄清楚:
with open(fileName, 'rb') as tsvHandle:
tsvHandle = csv.reader(tsvHandle, delimiter='\t', quotechar='"', escapechar='\\', skipinitialspace)
有人可以建議怎么做嗎?
嘗試使用以下方法:tsvHandle = csv.reader(tsvHandle,delimiter ='\\ t',quoting = csv.QUOTE_ALL,quotechar ='“')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.