[英]Reading in TSV with unescaped character in Pandas
我有一個TSV文件,其中每行是一個單詞令牌及其POS標簽,由制表符分隔。
The DET
boy NOUN
said VERB
" PUNCT
Hi INTJ
Mum NOUN
" PUNCT
稍后將用作POS-Tagger的基礎。 我的問題是,每當熊貓遇到引號時,它都會返回以下內容:
word tag
0 The DET
1 boy NOUN
2 said VERB
3 \tPUNCT\r\nHi\tINTJ\r\nMum\tNOUN\r\n PUNCT
我試圖將引號明確定義為轉義字符,但沒有用。 我能想到的另一件事是直接將它們轉存到TSV文件中,但是由於我有很多文件,而且它們是由外部來源為我生成的,因此這將很繁瑣且耗時。
有人遇到過這個問題並有解決方案嗎?
您可以告訴pandas
在讀取文件時忽略引號,在這種情況下, pandas
使用與內置csv
模塊相同的配置選項,因此必須從csv模塊傳遞給它QUOTE_NONE
常量:
import csv
import pandas
pandas.read_table(fn, quoting=csv.QUOTE_NONE, names=('word', 'tag'))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.