簡體   English   中英

在TSV中閱讀帶有未轉義字符的Pandas

[英]Reading in TSV with unescaped character in Pandas

我有一個TSV文件,其中每行是一個單詞令牌及其POS標簽,由制表符分隔。

The    DET
boy    NOUN
said    VERB
"    PUNCT
Hi    INTJ
Mum    NOUN
"    PUNCT

稍后將用作POS-Tagger的基礎。 我的問題是,每當熊貓遇到引號時,它都會返回以下內容:

                                   word    tag
0                                   The    DET
1                                   boy   NOUN
2                                  said   VERB
3  \tPUNCT\r\nHi\tINTJ\r\nMum\tNOUN\r\n  PUNCT

我試圖將引號明確定義為轉義字符,但沒有用。 我能想到的另一件事是直接將它們轉存到TSV文件中,但是由於我有很多文件,而且它們是由外部來源為我生成的,因此這將很繁瑣且耗時。

有人遇到過這個問題並有解決方案嗎?

您可以告訴pandas在讀取文件時忽略引號,在這種情況下, pandas使用與內置csv模塊相同的配置選項,因此必須從csv模塊傳遞給它QUOTE_NONE常量:

import csv
import pandas

pandas.read_table(fn, quoting=csv.QUOTE_NONE, names=('word', 'tag'))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM