逗號和制表符分隔的tsv文件

Question

這個問題是使用pandas庫的python 2.7的。 我下載了此文件： http : //language.media.mit.edu/data/public/wikipedia_userlang_iso639-3.zip這是一個帶有制表符和逗號的文件。 我已經在整個互聯網上搜索了此內容。

我想用熊貓分開。 這給出了錯誤：

df = pd.read_table('wikipedia_userlang_iso639-3.tsv', sep= '\t')

print df [:10]

因為該文件也有逗號。

非常感謝幫助！

Answer 1

該文件不能解析為CSV文件，因為每一行沒有固定數量的字段（范圍為2到241）。 您必須自己解析它，並決定如何為每個用戶處理可變數量的語言：

import codecs

with codecs.open('wikipedia_userlang_iso639-3.tsv', 'r', 'utf-8') as handle:
    for line in handle:
        chunks = line.strip().split('\t')

        username = chunks[0]
        languages = [c.split(',') for c in chunks[1:]]

        # Do something with the above variables

逗號和制表符分隔的tsv文件

問題描述

1 個解決方案

解決方案1
1 2017-02-25 23:48:24

逗號和制表符分隔的tsv文件

問題描述

1 個解決方案

解決方案1 1 2017-02-25 23:48:24

解決方案1
1 2017-02-25 23:48:24