從.txt文件中提取數據

Question

對於我的編程工作，其中一個功能涉及從文本文件（推特數據）獲取輸入並返回推特信息的元組（有關示例文件的正確結果，請參閱doctests）。

樣本文本文件： http : //pastebin.com/z5ZkN3WH

功能的完整描述如下：

該參數是文件的全名。 打開由參數指定的文件，該文件的格式如數據文件部分所述，並從中讀取所有數據。 字典的關鍵字應該是候選者的名稱，與每個候選者相關的列表中的項目是他們發送的推文。 Tweet元組應采用以下格式（候選人，Tweet文本，日期，來源，收藏夾數，轉發數）。 日期，收藏計數和轉發計數應為整數，元組中的其余項目應為字符串。

到目前為止，我的代碼如下：

def extract_data(metadata):
    """ list of str -> tuple of str/int

    Return extracted metadata in specified format.
    """
    date = int(metadata[1])
    source = metadata[3]
    favs = int(metadata[4])
    retweets = int(metadata[5])

    return date, source, favs, retweets

def read_tweets(file):
    """ (filename) -> dict of {str: list of tweet tuples}

    Read tweets from file and categorize into dictionary.

    >>> read_tweets('very_short_data.txt')
    {'Donald Trump': [('Donald Trump', 'Join me live in Springfield, Ohio!\\nhttps://t (dot) co/LREA7WRmOx\\n', 1477604720, 'Twitter for iPhone', 5251, 1895)]}
    """

    result = {}
    with open(file) as data:
        tweets = data.read().split('<<<EOT')
        for i, tweet in enumerate(tweets):
            line = tweet.splitlines()
            content = ' '.join(line[2:])
            meta = line[1].split(',')
            if ':' in line[0]:
                author = line[0]
                metadata = extract_data(meta)
            else:
                metadata = extract_data(meta)

            candidate = author

            result[candidate] = [(candidate, content, metadata)]

        return result

當前，這將導致錯誤：“日期= int（元數據[1]）IndexError：列表索引超出范圍”。 我不確定為什么，或下一步該怎么做。 任何幫助，將不勝感激。

謝謝

Answer 1

考慮到空tweet的候選人沒有EOT，我認為按EOT拆分不是一個好主意。 最好遍歷內容而不是一次讀取所有數據。 它使它變得容易得多。

做同樣的任務也卡在這個函子上:(

從.txt文件中提取數據

問題描述

1 個解決方案

解決方案1
0 2016-12-05 19:47:55

從.txt文件中提取數據

問題描述

1 個解決方案

解決方案1 0 2016-12-05 19:47:55

解決方案1
0 2016-12-05 19:47:55