从文本数据集中提取特征

Question

我对文本数据集的特征提取有疑问。 使用来自以下位置的预处理数据集：

预处理后的数据是每个文档一行，每一行的格式为：

feature:<count> .... feature:<count> #label#:<label>

假设我们有两行：

<line 1> alpha: 3 beta:2 gamma: 1 delta: 0 echo:0 #label:1

<line 2> alpha: 0 foxtrot:0 mike: 0 beta: 1 delta:1 #label:0

所以我想提取我得到的特征：

output

到目前为止，我已经编写了这段代码，但无法继续进行：

import pandas as pd
dict={}
total=pd.DataFrame()
with open ('amazon_book.review', 'r') as data:
    for i in range(3):
        line=data.readline()
        for word in line.split():
            key,value=word.split(sep=":")
            dict[key]=value

Answer 1

请使用正则表达式。 希望下面的代码有所帮助。 在 dataframe 中，您将获得所有功能和标签

import pandas as pd
import re

list_of_dict = []
str_feature_pattern = re.compile(r'(\w+\s*:\s+\d+)+')
str_label_pattern = re.compile(r'.*#(\w+:\d+)')

with open ('amazon_book.review', 'r') as data:
    for i in range(3):
        line=data.readline()
        feature_match = str_feature_pattern.findall(line)
        label_match = str_label_pattern.findall(line)
        dict = {}
        for f in feature_match:
          vals = f.split(sep=":")
          dict[vals[0]] = vals[1]
        label_val = label_match[0].split(sep=':')
        dict[label_val[0]] = label_val[1]
        list_of_dict.append(dict)
total=pd.DataFrame(list_of_dict)

从文本数据集中提取特征

问题描述

1 个解决方案

解决方案1
0 2021-05-20 04:37:01

从文本数据集中提取特征

问题描述

1 个解决方案

解决方案1 0 2021-05-20 04:37:01

解决方案1
0 2021-05-20 04:37:01