簡體   English   中英

如何從python中的文本數據中提取特征?

[英]How to extract features from text data in python?

我正在嘗試構建一個機器學習算法,以根據大腦的 eeg 信號預測一個人正在思考的數字。我發現的數據集以文本格式提供,並被描述為-“數據以非常簡單的文本格式存儲包含:

[id]:一個數字,僅供參考。

[event] id,一個整數,用於區分在不同大腦位置捕獲的同一事件,僅用於多通道設備(除MW外的所有設備)。

[設備]:一個 2 個字符的字符串,用於標識用於捕獲信號的設備,“MW”代表 MindWave,“EP”代表 Emotive Epoc,“MU”代表 Interaxon Muse 和“IN”代表 Emotiv Insight。

[channel]:一個字符串,用於識別信號的 10/20 大腦位置,可能的值:

MindWave "FP1" EPOC "AF3, "F7", "F3", "FC5", "T7", "P7", "O1", "O2", "P8", "T8", "FC6", "F4" ", "F8", "AF4" 繆斯 "TP9,"FP1","FP2", "TP10" Insight "AF3,"AF4","T7","T8","PZ"

[code]:一個整數,用於標識被認為/看到的數字,對於與任何不相關的隨機捕獲信號,可能的值為 0、1、2、3、4、5、6、7、8、9 或 -1數字。

[size]:一個整數,用於標識在該信號的 2 秒內捕獲的值數量的大小,因為每個設備的赫茲不同,“理論上”該值接近 512Hz MW,128Hz EP,220Hz對於 MU 和 128Hz 對於 IN,對於 2 秒中的每一秒。

[數據]:一組昏迷分隔的數字,隨着信號的時間序列幅度,每個設備使用不同的精度來識別從大腦捕獲的電勢:MW & MU 中的整數或實數中的實數EP 和 IN 的情況。

文件中沒有標題,每一行都是一個信號,字段由制表符分隔“我如何處理這些數據(繪制數據,在其上訓練不同的模型)?我應該將其轉換為另一種格式嗎?如果是,那么如何?數據集的鏈接- http://www.mindbigdata.com/opendb/MindBigData-MW-v1.0.zip

我已經為一個類似的 ml 項目使用了一個 csv 文件,但不知道如何使用這個文件,因為在每個信號的數據之前都有一個單獨的標題我如何提取這些信號

字段以制表符分隔,您只需要 [code](數字)或第 5 個字段,以及 [data] 第 7 個字段(提取后,分隔)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM