[英]convert crosstab to columns without using pandas in python
如何在不使用熊貓的情況下根據輸入列表將以下提到的輸入文件中的交叉表數據轉換為列?
輸入清單
[A,B,C]
輸入數據文件
標簽A,B,C僅用於表示,原始文件僅具有數字值。 我們可以根據輸入列表的長度忽略列XX和YY
A B C XX YY
A 0 2 3 4 8
B 4 0 6 4 8
C 7 8 0 5 8
輸出 (輸出需要有標簽)
A A 0
A B 2
A C 3
B A 4
B B 0
B C 6
C A 7
C B 8
C C 0
即使標簽存在於輸入文件中,標簽也必須存在於輸出文件中,因此我在輸出文件中提到了標簽的表示形式。
注意:實際上,標簽是按城市名稱排序的,沒有升序重復,也沒有單個字母,如A或B。
不幸的是,如果我可以在服務器上安裝熊貓並使用unstack()的話,這會更容易,但是現在不允許在此舊服務器上進行安裝。 這是在python 3.5上
考慮到您標記了csv
,我假設實際的輸入數據是一個.csv文件,沒有您指定的標題。
因此示例數據如下所示:
0,2,3,4,8
4,0,6,4,8
7,8,0,5,8
如果標簽以列表形式提供,並且與列和行的順序匹配(即['A', 'B', 'C']
則示例輸出將變為:
'A','A',0
'A','B',2
'A','C',3
'B','A',4
etc.
請注意,這意味着文件中的行和列數不能超過提供的標簽數。
您指出標記為“ XX”和“ YY”的列將被忽略,但沒有指出應如何進行通信,但是您確實提到輸入的長度決定了它,因此我認為這意味着“列n之后的所有內容都可以忽略”。
這是一個簡單的實現:
from csv import reader
def unstack_csv(fn, columns, labels):
with open(fn) as f:
cr = reader(f)
row = 0
for line in cr:
col = 0
for x in line[:columns]:
yield labels[row], labels[col], x
col += 1
row += 1
print(list(unstack_csv('unstack.csv', 3, ['A', 'B', 'C'])))
或者,如果您喜歡它又短又甜:
from csv import reader
with open('unstack.csv') as f:
content = reader(f)
labels = ['A', 'B', 'C']
print([(labels[row], labels[col], x)
for row, data in enumerate(content)
for col, x in enumerate(data) if col < 3])
(出於與熊貓相同的原因,我還假設使用了numpy,但由於它是標准庫,所以包含了諸如csv
東西)
如果您不想顯式提供標簽,而只希望生成標簽,則可以執行以下操作:
def label(n):
r = n // 26
c = chr(65 + (n % 26))
if r > 0:
return label(r-1)+c
else:
return c
然后當然只需從示例中刪除labels
,並替換為對label(col)
和label(row)
調用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.