查找每一列中的字母數

Question

我需要找到每一列中的字母數，如下所示：

String: ATCG
        TGCA
        AAGC
        GCAT

字符串是一個系列。

我需要編寫一個程序來獲取以下信息：

我已經寫了以下代碼，但是我得到的是0索引中的一行，最后是nan值（列索引450，實際列號451）。 我不應該獲得行或列451。我只需要擁有450列。

f = zip(*string)
counts = [{letter: column.count(letter) for letter in column} for column in 
f]
counts=pd.DataFrame(counts).transpose()
print(counts)
counts = counts.drop(counts.columns[[450]], axis =1)

誰能幫我理解這個問題？

Answer 1

這是實現邏輯的一種方法。 如果需要，您可以通過lst = s.tolist()將系列轉換為列表。

lst = ['ATCG', 'TGCA', 'AAGC', 'GCAT']

arr = [[i.count(x) for i in zip(*lst)] for x in ('ATCG')]

res = pd.DataFrame(arr, index=list('ATCG'))

結果

   0  1  2  3
A  2  1  1  1
T  1  1  0  1
C  0  1  2  1
G  1  1  1  1

說明

在列表理解中，首先通過依次迭代每個字符串的第一，第二，第三和第四個元素來處理列。
通過依次遍歷“ ATCG”來處理第二行。
這將產生一個列表列表，這些列表可以直接輸入pd.DataFrame 。

Answer 2

隨着Series.value_counts() ：

>>> s = pd.Series(['ATCG', 'TGCA', 'AAGC', 'GCAT'])

>>> s.str.join('|').str.split('|', expand=True)\
...     .apply(lambda row: row.value_counts(), axis=0)\
...     .fillna(0.)\
...     .astype(int)
   0  1  2  3
A  2  1  1  1
C  0  1  2  1
G  1  1  1  1
T  1  1  0  1

我不確定要對索引進行邏輯排序，但是可以在此結果上調用.reindex()或.sort_index() 。

第一行s.str.join('|').str.split('|', expand=True)您提供“擴展”版本

   0  1  2  3
0  A  T  C  G
1  T  G  C  A
2  A  A  G  C
3  G  C  A  T

這應該比在每一行上調用pd.Series(list(x)) ...更快。

查找每一列中的字母數

問題描述

2 個解決方案

解決方案1
3 2018-03-24 20:16:28

解決方案2
2 2018-03-24 21:03:33

查找每一列中的字母數

問題描述

2 個解決方案

解決方案1 3 2018-03-24 20:16:28

解決方案2 2 2018-03-24 21:03:33

解決方案1
3 2018-03-24 20:16:28

解決方案2
2 2018-03-24 21:03:33