標簽[fasta] - 堆棧內存溢出

使用具有特定文本列表的另一個文件從一個文件中提取信息； Ubuntu/ Linux

[英]Extracting information from a file using another file with list of specific text; Ubuntu/ Linux

我有一個包含 ID 列表、索引/標題的文件，我們稱它為 list.txt 和另一個文件（大），它有我想從中提取的數據/信息（序列），稱之為 datafile.fasta 我正在嘗試獲取一個 output，它應該看起來像這樣來說明一些。我怎樣才能使用列表文件來提取我的序列？我嘗試grep -F ...

每次我在 Python 中拆分字符串時創建一個新的變量實例

[英]Create a new variable instance each time I split a string in Python

我有一個字符串到變量x中，其中包含">"符號。每次在">"符號處拆分字符串時，我都想創建一個新變量。我在變量x中的字符串是這樣的（從一個簡單的.txt文件導入）：預期的輸出是：為此，我使用了一個簡單for循環這樣我就成功地為每個計數獲取了一個新變量（每個計數 == 到"> ...

用 awk 或 sed 替換 fasta 標頭中的單個字符

[英]Replace single character in fasta header with awk or sed

我在 bash 中使用 fasta 文件，其標頭以“>”開頭，以“C”或“+”結尾。像這樣：我想使用 awk（gsub？）或 sed 將標頭的最后一個字符更改為“+”（如果它是“C”）。基本上我希望所有的序列都以“+”結尾。沒有C。期望的輸出：序列無需更改。我認為這很簡單，但我正 ...

反向補充fasta文件中的一些序列

[英]Reverse complement SOME sequences in fasta file

我一直在閱讀很多關於反向互補序列的有用帖子，但我收到了一個似乎不尋常的請求。我在 bash 中工作，我的標准輸出中有 fasta 格式的 DNA 序列，我想將其傳遞給管道。看似不尋常的一點是，我試圖反向補充其中一些序列，以便輸出具有相同方向的所有序列（用於稍后的多序列比對）。我的 fasta ...

如何在沒有包的情況下閱讀具有多個序列的fasta？

[英]How to read a fasta with multiple sequence without a package?

我有一個看起來像這樣的序列我的任務是讀取這個文件，但不使用包。讀入時，我想確保該文件實際上是 FastA 格式。 FastA 文件的內容將以合適的結構輸出，以便可以單獨檢索標題和序列。我首先嘗試了一個看起來像這樣的序列： $description [1] ">gi|1079586| ...

減去具有特定寬度的字符串以進行回收

[英]subtract strings with specific width in for recycle

我正在嘗試運行 for function 以從 fasta 中按順序提取多個字符串。這里舉個例子（當然真正的是一萬多）這是我的代碼然而，跑完之后什么都沒有發生。我真的很困惑...我想獲得的是分析每100 bp的GC含量...任何人都可以提供建議嗎？謝謝。 ...

csv_氨基酸組成_columnwise

[英]csv_amino acid composition_columnwise

示例文件：如何計算每列特定的氨基酸組成（百分比）？例如：第 10 列中 A 的成分為 50%，E 為 25%，Y 為 25%。 Biopython提供模塊來計算整個fasta格式文件的氨基酸組成 ...

Output 具體字段使用bash

[英]Output specific fields using bash

我有一個包含以下數據的 test.fasta 文件：我想將 ID 和描述以及 output 放入一個.tsv文件中，第一列是 ID，第二列是描述。所需的 output：| ID | Description | | -------- | -------------- | | 0124 | ...

使用 R::split() 根據名稱將數據分組

[英]Using R::split() to separate data into groups according to names

考慮以下稱為x的結構，其 output 是 R 中的向量：我想使用split將x分成 3 組 A、B 和 C，其中 A 有 3 個元素，B 有 2 個，C 有 1 個。分組因子參數f應該在split()中是什么？以上是一個簡單的例子。我的結構要大得多。我的真實示例由 FASTA 標頭組成， ...

如何根據 R 中數據框的倍數值生成聚類

[英]How to generate clusters based on multiples values of a data frame in R

我有一個從 blastn 分析中獲得的數據，為了生成它，我使用了 3 個樣本的基因（使用 prokka）然后生成以生成數據庫，然后生成一個 for 循環以生成每個樣本與 DB.fa 的 blastn 分析（全部 vs 全部）它生成了 S01、S02、S03，類似於：所以我想生成一組基於 3 個值的 ...

我想統計fasta文件中的字符總數

[英]I want to count the total number of characters in fasta file

>AY211956.1 Macropus rufus BRCA1 (BRCA1) gene, partial cds TGTGGCACAGATGCTCGTGCCACCTCATTACTTCCTGAAACCACCAGCTTATCGCCCAACACAGACCGAA TGAATGTAGAAAAGGC ...

將多個 SEQ 文件轉換為 fasta 格式

[英]convert multiple SEQ files to fasta format

有沒有辦法將數百個 SEQ 文件轉換為 FASTA 格式 seq 文件僅包含文本格式的序列。我如何將每個單獨的文本文件的文件名 append 作為字符串 ID？我嘗試從該線程應用代碼，如下所示：但它沒有用，output 只是一個 + ...

我用 Biopython 編寫了一個代碼，但它並不是每次都有效。我的代碼有什么問題？

[英]I made a code with Biopython but it does not work every time. What is wrong with my code?

我有一個 FASTA 文件，其中包含按從 1（第一個序列：從>到* ）到 n（最后一個）的順序分類的序列。內容如下：我還有另一個文本文件，其中包含與第一個 FASTA 文件中的某些序列分類相對應的數字，內容是這樣的：我試圖創建一個程序，允許我從 FASTA 文件中提取與文本文件中包含的 ...

使用 bash 計算具有多個序列的 fasta 文件中每個序列中 char 的出現次數

[英]Count the number of occurrences of a char in each sequence in a fasta file with multiple sequences using bash

我想計算具有多個序列的 fasta 文件中每個序列中 char 出現的次數，但是使用我使用的方法計算 fasta 文件中 char 的總數：有什么方法可以使用具有多個序列的 fasta 文件對每個序列進行處理嗎？ fasta 文件如下所示 ...

使用 Javascript 和 RegEx 驗證 DNA FASTA 序列

[英]Validate DNA FASTA sequence using Javascript and RegEx

我有一個 FASTA DNA 序列。我希望文本區域驗證下面給定模式的 fasta 文本。如果文本不符合模式，則應顯示錯誤。模式是：每個序列都有一個標題，以“>”符號開頭，后跟字母數字和特殊字符。然后在新的一行中，文本應該只包含 ["A","G","T","C"] 中的字母。這是我試過 ...

使用 Javascript 的 Fasta 文本中的序列數

[英]Number of sequences in Fasta Text using Javascript

使用 Javascript，我想計算在 Textarea 字段中鍵入的 Fasta 文本中的序列數。但我真的很困惑該怎么做。例如，下面的文本應該返回有兩個序列： ...

讀取 fasta 文件 C++

[英]Reading in fasta file C++

我正在嘗試讀取一個 fasta 文件。我想刪除/忽略以“>”開頭的標題/信息行，並將以下序列存儲到單獨的字符串中。下面是我必須執行的代碼（部分修改自https://rosettacode.org/wiki/FASTA_format#C++ ，因為我最初工作的更少）。他們有一個很好的例子 ...

在 FASTA header 中刪除所有內容（包括選項卡）？

[英]Remove everything after and including a tab in FASTA header?

我試圖只保留 a.fasta 文件中每個序列的第一個字段標識符，如下所示：我想刪除它之后的 \tab 和“ENST ...”標識符，返回：我已經嘗試過 sed 從標題中刪除所有空格，但它似乎不起作用（返回原始格式）：任何幫助將不勝感激。謝謝你。 ...

添加'|' 到 bash 中的 FASTA 文件頭

[英]Adding '|' to FASTA file headers in bash

我有 48411 K FASTA 序列，每個長度為 1555 個字符（在一個文件中，總共 78.3 Mb），標題如下：但不幸的是，空格已用於分隔文本，而不是通常的“|” （我認為）。我想添加'|' 到標題，使它們成為我只需要替換前兩個空格。物種名稱中不應有 pipe。因此，最終結果應該是 ...

在最后一個分隔符之后提取文本並附加在行尾 [Linux/Ubuntu]

[英]Extract text after last delimiter and attach at end of line [Linux/Ubuntu]

我有一個如下所示的 fasta 文件：我只想提取最后一個分隔符之后的數字並將它們附加到每個 header 的末尾，以便 output 如下所示：我以前從未使用過 linux ，到目前為止，我只能找到此命令來分隔最后一個分隔符之后的文本： sed -E 's/.*_//' filename.fa ...