標簽[suffix-tree] - 堆棧內存溢出

[英]Implementations for Pattern/String mining using Suffix Arrays/Trees

我正在嘗試解決字符串的模式挖掘問題，我認為后綴樹或 arrays 可能是解決此問題的不錯選擇。我將快速概述問題：我有一組不同長度的字符串（引用只是為了標記重復以進行解釋）： C"BECB"ECCCECCEEB"BECB"FCCECCECCCECCCFCBFCBFCC DCBBDCDDCCEC ...

調試模式匹配算法

[英]Debugging a pattern-matching algorithm

用戶提供要搜索的文本文件和要搜索的模式。該程序構建一個后綴樹並使用它來查找文本中出現的所有模式，然后打印它們的索引。我的 find_occurrences 函數應該打印模式出現的每個索引。相反，它打印每個索引的位置，直到並包括模式的最后一次出現例子：提供文本文件的路徑定理.txt 提供您要搜 ...

用於查找字符串中出現頻率最高的 m 字母 substring 的線性時間算法

[英]linear time algorithm for finding most frequent m-letter substring in a string

假設我們有一個字母串，我們正在搜索重復次數最多的 m 個字母 substring (1=<m =< n)。我只是在尋找一種在線性時間內解決這個問題的算法。我已經達到了后綴樹。但是如何通過后綴樹解決呢？非常感謝。 ...

查找包含單詞序列的單詞的算法

[英]Algorithm to find the words, that contain a sequence of words

我有一個包含超過 100k 個單詞的文本文件，每個單詞在文件中用換行符分隔。我想實現一個 function，它將返回包含給定 ZE83AED3DDF4667DEC0DAAAACB2BB3BE0BZ 的單詞列表。例如：如果 substring 是“外套”，那么它會返回“塗層”、“雨衣”、“雨衣”等 ...

用后綴樹找出兩個單詞中最長的子串

[英]Find longest substring in two words with suffix tree

我需要解決問題 - 用后綴樹在兩個單詞中找到最長的子串。我為第一個和第二個單詞建立了后綴，但是如何在兩個單詞中找到最長的子串？你能提出一個可能的算法來解決這個問題嗎？ ...

為什么這個字符串的后綴樹中這兩個節點之間沒有后綴鏈接？

[英]Why is not there a suffix link between these two nodes in this string's suffix tree?

我正在學習如何從給定字符串生成后綴樹的 Ukkonen 算法。我在可視化網站http://brenden.github.io/ukkonen-animation/ 中嘗試了一個字符串“dedododeodo”，我不完全理解的一件事是：為什么從節點號 8 到節點號 3 沒有任何后綴鏈接? 我的理解 ...

后綴樹檢查 k 之前是否存在 P 模式 position

[英]Suffix Tree check existence of P pattern before k position

我需要設計一個算法，給定一個長度為 n 的 T 字符串，在處理O(n)之后，對於每個長度為 m 的字符串 P和一個介於 1 到 n 之間的k值，以檢查O(m)時間，如果P在 k position 之前出現在 T 上，僅使用Suffix Tree 。不幸的是，沒有任何好的生物信息學書籍具有公平的例 ...

后綴Trie匹配，匹配操作有問題

[英]Suffix Trie matching, problem with matching operation

我遇到了后綴 Trie 匹配的問題，我設計了一個帶有 26 路樹的后綴 trie 來表示節點中的字符以及與每個節點關聯的值。每個節點的值表示字符串（如果它是后綴）在主字符串中開始的索引，否則表示 -1。此后我試圖讓匹配操作工作，但顯然它沒有，我無法在這里找到錯誤。有關更多說明，請參閱此 Pdf ...

如何使用 trie（或后綴 trie）生成所有回文子串？

[英]How to generate all palindrome substrings with trie (or suffix trie)?

給定一個字符串"ababacba" ，我如何生成所有可能的回文子串？我正在考慮以下方法：使用原始字符串生成后綴 trie 反轉字符串生成反轉字符串的所有后綴對於每個后綴，通過去后綴樹中的每個節點進行比較以確定回文但是，這似乎不適用於某些情況，例如它將baba檢測為回文而不是回文，因為讀取aba ...

構建LCP-Array實例的Kasai算法

[英]Kasai Algorithm for Constructing LCP-Array Practical Example

我正在嘗試完成 Coursera 上的字符串算法課程，並且堅持使用此視頻中描述的構建 LCP 數組的方法： https://www.coursera.org/learn/algorithms-on-strings/lecture/HyUlH/computing-the-lcp-array 我很 ...

如何從LCP數組和后綴數組構造后綴樹

[英]How to construct Suffix tree from LCP array and Suffix array

標題差不多。我使用DC3算法在O（n）時間創建了一個后綴數組。然后，我在O（n）的時間內使用Kasai的算法創建了一個LCP陣列。現在，我需要從我擁有的兩個數組中創建一個后綴樹。怎么做到的？我查看了期刊論文，並使用Google進行了四處瀏覽，但是找不到解決方法。我 ...

如何使用 Trie 數據結構找到所有可能子串的 LCP 總和？

[英]How to use a Trie data structure to find the sum of LCPs for all possible substrings?

問題描述：參考資料：有趣的字符串根據問題描述，找到所有可能子字符串（對於給定字符串）的LCP長度總和的簡單方法如下：基於對 LCP 的進一步閱讀和研究，我發現這個文檔指定了一種使用稱為Tries的高級數據結構有效查找 LCP 的方法。我實現了一個 Trie 和一個壓縮 Trie（后綴 ...

構造一個包含一百萬個單詞的后綴樹，並使用測試集對其進行查詢，以找到最接近的匹配項並進行分類

[英]Construct a suffix tree of a concatination of a million words and query it with a test set to find the closest match and classify

我要解決的問題：我有一百萬個單詞（多種語言），並且有些類別被歸類為我的訓練語料庫。給定單詞的測試語料庫（隨着時間的推移，語料庫的數量必然會增加），我想獲得訓練語料庫中每個單詞的最接近匹配項，因此將該單詞歸為最接近匹配項的對應類。我的解決方案：最初，我做了這種無法擴展的蠻力。現在， ...

大（10Mb）文本的后綴樹占用過多內存

[英]Suffix tree of large (10Mb) text taking excessive memory

我實現了（請參見下面的代碼）絕對最小的廣義后綴樹構建算法。我編寫了一個單元測試，它似乎按預期工作（在正確的位置找到正確的子字符串）。但是這棵樹太大了。問題：我是否在某個地方犯了錯誤，或者這種基本形式的后綴樹僅可用於非常短的文本？統計我想用它來搜索大量文本：多個15-2 ...

在一組字符串中找到 K 最長的公共后綴

[英]Find K-most longest common suffix in a set of strings

我想在一組字符串中找到最長的公共后綴，以檢測我的自然語言處理項目中一些潛在的重要語素。給定頻率K>=2 ，在字符串S1,S2,S3...SN的列表中找到 K-最常見的最長后綴為了簡化問題，這里有一些例子：輸入 1：輸出 1：說明1： “man”出現4次，“eman”出 ...

為什么后綴數組使用的空間少於后綴樹？

[英]Why the Suffix Array use less space than the Suffix Tree?

我正在為我的項目研究后綴數組和后綴樹。在幾篇論文中，例如： Manber和Myers-1993年發表的“后綴數組：在線字符串搜索的新方法”。 Juha Karkkainen和Peter Sanders撰寫的“簡單線性工作后綴數組構造”，2003年。作者說： “后綴 ...

與后綴數組相比，后綴樹的優點是什么？

[英]What is the advantage of Suffix tree over suffix array?

我一直在研究trie，后綴數組和后綴樹，我知道這些數據結構可用於快速查找以及用於更多應用程序。現在我的問題是，與后綴數組相比，后綴樹更可取的情況是，后綴數組是否節省空間並易於實現？能否請您列出一下個人的優勢。.在此先感謝。 ...

廣義后綴樹遍歷以找到最長的公共子字符串

[英]Generalised suffix tree traversal to find longest common substring

我正在使用后綴樹。據我所知，我已經正確運行了Ukkonen的算法，可以從任意數量的字符串構建通用后綴樹。我現在正在嘗試實現find_longest_common_substring()方法來做到這一點。為此，我知道我需要找到樹中所有字符串之間最深的共享邊（以字符為單位，而不是邊的深度 ...

為什么將此代碼段從C＃轉換為C ++會降低性能？

[英]Why does translating this code snippet from C# to C++ degrade performance?

我對C＃的了解比對C ++的了解要多得多，因此我必須就此問題尋求建議。我不得不將一些代碼片段重寫為C ++，然后（出乎意料的）遇到了性能問題。我將問題縮小到以下片段： C＃ C ++ 在這兩種情況下，我都會創建一個后綴樹，然后在更大的函數中使用它，該函數與該帖子 ...

帶后綴樹的Is-k-Substring函數

[英]Is-k-Substring function with a suffix tree

我如何使用后綴樹s進行下一步操作，后綴樹的頂點數以O（| s |）為界： Is-k-Sub-string（r）-檢查字符串r是否是s的k-sub-string，其中k-sub-string定義如下：如果s的子字符串存在分區，則s的子字符串r定義為k子字符串： R = X1X2 ...