cost 115 ms
使用后綴數組/樹實現模式/字符串挖掘

[英]Implementations for Pattern/String mining using Suffix Arrays/Trees

我正在嘗試解決字符串的模式挖掘問題,我認為后綴樹或 arrays 可能是解決此問題的不錯選擇。 我將快速概述問題: 我有一組不同長度的字符串(引用只是為了標記重復以進行解釋): C"BECB"ECCCECCEEB"BECB"FCCECCECCCECCCFCBFCBFCC DCBBDCDDCCEC ...

調試模式匹配算法

[英]Debugging a pattern-matching algorithm

用戶提供要搜索的文本文件和要搜索的模式。 該程序構建一個后綴樹並使用它來查找文本中出現的所有模式,然后打印它們的索引。 我的 find_occurrences 函數應該打印模式出現的每個索引。 相反,它打印每個索引的位置,直到並包括模式的最后一次出現例子: 提供文本文件的路徑定理.txt 提供您要搜 ...

用於查找字符串中出現頻率最高的 m 字母 substring 的線性時間算法

[英]linear time algorithm for finding most frequent m-letter substring in a string

假設我們有一個字母串,我們正在搜索重復次數最多的 m 個字母 substring (1=<m =< n)。 我只是在尋找一種在線性時間內解決這個問題的算法。 我已經達到了后綴樹。 但是如何通過后綴樹解決呢? 非常感謝。 ...

查找包含單詞序列的單詞的算法

[英]Algorithm to find the words, that contain a sequence of words

我有一個包含超過 100k 個單詞的文本文件,每個單詞在文件中用換行符分隔。 我想實現一個 function,它將返回包含給定 ZE83AED3DDF4667DEC0DAAAACB2BB3BE0BZ 的單詞列表。 例如:如果 substring 是“外套”,那么它會返回“塗層”、“雨衣”、“雨衣”等 ...

為什么這個字符串的后綴樹中這兩個節點之間沒有后綴鏈接?

[英]Why is not there a suffix link between these two nodes in this string's suffix tree?

我正在學習如何從給定字符串生成后綴樹的 Ukkonen 算法。 我在可視化網站http://brenden.github.io/ukkonen-animation/ 中嘗試了一個字符串“dedododeodo”,我不完全理解的一件事是:為什么從節點號 8 到節點號 3 沒有任何后綴鏈接? 我的理解 ...

后綴樹檢查 k 之前是否存在 P 模式 position

[英]Suffix Tree check existence of P pattern before k position

我需要設計一個算法,給定一個長度為 n 的 T 字符串,在處理O(n)之后,對於每個長度為 m 的字符串 P和一個介於 1 到 n 之間的k值,以檢查O(m)時間,如果P在 k position 之前出現在 T 上,僅使用Suffix Tree 。 不幸的是,沒有任何好的生物信息學書籍具有公平的例 ...

后綴Trie匹配,匹配操作有問題

[英]Suffix Trie matching, problem with matching operation

我遇到了后綴 Trie 匹配的問題,我設計了一個帶有 26 路樹的后綴 trie 來表示節點中的字符以及與每個節點關聯的值。 每個節點的值表示字符串(如果它是后綴)在主字符串中開始的索引,否則表示 -1。 此后我試圖讓匹配操作工作,但顯然它沒有,我無法在這里找到錯誤。 有關更多說明,請參閱此 Pdf ...

如何使用 trie(或后綴 trie)生成所有回文子串?

[英]How to generate all palindrome substrings with trie (or suffix trie)?

給定一個字符串"ababacba" ,我如何生成所有可能的回文子串? 我正在考慮以下方法: 使用原始字符串生成后綴 trie 反轉字符串生成反轉字符串的所有后綴對於每個后綴,通過去后綴樹中的每個節點進行比較以確定回文但是,這似乎不適用於某些情況,例如它將baba檢測為回文而不是回文,因為讀取aba ...

構建LCP-Array實例的Kasai算法

[英]Kasai Algorithm for Constructing LCP-Array Practical Example

我正在嘗試完成 Coursera 上的字符串算法課程,並且堅持使用此視頻中描述的構建 LCP 數組的方法: https://www.coursera.org/learn/algorithms-on-strings/lecture/HyUlH/computing-the-lcp-array 我很 ...

如何從LCP數組和后綴數組構造后綴樹

[英]How to construct Suffix tree from LCP array and Suffix array

標題差不多。 我使用DC3算法在O(n)時間創建了一個后綴數組。 然后,我在O(n)的時間內使用Kasai的算法創建了一個LCP陣列。 現在,我需要從我擁有的兩個數組中創建一個后綴樹。 怎么做到的? 我查看了期刊論文,並使用Google進行了四處瀏覽,但是找不到解決方法。 我 ...

如何使用 Trie 數據結構找到所有可能子串的 LCP 總和?

[英]How to use a Trie data structure to find the sum of LCPs for all possible substrings?

問題描述: 參考資料: 有趣的字符串 根據問題描述,找到所有可能子字符串(對於給定字符串)的LCP長度總和的簡單方法如下: 基於對 LCP 的進一步閱讀和研究,我發現這個文檔指定了一種使用稱為Tries的高級數據結構有效查找 LCP 的方法。 我實現了一個 Trie 和一個壓縮 Trie(后綴 ...

構造一個包含一百萬個單詞的后綴樹,並使用測試集對其進行查詢,以找到最接近的匹配項並進行分類

[英]Construct a suffix tree of a concatination of a million words and query it with a test set to find the closest match and classify

我要解決的問題:我有一百萬個單詞(多種語言),並且有些類別被歸類為我的訓練語料庫。 給定單詞的測試語料庫(隨着時間的推移,語料庫的數量必然會增加),我想獲得訓練語料庫中每個單詞的最接近匹配項,因此將該單詞歸為最接近匹配項的對應類。 我的解決方案:最初,我做了這種無法擴展的蠻力。 現在, ...

大(10Mb)文本的后綴樹占用過多內存

[英]Suffix tree of large (10Mb) text taking excessive memory

我實現了(請參見下面的代碼)絕對最小的廣義后綴樹構建算法。 我編寫了一個單元測試,它似乎按預期工作(在正確的位置找到正確的子字符串)。 但是這棵樹太大了。 問題:我是否在某個地方犯了錯誤,或者這種基本形式的后綴樹僅可用於非常短的文本? 統計 我想用它來搜索大量文本:多個15-2 ...

在一組字符串中找到 K 最長的公共后綴

[英]Find K-most longest common suffix in a set of strings

我想在一組字符串中找到最長的公共后綴,以檢測我的自然語言處理項目中一些潛在的重要語素。 給定頻率K>=2 ,在字符串S1,S2,S3...SN的列表中找到 K-最常見的最長后綴 為了簡化問題,這里有一些例子: 輸入 1: 輸出 1: 說明1: “man”出現4次,“eman”出 ...

為什么后綴數組使用的空間少於后綴樹?

[英]Why the Suffix Array use less space than the Suffix Tree?

我正在為我的項目研究后綴數組和后綴樹。 在幾篇論文中,例如: Manber和Myers-1993年發表的“后綴數組:在線字符串搜索的新方法”。 Juha Karkkainen和Peter Sanders撰寫的“簡單線性工作后綴數組構造”,2003年。 作者說: “后綴 ...

與后綴數組相比,后綴樹的優點是什么?

[英]What is the advantage of Suffix tree over suffix array?

我一直在研究trie,后綴數組和后綴樹,我知道這些數據結構可用於快速查找以及用於更多應用程序。 現在我的問題是,與后綴數組相比,后綴樹更可取的情況是,后綴數組是否節省空間並易於實現? 能否請您列出一下個人的優勢。.在此先感謝。 ...

廣義后綴樹遍歷以找到最長的公共子字符串

[英]Generalised suffix tree traversal to find longest common substring

我正在使用后綴樹。 據我所知,我已經正確運行了Ukkonen的算法,可以從任意數量的字符串構建通用后綴樹。 我現在正在嘗試實現find_longest_common_substring()方法來做到這一點。 為此,我知道我需要找到樹中所有字符串之間最深的共享邊(以字符為單位,而不是邊的深度 ...

為什么將此代碼段從C#轉換為C ++會降低性能?

[英]Why does translating this code snippet from C# to C++ degrade performance?

我對C#的了解比對C ++的了解要多得多,因此我必須就此問題尋求建議。 我不得不將一些代碼片段重寫為C ++,然后(出乎意料的)遇到了性能問題。 我將問題縮小到以下片段: C# C ++ 在這兩種情況下,我都會創建一個后綴樹,然后在更大的函數中使用它,該函數與該帖子 ...

帶后綴樹的Is-k-Substring函數

[英]Is-k-Substring function with a suffix tree

我如何使用后綴樹s進行下一步操作,后綴樹的頂點數以O(| s |)為界: Is-k-Sub-string(r)-檢查字符串r是否是s的k-sub-string,其中k-sub-string定義如下: 如果s的子字符串存在分區,則s的子字符串r定義為k子字符串: R = X1X2 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM