標簽[agrep] - 堆棧內存溢出

[英]Filter tibble column to only include values found in separate tibble

問題我有一個包含基本股票代碼信息的小標題（可在此處作為 a.csv 文件獲得： https://www.nasdaq.com/market-activity/stocks/screener ）。我如何過濾這個 tibble（稱之為symbolData ）只為第二個更小的 tibble（稱之為Dow ...

了解 R 中的 agrep 模糊匹配中的約束

[英]Understanding constraints in agrep fuzzy matching in R

這看起來很簡單，但由於某種原因，我不理解涉及替換的agrep模糊匹配的行為。當指定all=2時，兩個替換按預期產生匹配，但在指定substitutions=2時不會。為什么是這樣？# Finds a match as expected agrep("abcdeX", "abcdef", valu ...

通過 R 中的相似字符/字符串匹配兩個向量

[英]match two vectors by similar characters/strings in R

我有兩個向量，比如我想匹配它們，即將v1的每個元素與v2上最相似的元素“鏈接”，因此結果是以下代碼給出了預期的結果，但這只是因為它已經手動“格式化”了碰巧agrep(df[2,1], v2, max.distance = 0.00001, ignore.case = T, value = T) ...

單列中的模糊匹配字符串並記錄可能的匹配

[英]Fuzzy matching strings within a single column and documenting possible matches

我有一個相對較大的數據集，大約 5k 行，其中包含期刊/研究論文的標題。這是數據集的一個小樣本：您可以看到那里有一些重復的標題，但格式/大小寫不同。我想識別重復的標題並創建一個新變量來記錄哪些行可能匹配。為此，我嘗試按照此處的建議使用 agrep function：這會識別匹配項，但會將結 ...

在 R 中，使用 if 循環和 agrep 來賦值

[英]In R, use if loop with agrep to assign value

模式列表如下所示： X 來自 df 看起來像：我試圖做的：使用agrep根據df$X在pattern中查找匹配的名稱，然后根據匹配結果為現有列'column2'賦值，例如，如果'aaa-053'匹配'aaa' ，那么 'aaa' 將是 'column2' 中的值，如果不匹配，則返回該列中的 na ...

有效地檢查一個字符串是否是另一個字符串的近似 substring（近似約束），達到給定的錯誤閾值？

[英]Efficiently check if a string is an approximate substring of (approximately contrained in) another string, up to a given error threshold?

取 C 或 C++ 中的兩個字符串， s1和s2 。檢查一個是否包含另一個是相當簡單的。如果s2是s1的 substring，則以下將返回true 。在 C 中：在 C++ 中：帶升壓：我正在尋找的是一種類似的有效方式（就速度而言，而不是內存）查找字符串是否大約包含在 / 中是否大約是 ...

從 Rcpp 調用 agrep.Internal C function

[英]Calling the agrep .Internal C function from Rcpp

In short: How can I call, from within Rccp C++ code, the agrep C internal function that gets called when users use the regular agrep function from b ...

Grep 一個數字大於 45 的字符串

[英]Grep a string with number greater than 45

我在一個目錄中有多個文件。我想提取 integer 值大於 45 的所有文件中的每一行。目前，我正在使用：它向我顯示了該字符串“IO 恢復后”的所有文件 ...

R 中字符串的模糊邏輯

[英]fuzzy Logic for a String in R

我有 2 個 dataframe: DF1 並且，df2 我想在 DF1 字符串中應用模糊邏輯。如果 DF1 中給出的名稱與 DF2 匹配，請給我 DF2 名稱 Output 應該像我嘗試應用 FuzzywuzzyR 但出現錯誤我也嘗試了 agrep，但它給我的結果是 True/False。請 ...

近似字符串匹配的邏輯是什么？

[英]What is the logic of approximate string matching?

有誰知道以下示例的原因是什么： ...

R 在向量中查找相互匹配的元素

[英]R Finding elements matching with each other within a vector

我有一個地址列表。這些地址是由不同的用戶輸入的，因此寫入相同地址的方式存在很大差異。例如，上面的向量有 6 個地址。而且幾乎所有的都是一樣的。我試圖找到這些地址之間的匹配項，以便我可以將它們放在一起並重新編碼。我試過使用agrep和 stringdist 包。使用 agrep 我 ...

grep 與 agrep 中的撇號和可選參數 (?)

[英]Apostrophes and optional argument (?) in grep vs agrep

當我運行以下 4 行代碼時，所有 4 行代碼都沒有得到相同的結果。為什么最后一行沒有找到匹配項？我還沒有完全閱讀模糊匹配函數，但從表面上看，我不明白為什么這會成為一個問題。 ...

識別同一行中的相似名稱，然后選擇模式

[英]Identify similar names in same row, then choose Mode

我的數據包括一個名稱列。一些名稱以多達八種不同的方式書寫。我嘗試使用以下代碼對它們進行分組：接下來，我想添加一個新列，該列返回例如最常用的每行名稱表示法。結果應如下所示：我如何到那里？ ...

從 agrep 中提取 substring 匹配

[英]Extract substring match from agrep

我的目標是確定給定text中是否包含target字符串，但我想允許拼寫錯誤/小的派生並提取“導致”匹配的 substring（以將其用於進一步的文本分析）。例子：所需的 Output：我想將target strlng為 Output，因為它非常接近目標（levenshtein 距離為 1）。 ...

如何修復錯誤 agrep: pattern too long (has > 32 chars) 如果字符串中沒有句號，它不會顯示錯誤？

[英]How to fix error agrep: pattern too long (has > 32 chars) it doesn't show error if there is no full stop in the string?

agrep 給出錯誤agrep: pattern too long (has > 32 chars)當模式字符串中有句號 (.) 時，否則沒有。我想比較（大約）兩個字符串，所以我為此使用了 agrep 但它給出了錯誤agrep: pattern too long (has > 32 ...

使用 R 從單個列中識別模糊重復並創建包含模糊重復記錄的子集

[英]Identify fuzzy duplicates from a single column and create a subset containing records of fuzzy duplicates using R

我有一個數據集，其中包含一個帶有個人姓名的字段。有些名稱相似，但有細微差別，例如“CANON INDIA PVT”。 LTD”和“CANON INDIA PVT。 LTD.'、'Antila,Thomas' 和 'ANTILA THOMAS'、'Z_SANDSTONE COOLING LTD' ...

具有模糊匹配的單詞的返回向量

[英]Return vector of words matched with fuzzy matching

我正在使用agrepl()通過模糊匹配單詞來過濾data.table。使用以下命令對我來說工作正常：顯然，您可以通過查看此內容來看出在這種情況下，“ setosh”將與“ setosa”進行模糊匹配。我想要的是獲得與“ setosh”匹配的單詞向量。因此，盡管在此示例中不相 ...

編寫一個腳本，使用agrep在文檔中的行與另一個文檔中的行之間逐一循環，並獲得結果

[英]Writing a script that uses agrep to loop through lines in a document one by one against lines in another document and getting a result

我正在嘗試編寫一個腳本，該腳本使用agrep來遍歷一個文檔中的文件並使它們與另一文檔匹配。我相信這可能會使用嵌套循環，但是，我不確定。在模板文檔中，我需要它采用一個字符串並將其與另一文檔中的其他字符串進行匹配，然后移至下一個字符串並再次進行匹配如果由於某種奇怪的原因而無法看 ...

shell - 顯示agrep中最佳匹配的錯誤數

[英]shell - display number of errors for best matches in agrep

我想要做的是使用agrep獲取文件中最匹配的單詞和錯誤的數量。現在我只能使用這個腳本得到這個詞： bla {1,2,3}是哪些詞。我的輸出如下：有沒有辦法可以得到錯誤數量（上面的輸出示例中為2,1,4,2 ）？ ...

在agrep函數中重復

[英]duplicates in agrep function

我有以下代碼：輸出如下：但是我期望以下輸出：有任何想法嗎？ ...