![](/img/trans.png)
[英]Filter tibble column to only include values found in separate tibble
問題我有一個包含基本股票代碼信息的小標題(可在此處作為 a.csv 文件獲得: https://www.nasdaq.com/market-activity/stocks/screener )。 我如何過濾這個 tibble(稱之為symbolData )只為第二個更小的 tibble(稱之為Dow ...
[英]Filter tibble column to only include values found in separate tibble
問題我有一個包含基本股票代碼信息的小標題(可在此處作為 a.csv 文件獲得: https://www.nasdaq.com/market-activity/stocks/screener )。 我如何過濾這個 tibble(稱之為symbolData )只為第二個更小的 tibble(稱之為Dow ...
[英]Understanding constraints in agrep fuzzy matching in R
這看起來很簡單,但由於某種原因,我不理解涉及替換的agrep模糊匹配的行為。 當指定all=2時,兩個替換按預期產生匹配,但在指定substitutions=2時不會。 為什么是這樣?# Finds a match as expected agrep("abcdeX", "abcdef", valu ...
[英]match two vectors by similar characters/strings in R
我有兩個向量,比如 我想匹配它們,即將v1的每個元素與v2上最相似的元素“鏈接”,因此結果是 以下代碼給出了預期的結果,但這只是因為它已經手動“格式化”了 碰巧agrep(df[2,1], v2, max.distance = 0.00001, ignore.case = T, value = T) ...
[英]Fuzzy matching strings within a single column and documenting possible matches
我有一個相對較大的數據集,大約 5k 行,其中包含期刊/研究論文的標題。 這是數據集的一個小樣本: 您可以看到那里有一些重復的標題,但格式/大小寫不同。 我想識別重復的標題並創建一個新變量來記錄哪些行可能匹配。 為此,我嘗試按照此處的建議使用 agrep function: 這會識別匹配項,但會將結 ...
[英]In R, use if loop with agrep to assign value
模式列表如下所示: X 來自 df 看起來像: 我試圖做的:使用agrep根據df$X在pattern中查找匹配的名稱,然后根據匹配結果為現有列'column2'賦值,例如,如果'aaa-053'匹配'aaa' ,那么 'aaa' 將是 'column2' 中的值,如果不匹配,則返回該列中的 na ...
[英]Efficiently check if a string is an approximate substring of (approximately contrained in) another string, up to a given error threshold?
取 C 或 C++ 中的兩個字符串, s1和s2 。 檢查一個是否包含另一個是相當簡單的。 如果s2是s1的 substring,則以下將返回true 。 在 C 中: 在 C++ 中: 帶升壓: 我正在尋找的是一種類似的有效方式(就速度而言,而不是內存)查找字符串是否大約包含在 / 中是否大約是 ...
[英]Calling the agrep .Internal C function from Rcpp
In short: How can I call, from within Rccp C++ code, the agrep C internal function that gets called when users use the regular agrep function from b ...
[英]Grep a string with number greater than 45
我在一個目錄中有多個文件。 我想提取 integer 值大於 45 的所有文件中的每一行。 目前,我正在使用: 它向我顯示了該字符串“IO 恢復后”的所有文件 ...
[英]fuzzy Logic for a String in R
我有 2 個 dataframe: DF1 並且,df2 我想在 DF1 字符串中應用模糊邏輯。 如果 DF1 中給出的名稱與 DF2 匹配,請給我 DF2 名稱 Output 應該像 我嘗試應用 FuzzywuzzyR 但出現錯誤我也嘗試了 agrep,但它給我的結果是 True/False。 請 ...
[英]R Finding elements matching with each other within a vector
我有一個地址列表。 這些地址是由不同的用戶輸入的,因此寫入相同地址的方式存在很大差異。 例如, 上面的向量有 6 個地址。 而且幾乎所有的都是一樣的。 我試圖找到這些地址之間的匹配項,以便我可以將它們放在一起並重新編碼。 我試過使用agrep和 stringdist 包。 使用 agrep 我 ...
[英]Apostrophes and optional argument (?) in grep vs agrep
當我運行以下 4 行代碼時,所有 4 行代碼都沒有得到相同的結果。為什么最后一行沒有找到匹配項? 我還沒有完全閱讀模糊匹配函數,但從表面上看,我不明白為什么這會成為一個問題。 ...
[英]Identify similar names in same row, then choose Mode
我的數據包括一個名稱列。 一些名稱以多達八種不同的方式書寫。 我嘗試使用以下代碼對它們進行分組: 接下來,我想添加一個新列,該列返回例如最常用的每行名稱表示法。 結果應如下所示: 我如何到那里? ...
[英]Extract substring match from agrep
我的目標是確定給定text中是否包含target字符串,但我想允許拼寫錯誤/小的派生並提取“導致”匹配的 substring(以將其用於進一步的文本分析)。 例子: 所需的 Output: 我想將target strlng為 Output,因為它非常接近目標(levenshtein 距離為 1)。 ...
[英]How to fix error agrep: pattern too long (has > 32 chars) it doesn't show error if there is no full stop in the string?
agrep 給出錯誤agrep: pattern too long (has > 32 chars)當模式字符串中有句號 (.) 時,否則沒有。 我想比較(大約)兩個字符串,所以我為此使用了 agrep 但它給出了錯誤agrep: pattern too long (has > 32 ...
[英]Identify fuzzy duplicates from a single column and create a subset containing records of fuzzy duplicates using R
我有一個數據集,其中包含一個帶有個人姓名的字段。 有些名稱相似,但有細微差別,例如“CANON INDIA PVT”。 LTD”和“CANON INDIA PVT。 LTD.'、'Antila,Thomas' 和 'ANTILA THOMAS'、'Z_SANDSTONE COOLING LTD' ...
[英]Return vector of words matched with fuzzy matching
我正在使用agrepl()通過模糊匹配單詞來過濾data.table。 使用以下命令對我來說工作正常: 顯然,您可以通過查看此內容來看出在這種情況下,“ setosh”將與“ setosa”進行模糊匹配。 我想要的是獲得與“ setosh”匹配的單詞向量。 因此,盡管在此示例中不相 ...
[英]Writing a script that uses agrep to loop through lines in a document one by one against lines in another document and getting a result
我正在嘗試編寫一個腳本,該腳本使用agrep來遍歷一個文檔中的文件並使它們與另一文檔匹配。 我相信這可能會使用嵌套循環,但是,我不確定。 在模板文檔中,我需要它采用一個字符串並將其與另一文檔中的其他字符串進行匹配,然后移至下一個字符串並再次進行匹配 如果由於某種奇怪的原因而無法看 ...
[英]shell - display number of errors for best matches in agrep
我想要做的是使用agrep獲取文件中最匹配的單詞和錯誤的數量。 現在我只能使用這個腳本得到這個詞: bla {1,2,3}是哪些詞。 我的輸出如下: 有沒有辦法可以得到錯誤數量( 上面的輸出示例中為2,1,4,2 )? ...