簡體   English   中英

如何將每條 RDD 行與其他行進行比較? 火花 scala

[英]How can I compare each RDD line to other lines? Spark scala

我實際上正在研究一個包含蛋白質名稱及其域的 RDD。 示例: 'PO7K9I'作為蛋白質名稱, 'IPR036291;IPR0023'作為結構域我實際上想計算蛋白質結構域之間的相似性,例如,相似性 = 1 兩個蛋白質具有完全相同的結構域,相似性 = 0.75 這兩個蛋白質僅共享 3 commun domain/4,最后相似性=0:在 2 個蛋白質之間沒有發現公共結構域。 你能幫我么?

這就是我的 rdd 的樣子:

(P25720,IPR002425;IPR036291;IPR020904;IPR0023) (Q9X2F4,IPR006047;IPR013780;IPR0178) (Q29228,IPR016161;IPR016163;IPR016160;IPR029510;IPR016162;IPR0155) (A5N376,IPR000821;IPR009006;IPR011079;IPR001608;IPR020622;IPR0290) (Q5HG16,IPR001792;IPR036046;IPR0179)

你能試試這個方法嗎

val rdd = (P25720,IPR002425;IPR036291;IPR020904;IPR0023) (Q9X2F4,IPR006047;IPR013780;IPR0178) (Q29228,IPR016161;IPR016163;IPR016160;IPR029510;IPR016162;IPR0155) (A5N376,IPR000821;IPR009006;IPR011079;IPR001608;IPR020622;IPR0290) (Q5HG16,IPR001792;IPR036046;IPR0179)

val combs = rdd.cartesian(rdd) // for creating the Combinations
combs.map(your similarityCheck func)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM