为什么在图相交后缺少节点-NetworkX，igraph，python和r

Question

尝试获取两个网络/图形之间的交集时遇到了奇怪的事情。 当我检查结果相交时，我发现缺少节点，我想了解为什么会这样。

本来我正在使用python 3.5.2 / pandas 0.17.1。 在Linux Mint 18上，可重现该问题的数据集和代码在链接上：数据集和代码

这两个表（链接中附带的Test_01.ncol和Test_02.ncol）都是边缘列表。

首先，我尝试通过合并功能获得两个带有熊猫的图形表的交集：

import pandas as pd

# Load graphs
test_01 = pd.read_csv("Test_01.ncol",sep=" ") # Load Net 1
test_02 = pd.read_csv("Test_02.ncol",sep=" ") # Load Net 2
pandas_intersect = pd.merge(test_01, test_02, how='inner', on=['i1', 'i2']) # Intersection by column

pandas_nodes = len(set(pandas_intersect['i1'].tolist() + pandas_intersect['i2'].tolist())) # Store the number of nodes

然后，为了检查合并是否完成而没有问题，我将结果的节点数与NetworkX交集的结果节点进行了比较，如下所示：

# Now test with NetworkX
import networkx as nx
n1 = nx.from_pandas_dataframe(test_01, source="i1", target="i2") # Transform net 1 in NetworkX Graph
n2 = nx.from_pandas_dataframe(test_02, source="i1", target="i2") # Transform net 2 in NetworkX Graph
fn = nx.intersection(n1,n2)  # NetworkX Intersection

networkx_nodes = len(fn.nodes()) # Store the number of nodes

# The number of nodes are different!!!
pandas_nodes == networkx_nodes

我认为这可能与节点的顺序有关，在所附的表中不是规范的，但是即使我将两个数据集按规范的顺序放置，也会缺少节点。

我的下一个假设是，它可能是Pandas或NetworkX中的错误，因此我在R（版本3.3.2）和igraph（版本1.0.1）中进行了尝试：

library("igraph")

# Read Tables
g1 <- read.table("Test_01.ncol",header=TRUE)
g2 <- read.table("Test_02.ncol",header=TRUE)

# Transform Tables in Graphs
g1 <- graph_from_data_frame(g1, directed=FALSE)
g2 <- graph_from_data_frame(g2, directed=FALSE)

# Create igraph interssection
gi <- graph.intersection(g1,g2)

# Save graph intersection
write.graph(gi,"Test_igraph_intersection.ncol", format="ncol")

# Reload graph intersection
gi_r <- read.graph("Test_igraph_intersection.ncol",format="ncol")

# Prepare result summary
Methods <- c("igraph_intersection","pandas_table_intersection")
Vertex_counts <- c(vcount(gi),vcount(gi_r))
Edge_counts <- c(ecount(gi),ecount(gi_r))

# Create Summary Table
info_data = data.frame(Methods, Vertex_counts, Edge_counts)
colnames(info_data) <- c("Method","Vertices","Edges")

# Check info_data
info_data

但是，当我查看info_data时，结果是相同的。

我知道节点数量可能会由于交集过程而减少，但是为什么在我再次将其转换为表格格式并在python上保存文件后再使用igraph再次加载后发生这种情况呢？ 还是我做错了什么？

如果有人可以解释python或RI发生了什么，请感激。 我真的需要了解为什么会这样，如果我可以相信这些交叉点以继续工作。

Answer 1

原因是图形是无向的。 intersection在igraph和networkx对待的I - J领带和为J - I领带等同。 panda.intersection只会把精确匹配（即，在数据帧中的第1列匹配数据帧B 和帧数据的列2列1匹配数据帧B第3栏）。

library(igraph); library(dplyr)
set.seed(1034)
g1 <- sample_gnp(20, 0.25, directed = F)
set.seed(1646)
g2 <- sample_gnp(20, 0.25, directed = F)
V(g1)$name <- sample(LETTERS, 20)
V(g2)$name <- sample(LETTERS, 20)

g1_el <- as.data.frame(as_edgelist(g1), stringsAsFactors = F)
g2_el <- as.data.frame(as_edgelist(g2), stringsAsFactors = F)
g1g2_inter <- as.data.frame(as_edgelist(intersection(g1,g2)))
ij <- inner_join(g1_el, g2_el)

此时，两个数据帧显示了不同数量的节点：

> g1g2_inter
   V1 V2
1   X  E
2   J  Y
3   N  J
4   O  F
5   H  Y
6   T  J
7   K  N
8   K  T
9   P  F
10  Q  N

> ij
  V1 V2
1  T  J
2  N  J
3  J  Y
4  X  E

再次使用inner_join ，通过反转一个数据帧中的列顺序，我们可以使数据帧相等。 这样就得到了以前错过的J-I关系。 然后full_join到两个部分相交的两个：

g1g2_fj <- g1_el %>% 
      rename(V1 = V2, V2 = V1) #reverse the column order %>% 
      inner_join(., g2_el) %>% rename(V1 = V2, V2 = V1) %>% 
      full_join(., ij) %>%  #join with other 'partial' intersection 
      arrange(V1, V2)

现在， igraph相交与完全连接的部分相交匹配：

> g1g2_inter[order(g1g2_inter[,1]),] == g1g2_fj
     V1   V2
5  TRUE TRUE
2  TRUE TRUE
7  TRUE TRUE
8  TRUE TRUE
3  TRUE TRUE
4  TRUE TRUE
9  TRUE TRUE
10 TRUE TRUE
6  TRUE TRUE
1  TRUE TRUE

本质上，是的，您可以信任networkx和igraph的相交方法。 他们在处理无方向联系方面做得有些不同。

为什么在图相交后缺少节点-NetworkX，igraph，python和r

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-02-28 21:48:58

为什么在图相交后缺少节点-NetworkX，igraph，python和r

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-02-28 21:48:58

解决方案1
1 已采纳 2017-02-28 21:48:58