将具有属性和边的节点从 DataFrame 加载到 NetworkX

Question

我是使用 Python 处理图形的新手：NetworkX。 到目前为止，我一直在使用 Gephi。 标准步骤（但不是唯一可能的）是：

从表格/电子表格加载节点信息； 其中一列应该是 ID，其余的列是关于节点的元数据（节点是人，所以性别，组......通常用于着色）。 喜欢：
```
 id;NormalizedName;Gender per1;Jesús;male per2;Abraham;male per3;Isaac;male per4;Jacob;male per5;Judá;male per6;Tamar;female ...
```
然后也从表/电子表格中加载边，使用与节点电子表格的列 ID 相同的节点名称，通常有四列（目标、来源、权重和类型）：
```
 Target;Source;Weight;Type per1;per2;3;Undirected per3;per4;2;Undirected ...
```

这是我拥有的两个数据帧，我想在 Python 中加载它们。 阅读有关 NetworkX 的信息，似乎不太可能将两个表（一个用于节点，一个用于边）加载到同一个图中，我不确定最好的方法是什么：

我是否应该仅使用来自 DataFrame 的节点信息创建一个图形，然后添加（附加）来自其他 DataFrame 的边？ 如果是这样并且由于 nx.from_pandas_dataframe() 需要有关边缘的信息，我想我不应该使用它来创建节点......我应该将信息作为列表传递吗？
我是否应该仅使用来自 DataFrame 的边信息创建图形，然后将来自其他 DataFrame 的信息作为属性添加到每个节点？ 有没有比迭代 DataFrame 和节点更好的方法呢？

Answer 1

使用nx.from_pandas_dataframe从边表创建加权图：

import networkx as nx
import pandas as pd

edges = pd.DataFrame({'source' : [0, 1],
                      'target' : [1, 2],
                      'weight' : [100, 50]})

nodes = pd.DataFrame({'node' : [0, 1, 2],
                      'name' : ['Foo', 'Bar', 'Baz'],
                      'gender' : ['M', 'F', 'M']})

G = nx.from_pandas_dataframe(edges, 'source', 'target', 'weight')

然后使用set_node_attributes从字典中添加节点属性：

nx.set_node_attributes(G, 'name', pd.Series(nodes.name, index=nodes.node).to_dict())
nx.set_node_attributes(G, 'gender', pd.Series(nodes.gender, index=nodes.node).to_dict())

或者遍历图以添加节点属性：

for i in sorted(G.nodes()):
    G.node[i]['name'] = nodes.name[i]
    G.node[i]['gender'] = nodes.gender[i]

更新：

从nx 2.0 ， nx.set_node_attributes的参数顺序已更改： (G, values, name=None)

使用上面的例子：

nx.set_node_attributes(G, pd.Series(nodes.gender, index=nodes.node).to_dict(), 'gender')

并作为nx 2.4 ， G.node[] 被替换G.nodes[]

Answer 2

这基本上是相同的答案，但更新了一些细节。我们将从基本相同的设置开始，但这里不会有节点的索引，只有名称来解决@LancelotHolmes 评论并使其更通用：

import networkx as nx
import pandas as pd

linkData = pd.DataFrame({'source' : ['Amy', 'Bob'],
                  'target' : ['Bob', 'Cindy'],
                  'weight' : [100, 50]})

nodeData = pd.DataFrame({'name' : ['Amy', 'Bob', 'Cindy'],
                  'type' : ['Foo', 'Bar', 'Baz'],
                  'gender' : ['M', 'F', 'M']})

G = nx.from_pandas_edgelist(linkData, 'source', 'target', True, nx.DiGraph())

这里的True参数告诉 NetworkX 将 linkData 中的所有属性保留为链接属性。 在这种情况下，我将其DiGraph类型，但如果您不需要它，那么您可以以明显的方式将其DiGraph另一种类型。

现在，由于您需要通过从 linkData 生成的节点的名称来匹配 nodeData，您需要将 nodeData 数据帧的索引设置为name属性，然后将其设置为字典以便 NetworkX 2.x 可以加载它作为节点属性。

nx.set_node_attributes(G, nodeData.set_index('name').to_dict('index'))

这将整个 nodeData 数据帧加载到字典中，其中键是名称，其他属性是该键内的键：值对（即，节点索引是其名称的普通节点属性）。

Answer 3

一个小说明：

from_pandas_dataframe 在 nx 2 中不起作用，指的是这个

G = nx.from_pandas_dataframe(edges, 'source', 'target', 'weight')

我认为在 nx 2.0 中它是这样的：

G = nx.from_pandas_edgelist(edges, source = "Source", target = "Target")

将具有属性和边的节点从 DataFrame 加载到 NetworkX

问题描述

3 个解决方案

解决方案1
31 已采纳 2017-03-02 14:50:35

更新：

解决方案2
7 2019-01-15 09:17:18

解决方案3
6 2018-12-06 11:48:26

将具有属性和边的节点从 DataFrame 加载到 NetworkX

问题描述

3 个解决方案

解决方案1 31 已采纳 2017-03-02 14:50:35

更新：

解决方案2 7 2019-01-15 09:17:18

解决方案3 6 2018-12-06 11:48:26

解决方案1
31 已采纳 2017-03-02 14:50:35

解决方案2
7 2019-01-15 09:17:18

解决方案3
6 2018-12-06 11:48:26