Neo4j：使用py2neo從CSV文件創建關系確實很慢

Question

我試圖使用py2neo flight模型化將一個包含22列的CSV文件（25 Mb，15萬行）加載到neo4j圖中。

密碼查詢用於一種查詢中，它包含節點和節點之間的關系創建（機場，城市，航班和飛機）。 但是，在運行代碼時，即使使用PERIODIC COMMIT，也要花很多時間。

我不確定我編寫的密碼查詢是否經過優化，是否可能是速度慢的原因。 對於1萬行，花了我大約10分鍾的時間來建立圖表...有人可以幫我嗎？ 這是代碼：

def importFromCSVtoNeo(graph):
query = '''
    USING PERIODIC COMMIT 1000
    LOAD CSV WITH HEADERS FROM "file:///flights.csv" AS row FIELDTERMINATOR '\t' 
    WITH row 

    MERGE (c_departure:City {cityName: row.cityName_departure}) 
    MERGE (a_departure:Airport {airportName: row.airportName_departure}) 
    MERGE (f_segment1:Flight {airline: row.airline1}) 
    ON CREATE SET f_segment1.class = row.class1, 
                  f_segment1.outboundclassgroup = row.outboundclassgroup1 

    MERGE (a_departure)-[:IN]->(c_departure) 
    MERGE (c_departure)-[:HAS]->(a_departure) 
    MERGE (f_segment1)-[:FROM {departAt: row.outbounddeparttime}]->(a_departure) 

    MERGE (c_transfer:City {cityName: row.transferCityName}) 
    MERGE (a_transfer:Airport {airportName: row.airportName_transfer}) 
    MERGE (f_segment1)-[:TO_TRANSFER {transferArriveAt: row.transferArriveAt}]->(a_transfer) 
    MERGE (a_transfer)-[:IN]->(c_transfer) 
    MERGE (c_transfer)-[:HAS]->(a_transfer) 

    MERGE (c_arrival:City {cityName: row.cityName_arrival}) 
    MERGE (a_arrival:Airport {airportName: row.airportName_arrival}) 
    MERGE (f_segment2:Flight {airline: row.airline2}) 
    ON CREATE SET f_segment2.class = row.class2, 
                  f_segment2.outboundclassgroup = row.outboundclassgroup2 
    MERGE (f_segment2)-[:TO {arrivalAt: row.outboundarrivaltime}]->(a_arrival) 
    MERGE (f_segment2)-[:FROM_TRANSFER {transferDepartAt: row.transferDepartAt}]->(a_transfer) 
    MERGE (a_arrival)-[:IN]->(c_arrival) 
    MERGE (c_arrival)-[:HAS]->(a_arrival) 


    MERGE (p:Plane {saleprice: row.saleprice}) 
    ON CREATE SET p.depart = row.cityName_departure, 
                  p.destination = row.cityName_arrival, 
                  p.salechannel = row.salechannel, 
                  p.planeDuration = row.planeDuration 
    MERGE (p)-[:HAS_FLIGHTS]->(f_segment1) 
    MERGE (f_segment1)-[:WAIT_FOR {waitingTime: row.waitingTime}]->(f_segment2) 
    '''

graph.run(query)


if __name__ == '__main__':
    graph = Graph()
    importFromCSVtoNeo(graph)

我也嘗試過以批處理方式進行操作，但是性能並沒有得到改善……我將不勝感激。 謝謝！！

Answer 1

我將在啟動腳本之前在節點屬性上使用索引，以便在使用MERGE時讓neo4j使用它們進行快速查找（因為它必須逐行匹配節點）。 例如，對於第一個節點屬性，我將使用：

CREATE INDEX ON :City(cityname)

等等。 您可以直接在py2neo中將它們創建為單運行語句。

Neo4j：使用py2neo從CSV文件創建關系確實很慢

問題描述

1 個解決方案

解決方案1
1 2017-05-22 07:21:11

Neo4j：使用py2neo從CSV文件創建關系確實很慢

問題描述

1 個解決方案

解決方案1 1 2017-05-22 07:21:11

解決方案1
1 2017-05-22 07:21:11