簡體   English   中英

Freebase:在Amazon上托管Freebase API

[英]Freebase: Hosting a Freebase API on Amazon

教程討論有關在Amazon上設置Freebase實例的信息。 當我按照此過程進行操作時,最終會遇到一個實例,該實例通過附加的EBS具有Freebase數據。 任何人都可以幫助我完成一個使用基礎數據來創建Freebase API的過程。

我假設就像可以在Virtuoso上托管Dbpedia一樣(其中Dbpedia作為API公開),應該有一種(假設)托管Freebase的方法。 我沒有找到討論相同內容的資源。 任何幫助將不勝感激!

謝謝

安吉特S

Virtuoso是一款軟件。 Freebase是一個開源數據庫/數據源,但是提供Freebase API的軟件不是開源的(或不可用),因此如果不重新實現該軟件,就無法在Amazon上托管Freebase API。

如果要使用數據,最直接的方法可能是使用圖形數據庫(例如Cayley或Neo4J)或RDF數據庫(例如Virtuoso)來使用數據,然后使用SPARQL或圖形數據庫API進行查詢。

我將freebase放入Solr / Lucene中。 它似乎工作得特別好。 克隆了對象字段並對其進行了標記,以進行良好的文本搜索。 保留其他層次結構以進行完全匹配。 將其分為8個核心。

我認為只有五種類型的三元語法可以解析。

# <><><///...>.
# <><><///#>.
# <><>"".
# <><>""@x.
# <><>""^^<>.

解析雙方的報價,以便您知道要處理的內容。 我將三元組限制為32K字節。 我將爐渣踢到gz文件中查看,如果格式發生更改,請重新添加。 我檢查它的格式是否正確。 加載耗時5天。 Solr使用Jetty,它很特別。 數據必須正確地轉義,否&,大約有20個三元組,其ascii 0、11 ..可能需要將其推入爐渣堆中。 多虧了Solr項目,這項工作進展順利。

關於解壓縮的說明。 我將其分為100個文件。 Java為此被破壞,Ruby也是如此。 您可以使用linux gunzip -c | 管道到您的腳本。 您可能無法將其包含在一個ruby或java程序中。 找不到原因。 在主機上khugepaged =不好。 200G的內存,使用16個CPU中的100%占用了5分鍾。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM