繁体   English   中英

Python JSON API用于带有平面文件的链接数据

[英]Python JSON API for linked data, with flat files

我们正在创建gamma-cat (伽马射线天文学的开放数据收集),并正在寻求有关如何进行最佳设置的建议(在此处,或指向资源,格式,工具,包的链接)。

我们拥有的数据包括来自不同论文的不同来源的度量。 这是非常不同的,有时在一篇论文中有多个来源的数据,每个来源通常有几篇论文,有时没有频谱,有时一个,有时很多,...

当前,我们仅将数据作为YAML和CSV文件收集在input文件夹中,现在我们希望将其公开给用户。 主要从Python访问,也从Javascript访问,并且可以从静态网站访问。

问题是我们应该使用哪种格式和组织数据,以及是否有任何Python软件包可以帮助我们将output文件生成为一组链接数据,以及Python和Javascript软件包可以帮助我们访问数据?

我们希望获得数据的多个“视图”或简单的“查询”,例如“所有来源列表”,“所有论文列表”,“来源X的所有光谱列表”,“论文B的光谱A”源C”。

对于格式,JSON可能是一个不错的选择? 尽管YAML读起来更好一些,但也可以有注释和有序的地图。 我们将输出文件存储在git仓库中,并且JSON文件存在很多毫无意义的差异,因为密钥顺序一直在变化。

为了使数据集可发现和链接,我不知道该使用什么。 我发现了例如http://jsonapi.org/,但这似乎是针对REST API的,而不仅仅是静态Web服务器上的一系列平面JSON文件? 也许仍然可以那样使用? 我还发现http://json-ld.org/看起来很相关,但是也很复杂。 这些或别的什么都是好选择吗?

最后,我们想使用Python脚本从input的一些有点组织化的YAML和CSV文件生成output的链接的和可发现的文件。 到目前为止,我们仅基于Python字典/列表和YAML / JSON文件编写了一堆Python类或脚本。 是否有一个Python软件包可以帮助完成生成链接数据文件的任务?

对于冗长而复杂的问题,我们深表歉意! 我希望它仍适用于SO,并且有人可以分享一些建议。

从问题的广度来看,您不熟悉链接数据。 最不适合您的格式可能是数据包 在最常见的情况下,它只是CSV文件和JSON元数据的zip存档。 它有一个Python包

如果对数据有查询,则应使用SPARQL端点来建立数据库(三重存储)。 看看Fuseki 然后,您可以使用Turtle或RDF / XML进行文件导出。

如果数据来自某种工具,则可以使用Eclipse Lyo( 教程 )对它表示的域进行建模。

这些工具由3个不同的社区维护,如果您对它们还有其他疑问,可以分别与他们的用户邮件列表联系。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM