使用正则表达式从SPARQL查询中提取信息

Question

我很难创建一个从此SPARQL查询中提取名称空间的正则表达式：

SELECT * 
WHERE {
    ?Vehicle rdf:type umbel-sc:CompactCar ;
             skos:subject <http://dbpedia.org/resource/Category:Vehicles_with_CVT_transmission>;
             dbp-prop:assembly ?Place.
    ?Place geo-ont:parentFeature dbpedia:United_States .
}

我需要得到：

"rdf", "umbel-sc", "skos", "dbp-prop", "geo-ont", "dbpedia"

我需要这样的表达：

\\s+([^\\:]*):[^\\s]+

但以上方法无效，因为它在到达之前还会占用空间: 。 我究竟做错了什么？

Answer 1

我不知道SPARQL语法的详细信息，但我可以想象这不是一种正则语言，因此正则表达式将无法完美地做到这一点。 但是，如果您搜索的东西看起来像一个单词，并且左边被空格包围，右边被冒号包围，您会变得非常接近。

如果您的输入格式已知并且受到足够的限制，则此方法对于快速解决方案可能足够好。 有关更通用的解决方案，建议您寻找或为SPARQL语言创建合适的解析器。

话虽如此，请尝试以下操作：

string s = @"SELECT * 
WHERE {
    ?Vehicle rdf:type umbel-sc:CompactCar ;
    skos:subject <http://dbpedia.org/resource/Category:Vehicles_with_CVT_transmission>;
    dbp-prop:assembly ?Place.
    ?Place geo-ont:parentFeature dbpedia:United_States .
}";

foreach (Match match in Regex.Matches(s, @"\s([\w-]+):"))
{
    Console.WriteLine(match.Groups[1].Value);
}

结果：

rdf
umbel-sc
skos
dbp-prop
geo-ont
dbpedia

Answer 2

所以我需要一个这样的表达式：
 \\\\s+([^\\\\:]*):[^\\\\s]+ 
但是上述方法不起作用，因为它在到达“：”之前也会占用空间。

正则表达式会占用这些空间，是的，但是括号中捕获的组将不包含它。 那是问题吗？ 您可以通过读取Regex.Match返回的Match对象中的Groups[1].Value来访问该组。

如果您确实需要正则表达式不匹配这些空格，则可以使用所谓的后向断言 ：

(?<=\s)([^:]*):[^\s]+

顺便说一句，您不需要将所有的反斜杠加倍。 请使用逐字字符串 ，如下所示：

Regex.Match(input, @"(?<=\s)([^:]*):[^\s]+")

使用正则表达式从SPARQL查询中提取信息

问题描述

2 个解决方案

解决方案1
0 2010-08-17 13:42:54

解决方案2
0 2010-08-17 14:11:37

使用正则表达式从SPARQL查询中提取信息

问题描述

2 个解决方案

解决方案1 0 2010-08-17 13:42:54

解决方案2 0 2010-08-17 14:11:37

解决方案1
0 2010-08-17 13:42:54

解决方案2
0 2010-08-17 14:11:37