簡體   English   中英

如何在rdf4j中解析一個大的rdf文件

[英]How to parse a big rdf file in rdf4j

我想使用以下代碼解析 RDF4J 中的一個大文件,但由於解析器限制,我得到了一個異常;

public class ConvertOntology {

    public static void main(String[] args) throws RDFParseException, RDFHandlerException, IOException {

        String file =  "swetodblp_april_2008.rdf";
        File initialFile = new File(file);
        InputStream input = new FileInputStream(initialFile);
        RDFParser parser = Rio.createParser(RDFFormat.RDFXML);
        parser.setPreserveBNodeIDs(true); 
        Model model = new LinkedHashModel();
        parser.setRDFHandler(new StatementCollector(model));
        parser.parse(input, initialFile.getAbsolutePath());
        FileOutputStream out = new FileOutputStream("swetodblp_april_2008.nt");
            RDFWriter writer = Rio.createWriter(RDFFormat.TURTLE, out);
        try {
          writer.startRDF();
          for (Statement st: model) {
                    writer.handleStatement(st);
          }
          writer.endRDF();
        }
        catch (RDFHandlerException e) {
        }
        finally {
          out.close();
        }

    }

解析器在本文檔中遇到了超過“100,000”個實體擴展; 這是應用程序施加的限制。

我按照 RDF4J 網站上的建議執行我的代碼以設置兩個參數(如以下命令中所示)

mvn -Djdk.xml.totalEntitySizeLimit=0 -DentityExpansionLimit=0 exec:java

任何幫助請

該錯誤是由於 Apache Xerces XML 解析器,而不是默認的 JDK XML 解析器造成的。 因此,只需從您的 .m2 存儲庫中刪除 Xerces XML 文件夾,代碼就可以正常工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM