簡體   English   中英

使用JAVA將.docx轉換為HTML

[英]Convert .docx to HTML using JAVA

我嘗試使用WordToHtmlConverter將.doc轉換為HTML,它運行得很好。

但是當我試圖將.docx轉換為HTML時,我就陷入了困境。

我嘗試了什么:

我使用下面的代碼將.docx轉換為HTML:

我試過的代碼: 如何使用Tika的XWPFWordExtractorDecorator類?

        InputStream input = TikaInputStream.get(new File("C:\\Users\\Downloads\\filename.docx"));


        Parser parser = new AutoDetectParser();


        StringWriter sw = new StringWriter();
        SAXTransformerFactory factory = (SAXTransformerFactory)
                 SAXTransformerFactory.newInstance();
        TransformerHandler handler = factory.newTransformerHandler();
        handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
        handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
        handler.setResult(new StreamResult(sw));


        try {
            Metadata metadata = new Metadata();
            parser.parse(input, handler, metadata, new ParseContext());
            String xml = sw.toString();
            System.out.print("tika : "+xml); 
        } finally {
            input.close();
        }

我得到的輸出是,

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title/>
</head>
<body/>
</html>
  • 請解釋我哪里出錯了?
  • 有沒有更好的方法將.docx轉換為html字符串

感謝您的幫助,謝謝

這段代碼對我有用,可以將.docx轉換為html:

您還可以查看鏈接: 代碼鏈接

       //convert .docx to HTML string
        InputStream in= new FileInputStream(new File(path));
        XWPFDocument document = new XWPFDocument(in);


        XHTMLOptions options = XHTMLOptions.create().URIResolver(new FileURIResolver(new File("word/media")));

        OutputStream out = new ByteArrayOutputStream();


        XHTMLConverter.getInstance().convert(document, out, options);
        String html=out.toString();
        System.out.println(html);

您可能希望將Mammoth docx用於HTML庫。它是一個用於顯示doc,docx文檔的庫,它可以在瀏覽器端轉換為html,也可以在后端處理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM