如何使用JSOUP解析包含html的文件？

Question

我有包含HTML的文件，並且嘗試解析該文件，然后標記正文文本。 我是通過以下方式實現的：

docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());

上面的代碼可以正常工作，但是問題是出現在html標記之外且沒有任何標記的TEXT也被打印為body標記的一部分。 我需要找到一種方法來阻止讀取HTML標記之外的此文本。幫助這是一個對時間敏感的問題！

Answer 1

您可以選擇和刪除文檔中不需要的元素。

 doc.select("body > :matchText").remove();

上面的語句將刪除所有text-node，它們是body-element的直接子代。 ：matchText選擇器是一個相當新的選擇，因此請確保使用某種最新版本的JSoup（1.11.3肯定有效，但1.10.2無效）。