簡體   English   中英

如何使用JSOUP解析包含html的文件?

[英]How to parse a file containing html using JSOUP?

我有包含HTML的文件,並且嘗試解析該文件,然后標記正文文本。 我是通過以下方式實現的:

docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());

上面的代碼可以正常工作,但是問題是出現在html標記之外且沒有任何標記的TEXT也被打印為body標記的一部分。 我需要找到一種方法來阻止讀取HTML標記之外的此文本。幫助這是一個對時間敏感的問題!

您可以選擇和刪除文檔中不需要的元素。

 doc.select("body > :matchText").remove();

上面的語句將刪除所有text-node,它們是body-element的直接子代。 :matchText選擇器是一個相當新的選擇,因此請確保使用某種最新版本的JSoup(1.11.3肯定有效,但1.10.2無效)。

https://jsoup.org/cookbook/extracting-data/selector-syntax上找到有關選擇器語法的更多信息

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM