簡體   English   中英

如何知道Jsoup刪除哪個文本?

[英]How to know which text Jsoup remove?

我有以下文字:

text<html/>text

並使用Jsoup庫來清理html內容中的文本。 就像下面的代碼一樣:

Document clean = new Cleaner(none()).clean(myDirtyDoc);

我將為用戶記錄錯誤: Malisious content was specified: "<html/>". 但我不知道如何正確識別Jsoup干凈的線條。

我曾嘗試使用StringUtils.difference(cleaningValue,value),但此方法以另一種方式工作,即文檔說:

Compares two Strings, and returns the portion where they differ.
(More precisely, return the remainder of the second String,
starting from where it's different from the first.)

結果它返回如下字符串: <html/>text

很高興知道任何可以在java中用來比較字符串的diff工具。

谷歌的Diff-比賽補丁

Diff Match和Patch庫提供了強大的算法來執行同步純文本所需的操作。

差異:比較兩個純文本塊並有效地返回差異列表。

匹配:給定搜索字符串,在純文本塊中找到最佳模糊匹配。 為准確性和位置加權。

修補程序:將修補程序列表應用於純文本。 即使基礎文本不匹配,也要盡最大努力應用補丁。

目前提供Java,JavaScript,Dart,C ++,C#,Objective C,Lua和Python。 無論語言如何,每個庫都具有相同的API和相同的功能。 所有版本都有全面的測試工具。

有一個Line或word diffs wiki頁面,它描述了如何進行逐行差異。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM