如何防止Nokogiri編碼HTML片段中的實體

Question

Nokogiri 1.5.0

我無法輸出帶有查詢參數的鏈接的解析片段，特別是href中的＆符號。 ＆符號由其html實體替換。

f = Nokogiri::HTML.fragment(%q{<a href="http://example.com?this=1&that=2">Testing</a>})
f.to_s    # => "<a href=\"http://example.com?this=1&amp;that=2\">Testing</a>"
f.to_html # => "<a href=\"http://example.com?this=1&amp;that=2\">Testing</a>"

沒有幫助使用to_html(encoding: 'UTF-8')或US-ASCII。

這似乎很常見，解析有效的鏈接格式並希望將其呈現為有效的HTML。

如何使Nokogiri透明地返回未編碼的Html實體？ 沒有幫助。

Answer 1

Nokogiri的HTML解析器自動更正源文檔中的錯誤。 URL中的裸露＆符號實際上是一個錯誤，所以Nokogiri正在糾正它。 如果你看一下f.errors ，你可以看到它並不認為&that是一個有效的實體，缺少一個分號，所以它修復符號來& ，使其成為有效的HTML。

如何防止Nokogiri編碼HTML片段中的實體

問題描述

1 個解決方案

解決方案1
4 已采納 2012-03-01 17:44:42

如何防止Nokogiri編碼HTML片段中的實體

問題描述

1 個解決方案

解決方案1 4 已采納 2012-03-01 17:44:42

解決方案1
4 已采納 2012-03-01 17:44:42