用Nokogiri解析帶有奇怪編碼的HTML

Question

我不能使用XPath，因為編碼變得很奇怪。 我希望你能幫助我擺脫困境。

require "Nokogiri"
require "open-uri"
link = "http://www.arla.dk/Services/SearchService.asmx/RecipeResult?q=allRecipe&paging=6&include=&exclude=&area=recipeSearch&languageBranch=da"
doc = Nokogiri::HTML(open(link))
doc.xpath("//h2")

xpath方法返回一個空數組。 看來該文檔未正確解析。 我認為這是由於要分析的文件包含編碼的字符：

&lt;strong&gt;Frokost til 8&lt;/strong&gt;
&lt;ul&gt;&lt;li class='ingHeading'&gt;&lt;strong&gt;&lt;b&gt;Flade

Answer 1

響應是XML，因此首先使用Nokogiri :: XML對其進行解析：

xml = Nokogiri::XML open(link)

然后第一個字符串包含一些HTML，以便使用Nokogiri :: HTML進行解析

doc = Nokogiri::HTML xml.at('string').text

現在您可以進行搜索：

doc.xpath '//h2'

Answer 2

如上所述，問題在於HTML已編碼，這就是為什么您看到轉義序列的原因。 例如， < 代替< 。 要解決此問題，請取消轉義HTML。

“ 我如何在Ruby中編碼/解碼HTML實體？基本上建議使用htmlentities 。

用Nokogiri解析帶有奇怪編碼的HTML

問題描述

2 個解決方案

解決方案1
1 已采納 2012-10-30 10:09:49

解決方案2
0 2012-10-30 10:00:46

用Nokogiri解析帶有奇怪編碼的HTML

問題描述

2 個解決方案

解決方案1 1 已采納 2012-10-30 10:09:49

解決方案2 0 2012-10-30 10:00:46

解決方案1
1 已采納 2012-10-30 10:09:49

解決方案2
0 2012-10-30 10:00:46