[英]Select div -class tag using Jsoup with Java
我想用Jsoup选择<div class="article_text">some long text </div>
。
String url = "computerworld.bg/45781_sofiya_teh_park_tryabva_da_bade_zavarshen_do_kraya_na_2015_g";
Document document = Jsoup.parse(new URL(url).openStream(), "ISO-8859-1", url);
Elements elements = document.select("div.article_text");
然后,我想遍历元素并获取theri文本。 但是没有选择div。 如果我只尝试使用div作为css选择器,则会显示正确的文本信息,但是还有另一个不合适的divs文本,因此我必须使用类名。
我哪里错了?
该文档显然表示还可以。
Element masthead = doc.select("div.masthead").first(); // div with class=masthead
因此,我认为_
引起了问题。 尝试使用div[class=article_text]
作为选择器,如果该方法不起作用,则使用div[class^=article]
(类以article开头),但是它可以选择比您想要的更多的内容。
更新
div.article_text
可在在线Jsoup测试器( http://try.jsoup.org/ )上使用您代码中的网址进行工作。 也许问题在于您如何获取文档。 本示例使用Jsoup.connect()
Document doc = Jsoup.connect("http://www.computerworld.bg/45781_sofiya_teh_park_tryabva_da_bade_zavarshen_do_kraya_na_2015_g").get();
更新2
事实证明,这个特定的url根据用户代理返回不同的内容(未设置用户代理,该div上不存在article_text
),因此只需将userAgent
设置为Mozilla
。
Jsoup.connect("http://www.computerworld.bg/45781_sofiya_teh_park_tryabva_da_bade_zavarshen_do_kraya_na_2015_g").userAgent("Mozilla").get();
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.