标签[cyberneko] - 堆栈内存溢出

我目前正在尝试使用HTMLunit制作网络抓取程序。但是，当我运行它时，我收到此错误我已经尝试遵循此解决方案。使用HtmlUnit时，如何配置基础NekoHtml解析器？但是，我仍然收到相同的问题。这是我当前的程序，我将网站连接到我的程序在我的主要 ...

我将项目从Eclipse迁移到Android Studio。应用程序可以正常编译，但与nekohtml库有关的崩溃。内在HTMLEntities类流始终为null。我试图将文件移动到与类相同的文件夹中，并给出了这样的完整路径有任何想法吗？ ...

我正在尝试从HTML创建有效的HTML文档但是，输出将使用大写形式的所有标签名称，例如。 HTML / BODY如何阻止大写标签。 ...

我想要输出我的HTML在哪里：但是我的输出是如何告诉xmlSluper接受代码而不是内容？ ...

我正在使用HtmlUnit来尝试抓取网页，因为它支持Javascript。（我宁愿使用Jsoup，但没有JS支持）。该问题涉及底层NekoHtml解析器的一个特性：“ http://cyberneko.org/html/features/scanner/allow-selfclosi ...

我正在使用NekoHTML清理一些HTML，然后将其提供给XOM以获取对象模型。在此过程中的某个地方，评论被转义了。这是输入HTML的相关示例（为清晰起见，大多数<head>剪切）：这是代码：这是相应的输出：当我从XOM文档中提取脚本元素时， ...

我正在使用带有xerces 2.11.0版本的NekoHTML框架来解析HTML文档。但是我有这个简单的代码问题：现在，我将多次打印的结果放在这里： org.cyberneko.html.parsers.DOMParser类真正 http://www.c ...

我有htmlcontent包含大于和小于符号。但是这些符号未编码为＆lt; 和＆gt;。为了平衡内容中的标记，我通过Cyberneko html解析器传递内容。解析内容之后，大于和小于符号的内容将被舍弃。为了克服这个问题，我必须在cyberneko html解析器中设置哪些 ...

我正在使用cyberneko清理和处理html文档。我需要能够处理原始html文档中出现的所有注释。我已经配置了cyberneko sax解析器来处理如下注释： ...使用与DOM事件相同的使用者。我收到每个评论的回调：我的问题是，所有注释都首先在DO ...

我目前正在使用CyberNeko，试图从网站上获取我想要的信息。但是，我相信该网站会检查用户代理/浏览器版本，以防止仅获取URL内容。我知道使用htmlunit更改浏览器版本，但是不确定是否可以使用CyberNeko进行此操作。有谁知道这样做的可能性吗？ ...

有谁知道是否有一种直接的方法来序列化已解析的cyberneko ElementNSImpl对象？这是我在Clojure中的示例，该示例序列化整个DOM（HTMLDocumentImpl对象）。这行得通，但是我还没有弄清楚如何为dom（ElementNSImpl）中的元素执行此操作。 ...

亲爱的所有人，我正在尝试解析以下HTML片段，并且我希望获得与输出相同的片段（没有HTML和BODY标记）。这可能吗？如果是这样，怎么样？谢谢米莎 ps我在这里阅读： http : //nekohtml.sourceforge.net/faq.html#fragments ...

我正在使用cyberneko和xerces清理HTML。但是，某些$＃@@！@@网站仍同时使用那么这是怎么回事： neko将以上所有行作为脚本进行解析，所以我得到了然后我丢失了所有内部内容:( 有什么建议吗？ ...

我需要一个来自html网站的特定“ div”标签（由“ id”标识）。为了解析页面，我正在使用cyberneko。到目前为止没有问题，但是最后我不需要XML，而是整个'div'标签的原始内容。不幸的是我不知道该怎么做... ...