如何僅從根元素中提取文本內容 - java, com.gargoylesoftware.htmlunit.html

Question

我找不到任何使用com.gargoylesoftware.htmlunit.html 僅從根元素提取文本內容的方法。 下面是一些例子：

<td>
  W 03:10 PM-04:25 PM
  <strong>
     <br>
     Hybrid (50%+ in-person)
  </strong>
</td>

我想從根元素中提取文本內容（在這種情況下為“td”），但它也從子元素中提取文本內容，這是我不想要的部分：

private void extractTextContent(HtmlElement htmlElement) {
    String content = htmlElement.getTextContent();
    System.out.println(content);
}

輸出：

W 03:10 PM-04:25 PMHybrid (50%+ in-person)

所需的輸出：

W 03:10 PM-04:25 PM

我嘗試使用其他方法調用“asText()”，但這並沒有給我想要的輸出。 我找不到任何使用com.gargoylesoftware.htmlunit.html有相同問題的人。 有什么方法/方法可以僅從根元素中提取文本內容嗎？

編輯：謝謝你的回答。 我使用相同的刪除子節點的想法來獲得我想要的輸出。 這是java的語法：

private void extractTextContent(HtmlElement htmlElement) {
    DomNode child = htmlElement.getLastElementChild();
    String tagname = "";
    if(child != null) {
        tagname = child.getTextContent();
        htmlElement.removeChild(tagname, 0);
    }
    String content = htmlElement.getTextContent();
}

Answer 1

您可以在獲取 textContent 之前嘗試刪除子節點。

private void extractTextContent(HtmlElement htmlElement) {
    DomNode child = htmlElement.getLastElementChild();
    String tagname = "";
    if(child != null) {
        tagname = child.getTextContent();
        htmlElement.removeChild(tagname, 0);
    }
    String content = htmlElement.getTextContent();
}

我用@XYZ 提供的 Java 語法編輯了我的答案

如何僅從根元素中提取文本內容 - java, com.gargoylesoftware.htmlunit.html

問題描述

1 個解決方案

解決方案1
1 已采納 2020-03-26 07:52:14

如何僅從根元素中提取文本內容 - java, com.gargoylesoftware.htmlunit.html

問題描述

1 個解決方案

解決方案1 1 已采納 2020-03-26 07:52:14

解決方案1
1 已采納 2020-03-26 07:52:14