簡體   English   中英

如何使用Jsoup和/或正則表達式Java從URL刪除html標簽

[英]how to remove html tags from URL using Jsoup and/or regular expressions Java

我需要使用Java中的Jsoup和/或正則表達式從網址中刪除HTML標簽。 到目前為止,我已經嘗試了一些方法,使用javax.swing.text.html.HTMLEditorKit甚至Jsoup,但是我不能交換導入的java.io.FileReader。 導入java.io.InputStreamReader; 導入java.net.URL; 並使其成功運行。

我還可以做些什么?

這是我嘗試過的代碼**

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.URL;
import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import org.jsoup.Jsoup;

public class WebTest {
  private WebTest() {}

  public static String extractText(Reader reader) throws IOException {
    StringBuilder sb = new StringBuilder();
    BufferedReader br = new BufferedReader(reader);
    String line;
    while ((line = br.readLine()) != null) {
      sb.append(line);
    }
    String textOnly = Jsoup.parse(sb.toString()).text();
    return textOnly;
  }




public static void main(String[] args) throws Exception {



  String filename = "/Users//Desktop/file4.csv";
  String urltodownload = "http://www.amazon.com";



  URL url = new URL(urltodownload);

  BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));

  BufferedWriter bw = new BufferedWriter(new FileWriter(new File(filename)));

  String document = "";

  while (br.ready()) {

    String line = br.readLine();
    document += line + "\n";
    System.out.println( line );
  }  bw.close();

        String file = "/Users/Desktop/file4.csv";
        FileReader reader = new FileReader(file);
        System.out.println(WebTest.extractText(reader));
      }


}

使用Jsoup

public static String htmlremoved(String html) {
    return Jsoup.parse(html).text();
}

使用正則表達式String nohtml = YourUrlString.toString().replaceAll("\\\\<.*?>","");

好的,謝謝大家的貢獻。 我所做的似乎解決了我的問題,這就是這個。 添加Jsoup.parse(String).text(); String line = br.readLine()的打印命令,例如System.out.println( Jsoup.parse(line).text()); 然后這段代碼將HTML標記刪除。 當然,首先您必須聲明方法public static String htmlremoved(String html) { return Jsoup.parse(html).text(); } public static String htmlremoved(String html) { return Jsoup.parse(html).text(); } 您還可以添加Jsoup.parse(String).text(); 代碼到bw.write

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM