從html獲取原始文本

Question

我在Android開發的基本水平上。

我想從“http://www.google.com”等頁面獲取文字。 （我將使用的頁面只有文本，所以沒有圖片或類似的東西）所以，要明確：我想在頁面上寫入文本等等我的應用程序中的字符串。

我嘗試了這段代碼，但我甚至不確定它是否符合我的要求。

URL url = new URL(/*"http://www.google.com");
URLConnection connection = url.openConnection();
// Get the response     
BufferedReader rd = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String line = "";

無論如何，我無法從中得到任何文字。 我該怎么做？

Answer 1

從您提供的示例代碼中，您甚至沒有從請求中讀取響應。 我會用以下代碼獲取html

URL u = new URL("http://www.google.com");
URLConnection conn = u.openConnection();
BufferedReader in = new BufferedReader(
                        new InputStreamReader(
                            conn.getInputStream()));
StringBuffer buffer = new StringBuffer();
String inputLine;
while ((inputLine = in.readLine()) != null) 
    buffer.append(inputLine);
in.close();
System.out.println(buffer.toString());

從那里你需要將字符串傳遞給某種html解析器，如果你只想要文本。 從我所聽到的， JTidy將是一個很好的庫，但我從來沒有使用過任何Java html解析庫。

Answer 2

您想從HTML文件中提取文本嗎？ 您可以使用專門的工具，例如Jericho HTML解析器庫。 我不確定它是否可以直接在Android應用程序中使用，它非常大，但它是開源的，因此您可以利用其代碼並僅采取您的任務所需的內容。

Answer 3

這是一種方式：

public String scrape(String urlString) throws Exception {
   URL url = new URL(urlString);
   URLConnection connection = url.openConnection();
   BufferedReader reader = new BufferedReader(new InputStreamReader(
         connection.getInputStream()));
   String line = null, data = "";

   while ((line = reader.readLine()) != null) {
      data += line + "\n";
   }

   return data;
}

這是另一個。

從html獲取原始文本

問題描述

3 個解決方案

解決方案1
1 已采納 2012-02-28 21:20:13

解決方案2
1 2012-02-28 21:24:46

解決方案3
0 2012-02-28 21:22:00

從html獲取原始文本

問題描述

3 個解決方案

解決方案1 1 已采納 2012-02-28 21:20:13

解決方案2 1 2012-02-28 21:24:46

解決方案3 0 2012-02-28 21:22:00

解決方案1
1 已采納 2012-02-28 21:20:13

解決方案2
1 2012-02-28 21:24:46

解決方案3
0 2012-02-28 21:22:00