在未啟用javascript的網頁上使用機械化和漂亮的湯

Question

我正在嘗試抓取網頁，但這需要我先登錄。 我是網絡爬蟲的新手，所以請忍受我的代碼：

import urllib
import urllib2
from bs4 import BeautifulSoup
import mechanize

browser = mechanize.Browser()
browser.addheaders = [('User-agent', 'Mozilla/5.0')]
browser.set_handle_robots(False)
browser.open('https://mywebsite.com')
# browser.select_form(name = 'form2')
# browser.form['Account Name'] = 'username'
# browser.form['Password'] = 'mypassword'
# browser.submit()

soup = BeautifulSoup(browser.response().read())
print soup

但是我收到此錯誤：

<html><head><script language="javascript">
<!--.
    .
    .
</script>
<noscript>
<title>No JavaScript Error</title>
<body>
<h3 align="center">Your Browser does not support JavaScript, or it is disabled.<br/>To run this application, you must enable JavaScript!!</h3>
</body></noscript></head></html>

Answer 1

嘗試改用以下標頭，服務器可能無法識別標頭，因此可能導致它認為您沒有啟用javascript：

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36

注意：某些網站具有防刮擦保護，您必須解決javascript難題才能獲取實際內容。 您可以為此使用Js2Py或任何其他JavaScript運行時。 爬取這類網站要困難得多，但幸運的是，很少有網站使用此系統。

在未啟用javascript的網頁上使用機械化和漂亮的湯

問題描述

1 個解決方案

解決方案1
0 2015-08-17 22:31:05

在未啟用javascript的網頁上使用機械化和漂亮的湯

問題描述

1 個解決方案

解決方案1 0 2015-08-17 22:31:05

解決方案1
0 2015-08-17 22:31:05