需要刮玻璃門公司評論

Question

當我從本地運行它時，我嘗試在所有圖書館中使用漂亮的湯、硒、機械湯和西班牙涼菜湯對 glassdoor 公司評論進行網絡抓取。 但是當我嘗試從我的 AWS ec2 實例運行相同的代碼時，我遇到了 403 forbidden 錯誤。 但是我的期望是從服務器運行代碼。 我有兩個 ec2 實例，一個是 linux，一個是 Windows，我面臨同樣的錯誤

嘗試此代碼片段返回403 forbidden錯誤：

import urllib.request

user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'

url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"

request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)

response = urllib.request.urlopen(request)

with open('Output_new.txt', 'w', encoding='utf-8') as f:
    print(response.read(), file=f)

運行此代碼時，我收到403嘗試添加更多標題

我也嘗試過使用西班牙涼菜湯庫的 get 方法

這里：

url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)

soup = Soup(html)
print(soup)

with open('Output.txt', 'w', encoding='utf-8') as f:
    print(soup, file=f)

在這里我也面臨同樣的錯誤。

我錯過了什么？

Answer 1

我發現 Matthew 創建的這個方法非常有幫助！ 我不得不稍微調整一下才能讓它工作（你在 main.py 函數頂部鏈接到公司的登陸頁面，我用公司評論的登陸頁面替換了它）然后添加了一行在底部將我的結果保存為 CSV。

需要刮玻璃門公司評論

問題描述

1 個解決方案

解決方案1
0 2020-11-21 14:34:12

需要刮玻璃門公司評論

問題描述

1 個解決方案

解決方案1 0 2020-11-21 14:34:12

解決方案1
0 2020-11-21 14:34:12