![](/img/trans.png)
[英]Need to scrape glassdoor company reviews from aws server (windows or linux)
[英]Need to scrape glassdoor company reviews
當我從本地運行它時,我嘗試在所有圖書館中使用漂亮的湯、硒、機械湯和西班牙涼菜湯對 glassdoor 公司評論進行網絡抓取。 但是當我嘗試從我的 AWS ec2 實例運行相同的代碼時,我遇到了 403 forbidden 錯誤。 但是我的期望是從服務器運行代碼。 我有兩個 ec2 實例,一個是 linux,一個是 Windows,我面臨同樣的錯誤
嘗試此代碼片段返回403 forbidden
錯誤:
import urllib.request
user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'
url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"
request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(request)
with open('Output_new.txt', 'w', encoding='utf-8') as f:
print(response.read(), file=f)
運行此代碼時,我收到403
嘗試添加更多標題
我也嘗試過使用西班牙涼菜湯庫的 get 方法
這里:
url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)
soup = Soup(html)
print(soup)
with open('Output.txt', 'w', encoding='utf-8') as f:
print(soup, file=f)
在這里我也面臨同樣的錯誤。
我錯過了什么?
我發現 Matthew 創建的這個方法非常有幫助! 我不得不稍微調整一下才能讓它工作(你在 main.py 函數頂部鏈接到公司的登陸頁面,我用公司評論的登陸頁面替換了它)然后添加了一行在底部將我的結果保存為 CSV。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.