簡體   English   中英

需要刮玻璃門公司評論

[英]Need to scrape glassdoor company reviews

當我從本地運行它時,我嘗試在所有圖書館中使用漂亮的湯、硒、機械湯和西班牙涼菜湯對 glassdoor 公司評論進行網絡抓取。 但是當我嘗試從我的 AWS ec2 實例運行相同的代碼時,我遇到了 403 forbidden 錯誤。 但是我的期望是從服務器運行代碼。 我有兩個 ec2 實例,一個是 linux,一個是 Windows,我面臨同樣的錯誤

嘗試此代碼片段返回403 forbidden錯誤:

import urllib.request

user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'

url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"

request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)

response = urllib.request.urlopen(request)

with open('Output_new.txt', 'w', encoding='utf-8') as f:
    print(response.read(), file=f)

運行此代碼時,我收到403嘗試添加更多標題

我也嘗試過使用西班牙涼菜湯庫的 get 方法

這里:

url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)

soup = Soup(html)
print(soup)

with open('Output.txt', 'w', encoding='utf-8') as f:
    print(soup, file=f)

在這里我也面臨同樣的錯誤。

我錯過了什么?

我發現 Matthew 創建的這個方法非常有幫助! 我不得不稍微調整一下才能讓它工作(你在 main.py 函數頂部鏈接到公司的登陸頁面,我用公司評論的登陸頁面替換了它)然后添加了一行在底部將我的結果保存為 CSV。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM