簡體   English   中英

為什么一個簡單的網頁抓取代碼在 pycharm 上運行緩慢,但在 google colab 上運行速度很快?

[英]Why is a simple webscraping code running slow on pycharm but fast on google colab?

當我在 colab 上運行這段代碼時,它需要大約 13 秒,但是在 pycharm 中它需要 1-2 分鍾。 大家知道為什么嗎?

from google_play_scraper import app
import pandas as pd
import numpy as np
from google_play_scraper import Sort, reviews_all

us_reviews = reviews_all(
    'com.limeturtle.nexomon',
    sleep_milliseconds=0, # defaults to 0
    lang='en', # defaults to 'en'
    country='us', # defaults to 'us'
    sort=Sort.NEWEST, # defaults to Sort.MOST_RELEVANT
)

我正在抓取谷歌應用商店評論數據。 我選擇了一個隨機的應用程序。

原因可能是向 Play Store API 發出一個請求的時間。 例如:

curl -o /dev/null -s -w 'Total: %{time_total}s\n' --location --request POST 'https://play.google.com/_/PlayStoreUi/data/batchexecute?hl=en&gl=us' \                                                                   
--header 'Content-Type: application/x-www-form-urlencoded;charset=UTF-8' \
--data-raw 'f.req=%5B%5B%5B%22KT5WVe%22%2C%22%5B1%2Cnull%2Cnull%2C%5B0%5D%5D%22%2Cnull%2C%221%22%5D%5D%5D&'

在我的本地機器上需要大約 1.3 秒,而在 Colab 上僅需要大約 0.06 秒。 如果你有 50 頁,它可能會總結。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM