标签[go-colly] - 堆栈内存溢出

For循环使我的程序完全低效 - For loop making my program completely inefficient

使用我当前的代码，它会打印所有 URL，然后进行抓取，因此如果我想抓取所有 109 页，我将不得不等待几分钟让 URL 打印出来，然后它才会开始抓取。对于计数：= 0；计数 < 3； count++ { // 页数在此示例中，我将页数更改为仅 go 到 3。然后它会打印 3 个网址，一 ...

在同一行打印 2 条语句 - Printing 2 statements on the same line

我已经成功地制作了一个抓取器，可以抓取 eBay 上 iPhone 部分的所有 109 页。问题是我需要它们在同一行上打印。这是它目前的样子甚至无法浏览这些信息。有人可以告诉我如何在同一行上获得标题和价格吗？我考虑过重命名该元素，但没有成功。我会使用 printf 或 println，但 ...

Colly - 如何获取子属性的值？ - Colly - How to get the value of a child attribute?

这是我一直在处理的示例页面https://www.lazada.vn/-i1701980654-s7563711492.html 这是我要获取的元素（产品标题）我想获取<h1>元素之间的文本值是Yierku 【Free Shipping Miễn phí vận chuyển】Già ...

StackOverflow 的最大速率限制 - Max Rate limit of StackOverflow

我一直在尝试以每秒 30 个请求的数量访问 StackOverflow，但它不起作用。几秒后就被屏蔽了。虽然 StackOverflow 的文档说 StackExchange 的 max rate limit 是 30 req /s。我以前访问的库是 gocolly 这是我的代码：我希望有一 ...

使用 cookies 发送获取请求 - Sending get request with cookies

我到处寻找这个问题的答案，但我能找到的都是大相径庭和复杂的答案。在 python 中，它就像 requests.get("url",cookies=cookies) 一样简单 ...

Web 使用 Golang Colly 报废，如何处理 XML 找不到路径？ - Web scrapping using Golang Colly, How to handle XML path not found?

我正在使用 Colly 来删除电子商务网站。我将遍历许多产品。这是我获得副标题的代码片段但是，并非所有产品都有副标题，因此上述XML路径并不适用于所有情况。当我到达没有副标题的产品时，我的代码崩溃并返回错误panic: expression must evaluate to a node- ...

Go Colly 如何找到请求的元素？ - Go Colly how to find requested element?

我试图让特定的表使用 colly 循环遍历其内容，但表未被识别，这是我目前所拥有的。package main import ( "fmt" "github.com/gocolly/colly" ) func main() { c := colly.NewCol ...

如何将 url 的开头添加到 colly 链接列表 - How to add the start of a url to a colly link list

我对 go 有点陌生，正在尝试使用 colly 抓取多个网页。其中两个页面有不完整的链接，下面是代码和output Output： [/CVE-2022-0031 /CVE-2022-42889 /PAN-SA-2022-0006 /CVE-2022-0030 /CVE-2022-0029 / ...

Golang colly 爬取报错 Too Many Requests - Golang colly crawling error Too Many Requests

我正在尝试从 Google 趋势中抓取一些信息。但是每次我尝试获取一些数据时，我都会收到错误太多的请求。其他网站没问题。我的代码：错误：这是一个错误。很抱歉，您最近向我们发送了太多请求。请稍后再试。我们知道的就这些。 ...

从 web 网站 go-colly 抓取说明 - Scrape discription from web site go-colly

我尝试从网站img中抓取描述，但我不明白如何到达那里我的尝试 ...

用 colly 迭代 HTMLElement 属性？ - Iterate over HTMLElement attributes with colly?

如 HTML 结构中所示，属性是私有属性：// HTMLElement is the representation of a HTML tag. type HTMLElement struct { // Name is the name of the tag Name ...

如何使用 go-colly 抓取 TLS 证书？ - How do I scrape TLS certificates using go-colly?

我正在使用Colly抓取一个网站，并且我也在尝试获取该网站在 TLS 握手期间呈现的 TLS 证书。我查看了文档和响应对象，但没有找到我要找的东西。根据文档，我可以通过更改默认的 HTTP roundtripper来自定义一些 http 选项。我尝试设置自定义 GetCertificate ...

在 Go 中抓取网站时没有响应 - No responses while scraping website in Go

我正在尝试使用 Go 和 Colly 来获取有关 Zillow 上某些列表的一些详细信息。这是我正在使用的脚本： package main import ( "encoding/csv" "log" "os" "time" "github.com/gocolly/colly" "g ...

Go Colly 并行性减少了被抓取的链接数量 - Go Colly parallelism decreases the number of links scraped

我正在尝试构建一个 web 抓取器以从 internshala.com 抓取工作。我正在使用 go colly 构建 web 刮板。我访问每个页面，然后访问每个作业的后续链接以从中抓取数据。以顺序方式执行此操作会刮掉几乎所有链接，但如果我尝试使用 colly 的并行刮擦来执行此操作，则刮掉的链 ...

使用 go-colly 解析 HTML 和 function 返回一个空切片 - Parsing HTML with go-colly and function returns an empty slice

我正在使用 colly 框架解析 web 站点，但出现了错误。我有一个非常基本的 function getweeks()来获取和返回一些东西，但我得到的是一个空切片。 ...

go-colly 库能做什么？ - What can the go-colly library do?

go-colly库能否爬取一个div标签下的所有HTML标签和文本内容？如果是这样，如何？我可以在 div 标签下获取所有文本。像这样：但我不知道如何在 div 标签下获取 HTML 标签。 ...

使用 go-colly scraper 解析嵌套元素 - Parsing nested elements using go-colly scraper

我正在使用go-colly从网页中抓取数据：我无法从这个嵌套的 HTML 元素中解析出 src 图像。这个.result-row适用于很多事情，比如：和如何获取嵌套图像src值？ ...

使用 Go Colly 获取属性值 - Getting attribute value with Go Colly

在“html”中使用 c.OnHTML 时，如何获取 #id-card-1 ID 中 href 属性的值？这是页面中HTML的那一块： ...

在 golang 中使用 colly 抓取一个简单的网站不返回任何数据 - Scraping a simple website with colly in golang does not return any data

我正在尝试抓取一个看起来像这样的简单网站：写了一个简单的go代码：当我运行这段代码时，我得到以下 output：所以一切都很好。该网站已成功打开，但我没有从中获取任何数据。我试图将c.OnHTML更改为pre ， body.pre - 但它们都没有像我预期的那样工作。我在这里错过了什么？ ...

Gocolly 只抓取某些链接 - Gocolly scraping only certain links

在抓取此链接时，在此处输入链接描述，我只想抓取库链接，但我编写的代码提取了所有链接，我无法过滤它。（我正在解析 url 供以后在 github api 中使用 http://api.github.com/repos/[用户名]/[reponame] ，所以我只需要路径部分，但我不想解析对我不起 ...