繁体   English   中英

是否需要对爬虫进行测试?

[英]Testing for crawler is necessary or not?

爬虫工具有必要测试吗? 以何种方式?

我公司正在使用爬虫工具(通过API和GUI)为客户收集数据。 问题是有时目标网站的 GUI 有一些变化,导致爬虫出错或数据丢失。

现在老板想要确保每次发生变化时,他们都会立即知道(当然是通过 DevOps/CICD)。

但是,我不确定应该使用哪种方法进行测试。 领导要我做自动化测试,但是意味着我得做爬虫。。。还是自己一个人。 它只是做了两次工作。 单元测试?

也许吧,但这是必要的吗,因为如果你想提醒你错误,你可以在你的代码中做到这一点。

此外,据我所知,测试是关于获取标准样本数据集,该数据集的大小小于可行数据集。 但是当你测试爬虫时,你测试了它的所有数据,因为你有能力做到这一点,这意味着你只是做源代码所做的……再一次。

所以你怎么看?

根据您用于从 GUI 获取数据的方法,如果您期望的引用与您的代码不一致,则可能会失败。 例如,假设您使用 Selenium 来获取名为“any-class”的 class 的所有链接。 如果此 class 从 UI 中删除,无论出于何种原因,您的爬虫都将失败。 也许问题不在于工具本身,而在于爬虫获取数据的方式。 如果你知道获取数据的页面,你可以在正式执行之前在随机页面中执行定期完整性检查以发现错误。 您可以实施爬虫以继续运行错误并报告失败的步骤以供进一步分析。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM