1.网络爬虫进阶(二)更加现代的验证s验源码无头浏览器 puppeteer 安装与使用
网络爬虫进阶(二)更加现代的无头浏览器 puppeteer 安装与使用
在先前的文章里,我们讨论了无头浏览器 phantom 的码源码使用,它能模拟浏览器行为,证码并能解析 CSR 网站。下载飞龙寻宝源码然而,验证s验源码phantom 在处理某些复杂情况时存在不足,码源码例如对我的证码个人网站 kirigaya.cn 中的某些文章,它就无法正确渲染。下载由于历史原因,验证s验源码google 已停止维护 phantom,码源码转而开发了 puppeteer。证码windows钢琴源码
puppeteer 是下载一个基于 nodejs 的无头浏览器,完全支持 ES6 特性。验证s验源码与 phantom 不同,码源码puppeteer 可以嵌入到其他项目中,证码与 chrome 内核和 js 接口层紧密结合,asp源码 Excel使用起来更为方便。puppeteer 的官方文档在 puppeteer.bootcss.com/a...。
安装 puppeteer 非常简单,只需在当前 nodejs 项目中安装即可。由于许多部署场景下没有浏览器内核,wap魔界源码安装 puppeteer 会附带一个 chrome 内核。作为一个 nodejs 库,puppeteer 在 vscode 中提供了自动补全功能,使得使用更为便捷。
接下来,交互 网站 源码我们尝试使用 puppeteer 爬取一个简单页面。静态页面爬取虽然简单,但我们可以尝试爬取我的网站 kirigaya.cn。使用 phantom 进行爬取时,会遇到一些问题,但 puppeteer 则可以很好地处理。运行后,输出的结果和生成的截图都相当完美。
此外,我们还可以使用 puppeteer 爬取知乎上的,甚至爬取 B 站视频的截图并停留在 :。这说明,puppeteer 在爬虫领域具有强大的功能。
需要注意的是,基于 puppeteer 的爬虫技术,网站登录验证码和一些奇怪的验证方式变得更容易被破解。如果对此感兴趣,欢迎在评论区留言。如果这篇文章受到好评,我可能会撰写一篇关于使用计算机视觉技术破解登录验证的文章。