Lazy loaded image
基于nodejs做的网页爬虫小项目
字数 458阅读时长 2 分钟
2018-8-14
2025-4-4
type
status
date
slug
summary
tags
category
icon
password
上次编辑时间
Apr 4, 2025 02:52 PM
最近看了慕课网的Nodejs课程,跟着做了一个基于nodejs开发的网页爬虫爬了我自己的博客文章列表,感觉挺有趣的,记录一下。
最终完成的效果如下:
notion image

主要步骤

先选择几个目录,根据目录链接,获取每个目录页面的HTML内容

处理HTML获取需要的内容

这里使用到了cheerio这个库,使用方法几乎和jQuery一样

当所有目录都遍历完成后,获取他们的resolve结果,并打印出来

总结

如果需要爬取的链接很多,可以先通过cheerio把目录列表中的目录内容获取到,分析其链接并保存 以上就是这个nodejs爬虫小项目的结构了,完整代码可以查看我的Github仓库
上一篇
Node.js在控制台彩色输出的方法及原理
下一篇
Less带多个参数的混合

评论
Loading...