一、前言
之前看到有博主推荐Easyspider工具,可用来进行可视化爬虫提取数据,想到自己平常有时需要提取一些页面数据,顺手一个收藏,等有时间的时候,开箱测试了下,果然好使,之前没这个工具,遇到不能下载的页面数据,还忙活半天研究使用python,自己学习写脚本提取数据。有了这个工具,瞬间自己之前搞的小工具是一点不香了~。所以还是要多学习,多借鉴,多使用各种工具,才能更好的解放生产劳动力。
二、基本介绍
可视化爬虫软件:EasySpider 30.4k⭐
OpenGithub社区:https://open.itc.cn/
Github : https://github.com/OpenGithubs
它是一个可视化爬虫软件,提供了图形化界面,使用户可以轻松设计和执行爬虫任务,无需编写复杂的代码。EasySpider提供了简单易用的工具,帮助用户快速爬取所需的数据,并支持数据的定制和导出,适用于各种爬虫应用和数据采集需求。
github地址:https://github.com/NaiboWang/EasySpider
B站视频地址:可视化爬虫易采集EasySpider:一个无需写代码,可视化的几分钟设计一个爬虫的开源免费软件_哔哩哔哩_bilibili
三、简单使用测试
1、下载安装
下载易采集/Download EasySpider
进入 Releases Page 下载最新版本。如果下载速度慢,可以考虑中国境内下载地址:中国境内下载地址。
Refer to the Releases Page to download the latest version of EasySpider.
2、解压使用
下载的压缩包直接解压后免安装使用。
3、程序运行
4、测试案例-全国百强大学名单信息提取
1)开始
点击【设计/修改任务】,先编制作业模板。
2)选择设计模式
根据使用场景,选择浏览器设计模式。如网站不需要登陆选【纯净版浏览器设计】,需要登陆则选择【带用户信息浏览器设计】。这里选择纯净版浏览器设计
3)进入到任务列表后,点击创建新任务
4)输入网址并开始设计
5)设计采集步骤
如果提取的页面没有翻页操作,可以保存当前的设计流程,提取的数据字段名可以根据需要进行自定义修改。
保存的任务也可以根据需要自定义部分参数。
6)任务执行
任务执行过程中,会调用打卡浏览器及执行窗口,如下图所示,有执行完成提示后,即可关闭窗口,到程序目录的data子目录中可看到提取的数据结果。
7)结果展示