查看原文
其他

太骚了!GitHub上重磅开源爬虫工具箱,竟然可以爬小电影!

GG哥 GitHub爱好者社区 2022-11-28

点击上方“Github爱好者社区”,选择星标

回复“资料”,获取小编整理的一份资料

作者:GG哥

来源:GitHub爱好者社区(github_shequ)

这是GitHub爱好者社区第 56 篇原创文章

Hello,大家好,我是GG哥!

现在一般网站都有反爬虫机制,对于爱爬虫的朋友来说,想爬虫些数据,做下数据分析。是越来越难了。不过最近GG哥,发现一个超宝藏的爬虫工具箱。目前在GitHub已经有2.4K+星。

这个项目名字是“INFO-SPIDER”,INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

依赖安装
  • 安装python3和Chrome浏览器

  • 安装与Chrome浏览器相同版本的驱动

  • 安装依赖库 ./install_deps.sh (Windows下只需pip install -r requirements.txt)

工具运行
  • 进入 tools 目录

  • 运行 python3 main.py

  • 在打开的窗口点击数据源按钮, 根据提示选择数据保存路径

  • 弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.

在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)
该项目解决了个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合的痛点。作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析,是个人数据效益最大化。该项目使用爬虫手段获取数据,所以程序存在时效问题(需要持续维护,根据网站的更新做出修改)。该项目的结构清晰,所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下,可移植到你的程序中。
目前,这个项目已经开源在Github。(Github地址:https://github.com/kangvcar/InfoSpider),如果你对这个项目感兴趣也可以参与贡献哦~
好了...
现在是真的结束了...
我已经夸不动了...


千言万语化成一句,这么优秀的仓库,大家多多给仓库创建者 star 支持,你们的 star 是万千开源者源源不断创作的动力!

当然还有多多对我的在看转发支持啦,你们的“在看转发”也是我源源不断创作的动力呀...

好啦,今天的分享就到这儿啦,我们下次见啦~

GitHub原创推荐

•  GitHub上这个仿京东电商项目强势开源,前端,后台,数据库等统统都有!
•  GitHub开源了1000本技术类的电子书,直接刷爆朋友圈!
•  GitHub 开发者自制火星车,教程全面开源!网友:这才是大佬!
•  字节跳动工程师在GitHub开源了一份刷题总结,狂揽8.2K星,霸屏GitHub!
关注「Github爱好者社区」加星标,每天带你逛Github好玩的项目

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存