- 简单小爬虫
- baike.py 这是一个爬取糗事百科的简单的爬虫。详情请参考我的博客:爬取糗事百科/
- mmjpg.py 是一个爬虫程序爬取 http://www.mmjpg.com代码中已经加入了详细的注释.当然如果你还有什么不懂的,欢迎来我的博客留言:http://bbiao.me
- seed.py 是爬取电影天堂所有电影种子的一个网络爬虫。可以参考我的博客:爬取《电影天堂》所有电影种子
- mzitu.py是一个爬虫程序,爬取妹子图http://www.mzitu.com代码中加入了多线程,爬取速度是十分快的 代码没有添加注释
- ip.py 是一个获取代理的脚本(国外网站,自备梯子),里面涉及到一种巧妙的加密方式,我写在公众号里面了,感兴趣的可以关注我的公众号,公众号在最下面。也可以参考我的博客https://bbiao.me/2018/05/23/分享两个有趣的思路/
- house.py 是一个获取赶集网房源信息的爬虫(需要使用代理),保存到mysql数据库,我的《数据之美》对数据进行了分析,感兴趣的可以看看。
- house.sql 是数据库的设计。
- music.py 是获取网易云评论的一个爬虫,只实现参数破解,数据抓取,数据提取,没有保存到本地。也没有多页爬取,这些都很简单,而且我也不需要这些数据,不想继续往下写了,感兴趣的朋友可以完善下。欢迎关注公众号《一个简单程序猿》,里面有详细的解析。
-
12306
- setup.py 这是一个python的构建工具
- station_name.py 这是一个获取12306全国所有车站的简写信息的脚本
- station.py 这个脚本里面包含两个列表,一个是车站中文名,另一个是车站的英文简写
- tickets.py 这是一个真正获取12306票数信息的脚本,脚本中对数据进行了清理
-
查询 该目录下都是一些查询的脚本.
-
监票脚本
-
movies 该目录下是一个基于Flask的web程序,功能是资源搜索,详细功能我在我的公众号中已经介绍了。效果图如下:
-
Qzone是一个爬取QQ空间的爬虫,爬取了QQ好友的全部说说,留言,以及个人信息等数据,在我的博客中对该爬虫的思路等进行了简单的介绍 ,可以参考我的这篇文章<爬取QQ空间>
2019 年 8 月 18 日 代码再次重构,说实话我不想再继续这个项目了,因为太恶心了。。。一方面来自于空间方面(对方随便加点手段,我们就要绞尽脑汁),另一方面是要面对自己之前所写的代码(这个更恶心,看自己之前的代码有点怀疑人生,简直不忍直视,甚至想重新写一遍)。
- Ubuntu 16.04 系统测试通过
- 至少Python 3.5
- 安装 selenium 并配置Phantomjs
- 安装相关依赖 pip3 install -r requirements.txt
注: del_mood和del.board 是一个批量化删除说说和留言的程序(全部删除),涉及到说说和留言删除,无法恢复,谨慎使用!
- del_mood 批量化删除说说(全部)
- del_board 批量化删除留言(全部)
谨慎使用!!!!
爬虫QZone通过Phantomjs模拟登录获取Cookies进行操作,爬取了全部好友的个人说说:
- 好友姓名(name)
- 设备(source)
- 具体内容(content)
- 发表时间(createTime)
- 转发量(forward)
- 评论内容(comment)
- 配图(pics)
点赞数(like)具体点赞的人(likers, qq号, 性别, 地址, 星座))
留言爬取的内容包括
- 好友姓名(owner)
- 总留言数(total)
- 留言人的昵称(name)
- 留言人的qq(qq)
- 留言的时间(time)
- 留言的内容(content)
- 回复的内容(replyList(包括回复人的昵称和回复的内容))
个人档的爬取包括
- 好友空间名称(spacename)
- 好友昵称(nickname)
- 空间标语(desc)
- 性别(sex)
- 年龄(age)
- 生日(birthday)
- 星座(constellation)
- 国家(country)
- 省份(province)
- 城市(city)
- 家乡(hometown)
- 婚姻状态(marriage)
- 职业(chreer)
- 详细地址(address)
数据统一存储在mongodb中,分了四个表,分别是black(记录无法访问空间的好友), information(存储个人信息的表), board(存储留言的表), mood(存储说说的表).
另外点赞的人的爬取需要加上时间限制(大于3秒请求不会出现问题),如果不加的话,会出现系统繁忙等问题。(亲身经历)
该项目我会不断完善的,如果有什么好的建议或者疑问可以在issues中提,我会尽力解决。
我的公众号: 一个简单程序猿