首页
更多
17pw.com
设为首页
收藏本站
品玩
品車
视频
有券
标签
淘帖
站点地图
每日签到奖励
|
登录
注册
首页
Portal
评测
资讯
星球
BBS
圈子
Group
影评
标签
酷站
热门搜索
活动
交友
discuz
发帖
潮玩
导读
笔记本
机箱
手机
台式机
相机
主板
内存
外设
电源
存储
显示设备
显卡
科技
数码
电脑
汽车
潮玩
潮搭
游戏
影视
导读
淘帖
标签
一起品玩
»
星球
›
游戏
›
品玩游戏
›
GitHub上有哪些好用的爬虫
0
1
0
分享
返回列表
发新贴
奔放的蜗牛
网站编辑
主题
435
帖子
549
粉丝
1
加好友
发私信
Ta的帖子
我有一只渡海熊# 第六只煤球!
2019-7-18
高通竟然发布了高通855的升级版高通855 Plus,CPU
2019-7-17
ROG Phone2 真机图曝光,全球首发2.96GHz的骁龙855+,简单了解一下吧
2019-7-17
白色魅族16s配上白色PP壳简直绝配,简洁轻薄手感好
2019-7-17
忽略排线的话,简直是完美布局!!宅男小天堂建造完毕,大家晚安]
2019-7-17
三星 Note 10这颜值下半年要卖爆的节奏
2019-7-17
三星这设计要是能做出来我吹爆。
2019-7-17
谷歌Stadia已收到4000多份申请 开发者踊跃参与
2019-7-17
热门推荐
《#电影超人#》将于8月26日上线~
《神奇四侠》的最终剪辑版本获得了内部试映
网游时光机:2005网游代言考古,这波回忆杀
【好姿势[喵喵]】此前被盗用的《#剑星#》官
《碧蓝航线》×《#优米雅的炼金工房#》联动
原定于今年发售的《Fate/EXTRA Record》官
【这个月玩什么】7月与PlayStation平台有关
据说蓝厂要出2亿主摄+2亿长焦的影像灭霸,
热门版块
数码玩客
今日 0 · 主题 1362
进入
电玩部落
今日 0 · 主题 702
进入
资源
今日 0 · 主题 104
进入
电竞圈
今日 0 · 主题 294
进入
站务
今日 0 · 主题 20
进入
投稿
今日 0 · 主题 2
进入
GitHub上有哪些好用的爬虫
奔放的蜗牛
发表于 2019-6-15 13:41:14
[显示全部楼层]
只看大图
倒序浏览
阅读模式
1
1333
本帖最后由 奔放的蜗牛 于 2019-6-15 13:55 编辑
在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫。然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始。
料
首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。
1.1、awesome-spider
地址:https://github.com/facert/awesome-spider
这是ID为facert的一个知乎工程师开源的,头像如下,鉴定为大佬。
star6000+,内容如下:
这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多的不可描述的网站,你懂的。
1.2、Nyspider
地址:https://github.com/Nyloner/Nyspider
这是ID为Nyloner的一个今日头条的工程师弄的,头像如下:
star1000+,风格与上面的项目大有不同。
可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。
1.3、awesome-python-login-model
地址:https://github.com/CriseLYJ/awesome-python-login-model
这是ID为CriseLYJ(职业不详)的用户,头像如下。
这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。
先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。
1.4、python-spider
地址:https://github.com/Jack-Cherish/python-spider
这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,这个头像很学生。
其他还有一些项目,不再一一介绍。
https://github.com/jhao104/proxy_pool
https://github.com/Ehco1996/Python-crawler
2 优秀图片/视频项目
笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。
工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。
2.1、Google,Baidu,Bing三大搜素引擎图片爬虫
地址:https://github.com/sczhengyabin/Image-Downloader
这个爬虫由ID为sczhengyabin的用户整理,看头像就知道不好惹。
可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了非常人性化的GUI方便操作,使用方法如下:
使用python image_downloader_gui.py调用GUI界面,配置好参数(关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从txt文件中选择。
可以配置需要爬取的样本数目,这里一次爬了2000张,妥妥的3分钟搞定。
这个爬虫足够满足小型项目初始数据集的积累(爬几千张高质量图片妥妥的),结果命名也非常整齐规范,最大的优势就是稳定啊,不会三天两天不能用了。
2.2、各大视频网站爬虫
地址:https://github.com/iawia002/annie
由ID为iawia002的用户整理,看头像来路也不简单。
Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:
虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:
annie [可选参数]http://… (视频网址)
视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。
要说互联网圈里最有权势的那些人,搞爬虫的高手一定位列其中,他们大概是掌握信息最多的那批人了,善于整合抓取资源,如果身边有这样的大佬,一定要牢牢抱着。
回复
使用道具
举报
已有(1)人评论
电梯直达
李东尧
发表于 2022-2-21 06:30:32
<script type="text/javascript">var jd_union_pid="608851640355734520";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>
回复
使用道具
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
球鞋
FC游戏
电玩部落
动漫社
前沿科技
数码玩客
运动
品玩车
掌机社
摩托车
反馈