首页
更多
17pw.com
设为首页
收藏本站
品玩
品車
视频
有券
标签
淘帖
站点地图
每日签到奖励
|
登录
注册
首页
Portal
评测
头条
游戏
动漫
影视
星球
BBS
圈子
Group
券
动态
Space
广播
Follow
博客
Blog
淘帖
Collection
相册
Album
分享
Share
记录
Doing
排行榜
Ranklist
热门搜索
活动
交友
discuz
发帖
优惠券
导读
笔记本
机箱
手机
台式机
相机
主板
内存
外设
电源
存储
显示设备
显卡
科技
手机
数码
电脑
品玩
汽车
运动鞋
潮玩
潮流
单车
资讯
新游
电玩
掌机
手游
单机
网游
攻略
电竞
评测
行业
厂商
游戏周边
二次元
电影
影视点评
导读
淘帖
标签
一起品玩
»
星球
›
游戏
›
游戏技术宅
›
GitHub上有哪些好用的爬虫
0
1
0
分享
返回列表
发新贴
奔放的蜗牛
网站编辑
主题
435
帖子
549
粉丝
1
加好友
发私信
Ta的帖子
我有一只渡海熊# 第六只煤球!
2019-7-18
高通竟然发布了高通855的升级版高通855 Plus,CPU
2019-7-17
ROG Phone2 真机图曝光,全球首发2.96GHz的骁龙855+,简单了解一下吧
2019-7-17
白色魅族16s配上白色PP壳简直绝配,简洁轻薄手感好
2019-7-17
忽略排线的话,简直是完美布局!!宅男小天堂建造完毕,大家晚安]
2019-7-17
三星 Note 10这颜值下半年要卖爆的节奏
2019-7-17
三星这设计要是能做出来我吹爆。
2019-7-17
谷歌Stadia已收到4000多份申请 开发者踊跃参与
2019-7-17
热门推荐
911#保时捷911[话题]#
LI-NING x SOULLAND
携手性感美少女末世讨伐怪物,《剑星》PS5
索尼PS1出玻璃内存卡了? 来自索尼 Playsta
《龙之信条2》的好处之一,就是玩家可以自
美女写真 酷爱音乐清纯少女
【蚀心者的作品】带上你的队友,去斩恶龙,
复仇者集结!《咒术回战》255话情报:虎杖
热门版块
玩家心得
今日 0 · 主题 116
进入
品牌手机
今日 0 · 主题 200
进入
数码玩客
今日 0 · 主题 723
进入
安卓专区
今日 0 · 主题 134
进入
苹果专区
今日 0 · 主题 262
进入
电玩界
今日 0 · 主题 610
进入
GitHub上有哪些好用的爬虫
奔放的蜗牛
发表于 2019-6-15 13:41:14
[显示全部楼层]
只看大图
倒序浏览
阅读模式
1
1131
本帖最后由 奔放的蜗牛 于 2019-6-15 13:55 编辑
在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫。然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始。
料
首先给大家介绍一些非常优秀的综述和学习类项目,方便大家快速索引找到所需要的资源。
1.1、awesome-spider
地址:https://github.com/facert/awesome-spider
这是ID为facert的一个知乎工程师开源的,头像如下,鉴定为大佬。
star6000+,内容如下:
这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多的不可描述的网站,你懂的。
1.2、Nyspider
地址:https://github.com/Nyloner/Nyspider
这是ID为Nyloner的一个今日头条的工程师弄的,头像如下:
star1000+,风格与上面的项目大有不同。
可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。
1.3、awesome-python-login-model
地址:https://github.com/CriseLYJ/awesome-python-login-model
这是ID为CriseLYJ(职业不详)的用户,头像如下。
这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,star6000+。
先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。
1.4、python-spider
地址:https://github.com/Jack-Cherish/python-spider
这是ID为Jack-Cherish的东北大学的一个学生整理的学习python爬虫的资料,这个头像很学生。
其他还有一些项目,不再一一介绍。
https://github.com/jhao104/proxy_pool
https://github.com/Ehco1996/Python-crawler
2 优秀图片/视频项目
笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。
工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。
2.1、Google,Baidu,Bing三大搜素引擎图片爬虫
地址:https://github.com/sczhengyabin/Image-Downloader
这个爬虫由ID为sczhengyabin的用户整理,看头像就知道不好惹。
可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了非常人性化的GUI方便操作,使用方法如下:
使用python image_downloader_gui.py调用GUI界面,配置好参数(关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从txt文件中选择。
可以配置需要爬取的样本数目,这里一次爬了2000张,妥妥的3分钟搞定。
这个爬虫足够满足小型项目初始数据集的积累(爬几千张高质量图片妥妥的),结果命名也非常整齐规范,最大的优势就是稳定啊,不会三天两天不能用了。
2.2、各大视频网站爬虫
地址:https://github.com/iawia002/annie
由ID为iawia002的用户整理,看头像来路也不简单。
Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:
虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:
annie [可选参数]http://… (视频网址)
视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。
要说互联网圈里最有权势的那些人,搞爬虫的高手一定位列其中,他们大概是掌握信息最多的那批人了,善于整合抓取资源,如果身边有这样的大佬,一定要牢牢抱着。
回复
使用道具
举报
已有(1)人评论
电梯直达
李东尧
发表于 2022-2-21 06:30:32
<script type="text/javascript">var jd_union_pid="608851640355734520";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>
回复
使用道具
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
反馈