分享

计算机视觉迎新突破?谷歌AI模型打破现有CNNs精度

1561116314572_2dc27c666bbb6bed48e5477ec72787b5.jpg
集微网消息,卷积神经网络(CNNs),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,非常适合于物体识别和人脸检测等任务,但要提高它们超过某一特定点的精确度,需要进行繁琐的微调。
这就是为什么谷歌人工智能研究部门的科学家们正在研究一种新的模型,这种模型以一种“更结构化”的方式“放大”CNNs,他们在Arxiv.org上发表的一篇论文(EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks)和一篇附带的博客文章中对此进行了描述。
合著者声称,这一系列被称为“EfficientNet”的人工智能系统,以高达10倍的效率,超过了普通语料库的最高精确度。
“模型缩放的传统做法是任意增加CNN的深度或宽度,或者使用更大的输入图像分辨率进行训练和评估,”软件工程师Mingxing Tan和谷歌人工智能首席科学家Quoc V. Le写道。“与传统的方法不同,传统方法是任意缩放网络尺寸,比如宽度、深度和分辨率,而我们的方法是用一组固定的缩放系数来均匀地缩放每个尺寸。”
所以,这该如何实现呢?首先,进行栅格搜索,以确定在固定资源约束下基线网络的不同缩放维度之间的关系(例如,浮点数计算量增加两倍或FLOPS)。这决定了每个维度适当的缩放系数,这些系数用于将基线网络缩放到所需的模型大小或计算预算。
1561116483633_e2cea3e6c2f5477cad76cd51c362ba4f.png
为了进一步提高性能,研究人员提倡一种新的基线网络——mobile inverted bottleneck convolution (MBConv),它可以作为EfficientNets模型家族的种子。
在测试中,与现有的CNNs相比,EfficientNets显示出更高的精度和更好的效率,减少了一个数量级的参数大小和故障。其中一个型号EfficientNet-B7比高性能的CNN Gpipe小8.4倍,快6.1倍,在ImageNet上分别达到了84.4%和97.1%的top-1和top-5精度。
与流行的ResNet-50相比,另一个型号EfficientNet-B4使用了类似的FLOPS,同时将top-1精度从ResNet-50的76.3%提高到了82.6%。
1561116528347_a8a87cbcec89d98248bed0fece7a3169.png
EfficientNets在其他数据集上也表现得很好,在8个数据集中有5个达到了最先进的精度,包括CIFAR-100(91.7%的精度)和Flowers(98.8%的精度),参数减少了21个。
谷歌的云托管张量处理单元(TPU)的源代码和培训脚本可以在GitHub上免费获得。Tan和Le写道:“通过对模型效率的显著改进,我们预计EfficientNets有望成为未来计算机视觉任务的新基础。”(校对/ICE)
回复

使用道具 举报

已有(1)人评论

跳转到指定楼层
健华 发表于 2022-1-6 17:48:16
<script type="text/javascript">var jd_union_pid="608851640356941628";var jd_union_euid="";</script><script type="text/javascript" src="//ads-union.jd.com/static/js/union.js"></script>
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则