从硅到软件

从ChatGPT到计算机视觉处理:深度学习变形金刚如何塑造我们的世界

变压器深度学习模型
作者:Gordon Cooper, Synopsys Solutions Group的产品经理

街中间的是一只狗吗?还是一个空盒子?如果你乘坐的是自动驾驶汽车,你会希望物体检测和防撞系统能够正确识别前方道路上的物体,并相应地引导车辆行驶。在现代汽车中,深度学习模型在汽车的计算机视觉处理应用中扮演着不可或缺的角色。

随着摄像头在许多系统中变得无处不在,汽车并不是唯一利用人工智能驱动的计算机视觉技术的产品。移动电话、安全系统和基于摄像头的数字个人助理只是基于摄像头的设备的几个例子,这些设备已经使用神经网络来提高图像质量和准确性。

虽然计算机视觉应用领域传统上一直由卷积神经网络(cnn)主导,但一种新的算法类型——最初是为翻译和问题回答等自然语言处理开发的——开始崭露头角:变压器。作为一种同时处理所有输入数据的深度学习模型,变压器可能不会完全取代cnn,但会与它们一起使用提高视觉处理应用的准确性

变形金刚最近上了新闻,这要归功于ChatGPTOpenAI于2022年11月推出了一款基于变压器的聊天机器人。虽然ChatGPT是一个基于服务器的转换器,需要1750亿个参数,但在这篇博客文章中,您将了解到更多关于为什么转换器也是嵌入式计算机视觉的理想选择。继续阅读,深入了解变压器如何改变深度学习架构的方向,以及优化这些模型实现以获得最佳结果的技术。

基于注意的网络提供上下文意识的好处

十多年来,cnn一直是视觉处理的深度学习模型。随着cnn的发展,它们已经准确地应用于图像分类、物体检测、语义分割(对图像中的每个像素进行分组或标记)和全景分割(识别物体位置以及对每个物体中的每个像素进行分组或标记)。然而,在没有对变压器进行任何修改的情况下,除了将语言补丁替换为图像补丁之外,变压器已经表明它可以在精度上击败cnn。

2017年,谷歌研究团队分享了一篇介绍变压器他将其定义为“一种基于自我注意机制的新型神经网络架构,我们认为它特别适合于语言理解。”快进到2020年,谷歌Research的科学家们发表了一篇关于视觉转换器(ViT),这是一个基于原有变压器架构的模型。根据这篇文章,ViT“在充分的数据训练下表现出出色的性能,以四倍少的计算资源,胜过媲美的最先进的CNN。”事实上,这些需要使用非常大的数据集进行训练的变形金刚显示了它们在图像分类和物体检测等视觉任务方面的熟练程度。

由于变形金刚可以理解环境,它们擅长学习复杂的模式来精确检测物体。

帮助它们精通视觉应用的转换器的一个关键方面是它们的属性注意机制,使模型能够理解上下文。像CNN一样,变压器可以检测到前方道路上的物体是一只受伤的狗,而不是一个纸箱。它确实是这样做的,但是将更多的注意力集中在数据中微小但重要的部分——道路上的物品——而不是代表道路其余部分的不太有用的像素。换句话说,并非所有像素都被平等对待,这使得变压器在学习更复杂的模式方面比cnn更好(cnn通常在不知道之前或之后的情况下处理一帧数据)。随着研究和开发的继续,变压器模型尺寸现在与CNN模型尺寸相似。

虽然每秒帧数的性能取决于运行模型的硬件,但cnn的速度往往比需要更多计算的变压器更快。然而,变形金刚正准备迎头赶上。gpu可以同时支持这两种方式,但对于需要在最小的区域内以最小的功率获得最高性能的现实应用程序来说,专用的AI加速器(如npu或神经处理单元)是更好的选择。

为了提高推理效率,视觉处理应用程序可以同时利用cnn和变压器。完整的视觉感知需要的知识可能不容易由视觉模型获得。多模态学习提供了对视觉信息更深入的理解。此外,像变压器这样的基于注意力的网络非常适合集成多个传感器的应用,比如汽车。

利用NPU IP优化变压器和cnn性能

变形金刚由几个操作组成:

  • 矩阵乘法
  • Element-wise之外
  • Softmax数学函数
  • L2正常化
  • 激活功能

虽然目前大多数AI加速器都针对cnn进行了优化,但并非所有加速器都适用于变压器。变压器需要计算能力来进行大量的计算,并支持它们的注意力机制。的Synopsys ARC®NPX6 NPU IP是一个可以处理cnn和变压器的人工智能加速器的例子。ARC NPX6 NPU IP的计算单元包括一个用于矩阵-矩阵乘法的卷积加速器,这对深度学习模型都是必不可少的,以及一个用于变压器运算和激活函数的张量加速器。该IP可提供高达3,500 TOPS性能和高达30 TOPS/Watt的行业领先的电源效率。设计团队还可以使用Synopsys MetaWare MX开发工具包.该工具包提供了一个全面的软件编程环境,包括一个神经网络软件开发工具包和对虚拟模型的支持。

总结

自然语言处理应用多年来一直享有变压器的计算能力。现在,实时视觉处理应用程序正在采取行动,利用基于注意力的网络提供上下文感知的能力,以获得更高的准确性。从智能手机到安全系统再到汽车,基于摄像头的产品越来越擅长提供高质量的图像。在嵌入式视觉摄像系统的深度学习基础设施中添加变压器只会产生更清晰的图像和更准确的物体检测。

万一你错过了

赶上这些与人工智能相关的博客文章,保持在最新趋势的顶端:

Baidu