2016年3月上旬,中国科学院大学岗位教授、中国科学院计算技术研究所研究员陈云霁与陈天石课题组提出的深度学习处理器指令集DianNaoYu,被计算机体系结构领域顶级国际会议ISCA2016(International Symposium on Computer Architecture)所接收,其评分排名位居所有近300篇投稿的第一名。论文第一作者为国科大2014届博生毕业生刘少礼(培养单位:计算所)。
深度学习是一类借鉴生物的多层神经网络处理模式所发展起来的智能处理技术。这类技术已被微软、谷歌、脸书、阿里、讯飞、百度等公司广泛应用于计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并取得了极好的效果。基于深度学习的围棋程序AlphaGo甚至已经达到了职业棋手的水平。因此,深度学习被公认为目前最重要的智能处理技术。
但是深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。 陈云霁、陈天石课题组在国际上提出了首个深度学习处理器架构寒武纪。而DianNaoYu则是寒武纪的指令集。DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。模拟实验表明,采用DianNaoYu指令集的深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。
指令集是计算机软硬件生态体系的核心。Intel和ARM正是通过其指令集控制了PC和嵌入式生态体系。寒武纪在深度学习处理器指令集上的开创性进展,为我国占据智能产业生态的领导性地位提供了技术支撑。
背景介绍:ISCA被公认为是计算机体系结构领域最重要的国际会议。四十多年来,计算机硬件的多项核心创新都出自于ISCA,包括RISC、缓存一致性、动态多发射等。我国迄今在该会议上发表论文仅十余篇。自2014年中科院提出首个深度学习处理器“寒武纪”之后,深度学习处理器已经成为ISCA最关注的研究方向之一。ISCA 2016上有近1/6的论文(来自MIT、Stanford和UCSD等国际知名机构)引用“寒武纪”的工作来进行深度学习处理器探索。
|