AI圆舞曲里,重接骨头跳舞的展锐

刚刚的苹果秋季发布会中,我们又一次见证了库克有多么热爱他的芯片——今年发布会中,苹果又用非常大的篇幅描述了A13芯片中的AI处理能力,真正芯片中的AI加速已经成为了整场发布会的核心卖点之一。

刚刚的苹果秋季发布会中,我们又一次见证了库克有多么热爱他的芯片——今年发布会中,苹果又用非常大的篇幅描述了A13芯片中的AI处理能力,真正芯片中的AI加速已经成为了整场发布会的核心卖点之一。

换一个角度看待这件事,不难发现移动芯片的AI算力,已经成为了行业焦点以及旗舰芯片的竞争关键。有意思的是,这场争夺并非如很多人想象的那样,变成一场彻底的寡头游戏。

移动AI芯片这个领域的“新玩家”,此刻也在带给我们惊喜。

7月,苏黎世联邦理工学院著名的AI算力评测项目AI Benchmark,公布了AI芯片的测试榜单。令人惊奇的是,当时占据榜首的赫然是紫光展锐的虎贲T710。T710的AI算力评测分为 28097分,超过大部分安卓旗舰机所用的高通骁龙855 plus。当时消息一出,很多媒体和芯片产业关注者是相当错愕的。

这个错愕感来自何处?首先是在大部分人的印象里,展锐主要面向的是非旗舰移动芯片市场。在移动芯片的核心领域超过高通旗舰,显然是令人意外的。再者,展锐此前似乎并没有发布过主打AI的产品,初出茅庐就刷榜,这个气势相当了得。

如今,虎贲T710已经正式发布,并且展锐又在AI领域接连发起了几个动作,如果我们把这些产品和动作联系到一起,或许会发现展锐在AI领域并非浅尝辄止,而是勇于创新、有清晰定位,并且有方案和步骤的参赛者。

让我们从虎贲T710当时刷榜的因由开始,逐层剥开这个AI芯片中的“新来者”——放弃低端固有印象,重新接上骨头来跟AI跳舞的——新展锐。

异构双核NPU,这个词背后藏着什么?

让我们从一个技术创新,开始整个故事。

虎贲T710在AI Benchmark刷出高分的原因其实很明显,就是因为这枚4G SoC手机手机,采用了具有独创性的异构双核NPU架构。这个技术就像一把刀子,划开了我们对AI芯片的固有认知。

这里有必要解释一下这个“不明觉厉”的词组。我们知道,今天移动芯片中搭载NPU模块已经成为了行业惯例。华为、苹果皆如此,总是含含糊糊的高通目前也承认了自己有NPU。

而NPU这个在CPU和GPU之后,专门用来提供AI任务所需算力的模块,其特性又是有点不一样的。

实际上,对于处理器而言,永远存在通用和专用两个方向的问题。通用代表着更好兼容性,专用代表着更高的效能,但同时通用的代价是低效,专用的代价是兼容性不好。这就好比全科医院和专科医院,同样的病症往往专科医院处理得比全科医院又快又好,但是它只能处理这一科。回顾一下历史,移动NPU如今已经算发展了三代,第一代的NPU解决的就是通用CPU对AI计算的低效问题。第二代开始出现多核NPU,持续加强改进能效。那么到了第三代,考虑的问题就必须更为细致,从AI的发展角度看,现在仍然是处于一个快速发展的路上,AI任务不像图像和数据任务,它囊括了千变万化的算法可能。其中有一些AI算法,目前已经非常成熟,比如我们经常用的人脸识别、物体识别。还有一些则代表着未知,而未知算法往往需要储备强大的通用算力,以此来支撑大型AI任务的端侧处理。

这两种算法带来的算力矛盾,就好像餐厅请厨师的时候,一位厨师只有拿手三道菜,但是口味极佳,另一位则什么都会做,任凭顾客点菜,但是却没有拿手菜,并且薪酬昂贵。这种时候,最好的解决办法是什么?

虎贲T710的方案是,两个厨师都来上班就好了。所谓异构双核NPU,就是一个NPU专门做顾客经常点的拿手菜,也就是对人脸识别等已经比较成熟的图像类应用,采用8bit定点量化的方式对常用算子进行加速,大幅的减少计算代价;而面对不确定的AI任务需求,则让另一个NPU随时待命,采用INT4、FP16等量化方式来进行浮点计算加速。

在异构双核NPU的帮助下,虎贲T710的算力达到了4TOPS,能效比 ≥ 2.5TOPS/W。尤其在几大常用神经网络任务中表现出色,最终出现了AI算力超过高通旗舰的效果。

或许有朋友会问,这种效果这么好,为什么旗舰芯片没有采用?

这就牵扯出虎贲T710背后的产品逻辑:从市场定位上来说,旗舰芯片必须追求各种数值的极致化;而展锐的定位是非旗舰,没有数值的包袱。就像5星酒店或许可以请很多又有拿手菜又什么都会的厨师,但是特色餐厅还是要兼顾成本与效果,用创新搭配来花小钱办大事。而在AI算力超过旗舰芯片的最终结果上来看,异构NPU的创新点成果显著。在第三代NPU的创新跑道上,并没有对错,但相比苹果、华为和高通这些顶着炫目数字的玩家,展锐的异构双核就好像AI舞台上的舞者,用轻盈而优美的方式演绎出对AI需求的理解。

当然,在AI算法进一步稳定,应用需求与标注不断统一之后,有理由相信异构NPU会成为主流。

展锐的独创,更准确表述或许是是超前。但异构双核NPU背后的技术逻辑,其实指向展锐在AI战略这样一个独特思路:聚焦应用与场景,实实在在闹革命。

脱胎换骨的展锐冲向AI

虎贲T710,这个听着就像个什么武器的名字,当然拿出来就要造成点杀伤力。

在虎贲T710发布时,展锐给出了一个独特的定义“AI边缘计算平台”。也许有朋友会奇怪,这种描述似乎更多是在to B产业中见到,为什么出现在了手机芯片当中?

事实上,虎贲T710是手机芯片。但展锐却和用户一起发现了它的其他价值,比如说在产业场景中作为边缘AI算力的提供者。

在深度学习为代表的AI处理能力,开始渗透向各行各业当中时,各行业也就自然而然浮现出对AI算力的需求。比如在医疗场景中,医疗影像识别已经成为了AI的主要应用场景。而这一类任务如果统一上传到云端进行推理,很容易造成实际应用时的效率降低,数据阻塞。如果在边端侧发生AI计算,则需要芯片和计算产品的植入。这些实际场景的导流,造成虎贲T710顺势获得了to C和to B两种商业模式。这里有个问题,展锐怎么会敢做这种创新?

芯片产业格局的朋友,或许还是将展锐的形象,定格在中低端芯片制造商中,从而总是将低端、批量、亚非拉美市场等关键词与展锐的品牌相联。

从异构双核NPU的来历,或许就可以解释这个问题。

异构双核到底要不要做,展锐内部有过很多争论,考虑过单核、多核、大小核等种种方案。

最后团队把问题直接抛回了出发点:为什么要做NPU?要知道,CPU+GPU也不是不能处理AI任务,欠缺的就是效率。那么既然NPU为了满足效率,就要明确怎么计算是最高效的,如何处理高效带来的通用性问题。

最终,双核异构NPU的思路被确定了下来。

对于展锐来说,这是一个重要的技术思考节点。因为历史上似乎从来没有如此认真逐层思考一个技术解决方案。而当研发团队从跟随切换到了底层逻辑上的创新,又发现创新之路确实能够走通,整个团队也就自然获得了成就感与兴奋感。

习惯了飞翔的鸟,是不愿意当爬行动物的——展锐的改变就此而来。

于是我们看到,半年以来展锐在公司申请专利数排名中一举提升了60位,由此可见创新能力在整个体系内的释放。

换个角度,或许可以更好理解展锐的蜕变。提到展锐总是会提到联发科,但在AI这条路上,联发科被誉为低配版高通,更多是在做高端芯片的低端版,重复大厂的动作。但是展锐,却不甘只是跟随,拐弯去开创了另一条新路,这一次不仅仅是勇气,更重要的是对未来的信心。

在展锐这些变化背后,实际上是一场彻彻底底的重构,全新的目标,全新的文化,全新的组织架构,全新的管理和产品体系,新展锐像极了重生的哪吒,脱胎换骨,正要再创一片天地。

AI当道,展锐还能干什么?

可以看到,在AI这条赛道上展锐的一系列产业动作,都可以归因为一个变化:在几个新的技术序列成熟与交错下,展锐可触及的智能化需求在发生快速变迁——无论是B端还是C端。这种条件下,展锐似乎还能折腾出不少事情,比如说:

一、产业智能

虎贲T710应用于产业智能需求,变成一种to B的算力平台,这应该是让很多人难以想象的。然而它确实发生了,这就是因为AI与工业化生产之间的耦合正在此刻不断加剧,而其对产业配套设施的需求也在加速。

展锐在产业智能化中的另一个优势在于,中国企业出于国际经贸环境和供应链稳定等考虑,相对更请来中国的算力与解决方案供应商。这个领域通过更集成的方式为用户创造价值,基于芯片带来更多智能与产业的结合,这是展锐AI主要的宏观战略机遇。

二、手机折叠

回到手机端,我们也很容易发现一些有趣的变化。今天的手机市场,一个显著变化在于旗舰机与中低端机型,在性能体验上不断趋近。其根本原因在于,CPU与GPU等部件的创新空间不断接近瓶颈。展锐其实是在证明,可以通过优化的设计与创新思路,让中低端机型获得高端机型的AI算力与AI应用体验。

将高端体验普及到大众消费者,是展锐在AI相关产品上的设计逻辑与目标,也是未来将继续执行的重要战略。

三、5G+IoT

关注芯片产业的都知道,IoT市场一直是展锐的战略高地;而面向5G时代,展锐已经打造了春藤系列产品,实现“虎贲+春藤”的AI+5G战略合围。从未来我们对IoT场景的应用逻辑来看,AI和5G也是相辅相成的关系。AI需要在数据基础上完成训练,产生智能,达成数据、设备、人三者之间的有效互动。所以最终,未来一定是5G环境下,由AIoT中不断诞生有价值的应用。

所以能够看到,展锐今天所执行的策略,就是在AI、5G和IoT三端达成实用化、场景化的技术与产品渗透,最终让它们的结合点,发生于未来的产业智能化市场,以及社会广泛存在的AIoT需求中。

智能之网,还将孵化出很多东西,其中或许就包括展锐AI的未来。换言之,几股技术洪流的交错,是展锐的新战场。

打开APP阅读更多精彩内容