「科技进步极大降低了创新所需的经济门槛,但是伟大所需的精神门槛——勇气,从没有降低过」。

这两年,算法人誓要「造芯」,已不再是新鲜事。

当摩尔定律开始走下神坛,基于 AI 算法的算力需求却喷涌而出,供不应求,于是越来越多的团队尝试踏入「无人区」,以「芯片+算法」组合拳打造更牢固的护城河。

但造芯何尝容易,芯片和算法之间存在着巨大鸿沟,芯片工艺繁琐、设计与优化技巧强,试产的风险和投入都极大,让人望而却步。

「有钱能做得出算法,有钱却不一定能造得了芯片,」芯片老将曾这样规劝来路上的算法人。「造芯」的口号固然响亮,如今真正能落地的算法团队却是一个巴掌数得过来。

5 月 9 日,依图科技带着 200 路摄像头来到上海中心,向外界宣讲这颗始于两年前的首款云端AI芯片「求索」。

「依芯求索」,是一颗能同时兼顾云端和边缘端场景的 SoC 级芯片,采用自研架构, 16 nm 制程,功耗单路数小于 1W,性能功耗比为 0.75 TOPS/W。在视频解析、自动驾驶等场景实测中,表现均高于英伟达同类产品。云端场景下,依图单位路数功耗可优出 5-10 倍。

「科技进步极大降低了创新所需的经济门槛,但是伟大所需的精神门槛——勇气,从没有降低过。」

这是依图创始人兼 CEO 朱珑为该颗芯片写下的注解,公司成立7年以来,朱珑首次为依图发布会站台。依图的「勇气」始于 2017 年,当时团队不过百人规模,公司在资金储备和经济实力上都不具备「造芯」的最佳条件,但朱珑表示,「敢把房子卖了赌今天这个答案非常重要」。

在芯片发布前夕,机器之心对话依图首席创新官吕昊,独家解密依图首款AI芯片背后的更多故事。通过进一步交流,我们挖掘出这家出色的算法公司对于行业需求、对于算法发展趋势深刻的洞察,以及果断有力的预判和执行。

吕昊对机器之心说道,「两年前,我们决定做这款芯片,就非常相信算法厂商垂直整合的未来趋势。基于对算法、对行业的深刻理解,加上芯片的设计能力,从垂直的场景发力,不仅于现在能获得优势,未来也会变得越来越强。」

公开数据显示,依图最近一轮融资发生在 2018 年 7 月,完成 3 亿美元 C+ 轮融资,公司整体投后估值突破 150 亿元。谈到新轮融资计划时,吕昊没有给出直接回应,他表示「我觉得市场往后怎么看我们,对我们是不是有改观,是更有趣的事吧。依图发布芯片对整个市场也会有一个影响。」

两年前,正是基于依图对于算法发展趋势的预判有了现在的云端AI芯片,那么未来两年呢?

「整体来说就是两个趋势。一个是垂直整合,这是一个非常大的机会,也提供了非常多增强自身产品和未来的机会,另一方面就是『算法即芯片』。」吕昊说道。

200 路摄像头现场实测的底气

依图云端 AI 芯片「questcore」,中文名为「依芯求索」,采用 16nm 制程,ARM + ManyCore 组合架构,其中 ManyCore 架构由依图和 ThinkForce 联合研发,采用依图自有优势算法,从设计到制造实现了全面国产化,作为服务器芯片可以独立使用。目前,该颗芯片已经实现量产。

在性能表现上,questcore 单芯片可支持 64 路视频高清实时解码,支持 50 路视频实时解析,1U 可支持 200 路解析。芯片自带网络支持,支持虚拟化,支持 Docker,支持通用视觉的检测、分类、识别、分割、跟踪等任务。

在兼容开发和接口拓展方面,questcore 支持 TensorFlow、PyTorch、Caffe、MXNet 等主流深度学习框架,支持 PCle 3.0 接口。

同时支持云端、边缘侧计算是 questcore 的最大亮点之一。

在单位路数的功耗对比中,同样带动 200 路摄像头解析和比对,4 颗依图 questcore 、8 颗英伟达 T4+ 2 颗英特尔 CPU、8 颗英伟达 P4+2 颗英特尔 CPU 实测对比:

  • 8 颗英伟达 T4 + 2 颗英特尔 CPU 方案单位路数功耗是依图方案的 4.7 倍,

  • 8 颗英伟达 P4+2 颗英特尔 CPU 方案是依图方案的 9.4 倍。

在路数性能的对比中,依图前沿系列边缘盒子是英伟达 TX2 性能的 2 倍。

朱珑认为,正是芯片单位面积的智能算力的「斜率」优势奠定了依图芯片能在最终性能表现超过巨头英伟达。

据机器之心了解,questcore 针对 int8 数据(8 位整数数据类型)进行加速,能实现性能和功耗比呈量级提升。同等功耗下,questcore 可提供市面现有同类主流产品 2~5 倍的视觉分析性能,强调并发性需求的满足。

依图方面认为,与 AI 训练不同,AI 推理并不需要很高的精度,实际上,int8 的低精度数据类型就足以满足当前绝大多数的云端智能视频分析/视觉推理计算需求。

依图强调,questcore 不只是一颗 AI 加速模块,是一颗完整的具有端到端能力的 SoC 级处理器,可独立于英特尔 x86CPU 使用。为均衡的端到端处理能力,questcore 平衡了 CPU 计算、AI 计算,内存和数据通信等多种需求。

为进一步验证产品实力,现场依图搬来 200 个摄像头进行现场实测。采用 GPU 方案,光是 27 路摄像头,需要一颗 2000 美金的英伟达 P4 卡才能带动;200 路视频流的实时解析和比对则需要 4U 8 块 CPU,2 块 GPU,而依图只需要 1U 4 颗 AI 芯片。

在比对过程中,相似度超过 85 分视为同一个人,现场演示十分钟左右,未发生一起误报。

200 路摄像头足够满足一个智能社区的计算需求,朱珑表示,采用依图 questcore 方案只需要 5 分钟就能搭载后端服务器。

在销售模式方面,questcore 芯片将与依图的智能视觉分析软件结合,作为软硬件一体化的解决方案对外销售。主要面向对云端智能视频实时分析等应用具有强需求的企业环境,比如交通运输、公共安全、智慧医疗和智慧零售等行业。

目前,questcore 依图主要推出云端、边缘端两类产品方案。前沿系列边缘盒子,高性能、低功耗的小型智能处理边缘节点,可支持 16 路实时视频分析,功耗小于 10W,支持人脸识别、视频结构化、可疑物品检测、姿态分析等应用,灵活应用于无机房场景。

原子系列云端服务器,1U 支持 200 路视频全解析,功耗小于 200W,2U 支持 800路视频全解析,功耗小于 600W。据机器之心了解,搭载 QuestCore 的依图原子服务器,将为今年 11 月在上海举行的第二届世界进口博览会提供安保服务。

解密依图 AI 芯片背后的更多故事

以下为机器之心与依图首席创新官吕昊对话实录,经编辑整理。

Q:AI芯片项目是从什么时候启动的?

A:2017年2月,我们开始有动作投入这件事情。2017年5月份全速启动。我们今天给大家看的不只是一颗芯片原型,而是当下就能商用量产的产品。

Q:2017年依图投资芯片创业团队ThinkForce,这颗芯片和ThinkForce存在什么联系吗?

A:该颗芯片采用合作研发的模式,由依图提供视觉算法,ThinkForce承担硬件研发。ThinkForce是依图在2017年战略投资的AI芯片初创团队。ThinkForce 拥有芯片研发全链路能力的团队,核心成员来自 IBM、AMD、Intel、Broadcom等芯片龙头企业,成员均具备十年以上专业芯片研发设计经历,经手过40余款不同芯片的量产,总销售额高达数十亿美元。

Q:依图芯片的开发团队主要负责哪个部分?

A:芯片设计过程中有非常多的迭代。首先,在早期我们要做什么样的芯片,跑什么的算法,都是基于双方沟通。因为目标很简单,要把依图算法跑好。

然后,依图算法需要多少算力,芯片能设计出多少算力?满足算力需要投入多少?这些都需要我们反复迭代,前期的设计和迭代都是联合研发的模式。

接着,到芯片设计阶段,设计后跑大量的BenchMark,都由我们一起来跑。到后期,芯片的设计出来要验证,验证什么?这不仅仅是硬件的问题,还有很多软件的问题,比如英伟达的TensorRT的库优化。因为我们支持Tensorflow、PyTorch这些模型,怎么把它去优化成硬件上面模型,都是非常偏软件和算法的优化。

Q:依图设立芯片项目的初衷是?

A:我们深耕行业,有非常多的产品和解决方案。对于市场需求、对于AI的普及有最及时、最深刻的理解。

2017年,虽然AI计算市场的需求并不算明朗,但我们对于AI与算力需求的高速增长,以及同类产品的竞争性,都会有一个预判。

那个时候,比较明显的感受是摩尔定律的统治时期结束了。这也是整个行业里的共识,凡是离应用和场景足够近的厂商,都有这方面的战略考虑。

Q:17年到18年,的确有很多算法公司投身到AI芯片领域,但主要倾向终端的垂直市场,比如说安防、自动驾驶、物联网,为什么依图会选择云端的推理市场?

A:需求一定来自行业,这是最直接的需求。你提云端,云端也可以只是为安防,也可以只是为自动驾驶。

Q:但是云端和终端存在很大差异,市场环境和计算复杂程度都不一样。普遍认为终端市场需求量比较大,也好落地。但云端市场已经很拥挤,几乎被英特尔、英伟达等巨头垄断,依图为什么要去切这样一个市场?

A:依图芯片兼顾了云端和边缘端。云端和边缘端没有太本质的区别,或者说云端和边缘端的区别要小于边缘和终端的区别。

传统大厂能力非常强,包括架构设计、性能优化等方面,这是数十年积累完成的。但我们认为,大厂从其本质上讲是为了卖更多的芯片,卖更多的硬件,尽量满足更多软件厂商、算法厂商的需求。这种模式和垂直整合的算法厂商做芯片有一定的区别。

摩尔定律终结代表了芯片设计需要换个思路才能获得更多的成长空间,那么定制化是一个路径,去掉一些通用性的部分,比如传统硬件的分支判断、逻辑单元等电路。算法厂商来做芯片,不完全考虑通用性,更多从自身行业需求出发,考虑我要做什么样的芯片。

Q:你的意思是,依图的芯片更讲究在特定场景下满足计算需求。

A:对。

Q:那依图主要聚焦在哪些垂直场景,或者哪些计算需求。

A:QuestCore是一颗视频解析/推理芯片。首先它聚焦在视频上,关注能接多少路视频,能分析多少路视频,这和做一颗终端芯片有很大区别,终端是你只需要服务一路视频。

比如说特斯拉芯片,就是聚焦在处理这辆车上面视频能达到多少FPS(面每秒传输帧数)。因为做云端芯片,我们更关心能同时处理多少路的视频。所以应用常决定了你的设计导向。

Q:切入特定市场能在一定程度避开和巨头的直面竞争,但是否意味着市场体量相应地会减少?

A:这是很直接的一个问题,因为做芯片首先门槛比较高,然后投入也比较大,做一块卖座的芯片是极为困难的。比如英伟达做GPU是比较通用的计算平台,而定制化自动驾驶的芯片,只有特斯拉这样的厂商会做,因为他自己有自己的体量,然后他自己又明白需求。

Q:这款芯片是想要替代华为还是要替代英伟达?

A:就是给我们自己的产品做一个升级。我们很多产品都是用的英伟达的解决方案,我们还是华为的合作伙伴,非常深度的合作伙伴。

Q:你们更倾向于给到固定客户,比如说作为项目打包给安防客户,还是怎样的输出方式?

A:我们认为是自产自用的模式,芯片会纳入软硬件一体化的解决方案里对外销售。主要面向对云端智能视频实时分析等应用具有强需求的企业环境,比如交通运输、公共安全、智慧医疗和智慧零售等行业。

Q:通常来说,芯片都是以量取胜,量大了,成本才可以得到进一步优化,那么规模比较小的情况下,会不会导致我们的成本很高,可能这部分业务会亏钱?

A:我觉得这个是外界对依图的体量不了解。其它AI公司做这个事情可能有这个困扰, 但我们应该没什么问题。因为依图的在很多行业里面的体量挺大的。

Q:您刚才提到边缘端和云端其实很相近,为什么这么说,边缘端和终端有什么不同?

A:实际上,边缘是云端的一个拓展。我们的愿景当然是希望网络足够快,不需要边缘这样的节点出现。

但是,因为网络带宽有限,所以要把一些计算放在边缘侧,然后再汇总到云端。边缘的出现是为了解决网络带宽无法承受的问题。这一点导致了它的接口设计、软件、技术栈,都和云端有非常多的相似性。

Q:提到视频数据,在解析之前的预处理也很关键,比如编解码?

A:对,我们芯片提供64路高清视频实时解码。

Q:依图更擅长做算法和软件,自研云端AI芯片的优势在哪里?

A:首先,我们算法精度遥遥领先,过去 4 年依图的人脸识别算法精度提升了 10 万倍。目前我们的人脸识别精度,可能比市场上的第二名要高上一百倍。这是为什么我们的产品竞争力很强,在市场上的口碑也非常好的原因。

当然,芯片的门坎很高,投入很大。我们过去两年里没有在吹嘘自己做了芯片,我们并不是为了「做芯片」而做芯片,主要是为了提升产品的竞争力,继续深耕行业来做这个研发,初衷非常简单。

另外,我们的优势还在于对行业的理解。这个优势我觉得不仅是体现在现在。我们决定做这款芯片的时候,是非常相信垂直整合的,有对算法深度的理解,有对行业深度的理解,加上有芯片的设计能力,从垂直的场景发力会变得越来越强。

Q:依图的基因偏向算法和软件,做芯片的团队如何组建和完善?

A:我们和ThinkForce联合研发。在研发过程中,首先你得知道你设计的芯片是干什么的,具体指在复杂的designspace里做什么样的权衡,这个非常难。以前做体系架构的人最困扰的一个问题就是确定芯片为哪些程序做优化,因为程序太多了。如果这个事情定义清楚了,那余下的才是芯片的设计能力。

Q:您提到最初我们是业务驱动,所以做芯片说为了让依图的解决方案从软件到硬件有一个更好的表现?

A:对。我们的诉求当然是找到一个最具性价比的,能够跑世界上精度最高算法的平台。

Q:有没有考虑用 FPGA 去做升级或者扩容呢?

A:我们更多拿FPGA来做验证。也就是你有一个想法、一些设计理念,可以很快用FPGA做一些定制化计算,验证性能是否能达到要求,再进一步优化功耗、体积等指标。

我们知道云端现在很多厂商,公有云都提供了FPGA的服务,可以帮助你非常快速验证你的想法。但是我觉得作为工具的角度,如果要追求极致是不太会停留在FPGA这一步。道理很简单,你会拿一个树莓派做很多验证,这个硬件挺酷,挺有用,但你不会把它作为一个终极产品推向市场。你一定会做自己的板子,做自己的外观形态,最后再推到市场上。

Q:后续产品的迭代也将会是这样的模式吗?由依图和ThinkForce双方配合去完成后续的产品更多的设计?

A:对。现在已经在筹备下一代芯片了。

Q:这款芯片的核心算法是依图的,依图的算法在不断迭代,但芯片的速度可能没有那么快跟得上。这个问题如何解决?一些算法厂商认为FPGA方案的灵活性在这个情况下可以发挥出来。

A:这个矛盾是存在的,算法发展非常快,而且变化也非常大,但芯片的周期却比较长,第一块芯片需要两年,第二块芯片可能快一点。但是,我们做芯片当然会意识到这一点,所以难度在于两年前你得预测到两三年之后的趋势是什么,而不是说为两年前那个状态做一颗芯片。

Q:芯片已经量产,那有没有已经落地的项目?

A:有。已经有客户签单。

Q:医疗场景能用吗?

A:医疗可以用。它主要是针对视频和图像处理做了定制化。因为我们有很多套算法,从视频、图像,语音识别、语义理解等等。这块芯片主要就是为我们大量的图像和视频算法做定制的,说明有一定通用性了。

Q:自产自用需要极大规模的业务量和前期投入才能支撑,代表公司包括谷歌云的TPU、华为云的泰山等。目前采用自研芯片可能会增加项目成本,客户怎么看这个事情?

A:举个例子,功耗能省1/3,对数据中心是很大的一笔开支。在客户的感受非常强烈,而不仅仅是打个九折的概念。

Q:具体看客户有一些什么样的反馈?

A:从我们和一些早期客户的交流来看,他们对于questcore™在功耗上面的节省和空间上的节省是非常兴奋的。

Q:大家对依图的认知是依图是一家AI+垂直行业,聚焦在应用层的技术落地公司,现在我们向产业链的上游延伸,可以理解为依图在转型吗?至此之前,类似的算法公司也提出过新的战略方向,依图是不是因为这款芯片的推出也有一些改变呢?

A:我们从一开始就深耕行业,全面发展。

Q:所以对依图的认知这是一家芯片公司,也是OK的?

A:依图处在上海,上海是中国非常重要的集成电路的中心,这里有非常多的人才和资源。我前面说了垂直整合,是因为依图非常清楚自己想要做什么。我们的信仰就是让AI去来解锁未来,一个AI更好助力人类的未来,我们对于这个信仰非常专注。此外,我们也做自己商业上更适用的事情,给自己带来更强的潜力。

Q:在中国做计算机视觉的公司中,其实不只依图一家有这个想法,整个行业的大方向会都可能是垂直整合,做了算法以后还会自己研发芯片,依图会这么认为吗?还是说这是一个比较小众的方向?

A:垂直整合能够带给你可能更强的未来。因为摩尔定律的终结意味着再没有免费的午餐了, 不可能等两天就能买到更快的硬件,所以要靠架构调整来改变。

软件和硬件有一个天然的隔阂,怎么去打破这个隔阂,利用新时代的挑战去做更有竞争力的算法,更有竞争力的芯片,是非常大的机会。

在能力上,依图一直以来都在做世界级的算法,所以我们也是在做世界级的芯片,其他人要做到这一点并不会那么容易。

Q:依图有没有新的融资计划?

A:我是偏技术这一侧,不太清楚这个问题。我觉得市场往后怎么看我们,对我们是不是有改观,是一件更有趣的事。这对整个市场也会是一个挺有意思的刺激。

Q:2017年做芯片是基于我们对两年后的一个预判,所以才有了这个项目。那么未来两年呢?

A: 今年将会AI芯片频出的一年。谷歌、特斯拉,很多公司在做垂直整合,这是一个非常明显的信号,是厂商行业落地的必然性。

在算法即芯片的时代,为算法定制做非常多的设计、做丰富的定制服务,才能让算法表现得更好。

整体来说就是两个趋势、一个是垂直整合,我觉得是一个非常大的机会,也提供了非常多的增强自己产品和未来的机会,另一方面就是「算法即芯片」,算法指导芯片的设计能带来的芯片的改动也将是一个非常大的趋势。