依图科技 CEO 朱珑:我们是如何做智慧城市的?

新旧血液不断融合,旧规则被打破,新边界因此扩宽。

作为最早一批闯入泛安防战场的 AI 公司,依图历经七年磨砺,先后参与全国近 300 个地市的公共安全建设,终于在前排段位中获得一席之地。

依图同时有着传统安防公司低调收敛的一面,在这个封闭而残酷的市场,少说多做永远是第一准则,所以我们很少看到依图对外谈起安防业务。在今天的厦门人工智能峰会,朱珑首次系统性地对外解构了当下依图布局智慧城市的核心思路,同时透露了将在厦门市推进智慧城市业务的计划,值得琢磨。

1、从视频和摄像头的角度来看,智慧城市的管理分为五个等级,从最简单的代替人记录、可追溯,到可检索,可关联,再到可预判、代替人的决策,最后可规划、代替人统筹。

2、智能技术要往下跃迁,最重要的就是提升基础设施,而智能技术的基础设施就是数据、算法、存储、算力和传输。

3、城市智能的提升以基础设施的提升为驱动,比如增加感知的密度,增加算法的识别能力……逐步累积就能在整个城市规模上实现智能等级的跃迁。

4、智能密度的提升分为宏观和微观两个角度。宏观上,单体智能要变成群体智能,识别的内容要汇聚在一起才能形成新的大的智能体。微观上,要普及成从一个算力到 1 万个,甚至 10 万个,算力要急剧提升,才能有经济性,高性价比的基础才能够普及开来。

以下为朱珑演讲内容,经机器之心编辑。

我先简单介绍一下我的背景,从中能看出美国研究人工智能的不同学派。我在美国待了十年,我的三位导师,一个是学理论物理出身的 Alan Yuille,他也是霍金的学生。第二个是我在麻省理工大学人工智能实验室读博士后的老板 Bill Freeman,他也是在今年 4 月人类首次拍摄到黑洞照片研究小组的领导者。

第三位大家可能比较熟悉了,纽约大学教授 Yann LeCun,他是推动这一轮人工智能浪潮兴起的技术——深度神经网络的其中一位奠基人,他也因此获得了 2018 年的图灵奖。由此可见,在美国从物理到深度神经网络再到脑科学,不同领域的顶级专家都在研究人工智能,他们推动了过去几十年人工智能的发展,让 AI 有了今天这个基础。

那么,人工智能现在处于一个怎样的状态?

刚才高文院士有讲到人类智能的演化用了大约 630 万年。我总结了人类文明的变迁:600 万年前,人类从直立行走到形成了最原始的社会形态用了,再到 1 万年前的农业革命,工业革命我们花了 200 年,而人工智能从一九五几年开始到现在,也就 60 多年的时间,人类的文明史或者是地球的文明史大致就是这么一个历史。

从眼睛看到这个世界的感知智能到语言也即认知智能的诞生,到今天很可能出现一个新的物种,那就是机器,它慢慢地具备了人类的智能。这里有两条曲线,黑色的表示从生物自然界产生的人类的智能曲线,另一条金色代表机器的智能曲线。当机器的智能曲线与人类的智能曲线交叉甚至超过的时候,文明的形态会是什么?这非常值得我们遐想和憧憬或者是思考。

我今天给出最重要的一个观点就是,文明的变迁靠的是科技的推动,科技推动就是基础设施的革命。这里我列了一些不同文明时代的基础设施,从刚才谈到的发明火到使用文字,农业文明时期有了轮子、道路;工业文明出现了蒸汽机、内燃机,有了铁路;信息文明,也就是我们过去 30 年的互联网时代,出现了计算机、PC、互联网、手机,人类克服了时空的障碍。这几个最重要的基础设施的变革,导致了文明的变迁。

我们现在处于什么时代?我们这个时代的基础设施又是什么呢?过去 30 年,CPU 运算能力提升了 100 万倍,存储能力也提升了 100 万倍,通讯能力也即数据的传输速度提升了 100 万倍。我们现在是站在过去 30 年的基础上来看接下来发展的基础。

智能时代只谈开始的时间可能定义得不清楚,这里只谈 2019 年回溯回去的过去五年,我们发生了什么、五年前是什么。

AlphaGo 在 2015 年的时候战胜人类棋手的那一天,也是机器以计算机视觉为代表超过人类的那一天,大家可能记忆犹新。人工智能现在已经非常火了,但就是这火的过去五年,机器又发生了什么呢?

机器的算法水平又提升了 100 万倍,什么意思呢?就是人脸识别为代表的错误率又下降了 100 万,它可以从 1 万人当中识别、1000 万人当中识别、 1 亿人当中识别出你,10 亿人当中识别你,甚至 20 亿人当中识别你,这是已经看似超过人类的那个时刻之后,它又提升了 100 万倍,算力提升了 10 万倍。

从过去我们用 1 万量级规模的数据做训练,到百万规模的数据做训练,到现在用 10 亿的数据集做训练,又提升了 1 万倍,速度是非常快的。

基础设施现在处于一个什么水平?当前发展了这么多,AI 处于什么样的一个水平呢?

我这里用比较通俗的语言讲:人不需要思考、本能地一眼瞄过去,能看见的、能说清楚的、能看懂的,这也是机器可以看到的;比如说这里有人,有座位,这个是机器可以看清楚的。但这么远要识别清楚,可能有点难;比如这里有多少个人?可能要数一数,谁跟谁近,可能要想一想,机器还不一定能做好。机器可以听懂什么?

能听懂一句语音识别,但理解一句话、一个段落可能就变得困难,对一个文章的理解还比较困难。非常低阶的智能机器已经可以或者接近可以了。我们觉得智能要往下跃迁,最重要的就是提升基础设施,我后面会讲基础设施是什么。

我把机器智能分成几个阶段:

第一个就是记录功能,没有任何的识别能力;第二级是可识别,比如说摄像头能识别人脸;到第三级可关联,不同的摄像头之间识别出来信息之间的关系是什么?怎么判断?这是有关联性;第四个是可预测、可预判;第五个是可规划。大概分这个级别。

我们觉得智能的提升是在基础设施的提升上。我举城市管理的一个例子,因为城市管理当中包括安防摄像头的覆盖,把刚才讲的五级智能做一个分类,从最简单的代替人记录、可追溯,到可检索,可关联,再到代替人的推理,代替人决策,最后到代替人统筹。

右边这一列是说达到这些级别的提升,我们要怎么做。摄像头规模从稀疏分布到 20 万级别、人员覆盖从重点人员进出到人群行踪的跟踪,从主干到到网格化密度。这里可以看到我们的感知需要增加密度,我们的算法需要增加识别的能力,慢慢地就在整个城市规模上,有智能等级的跃迁。

这是一个空间布局的感觉,当密度达到一定程度的时候,就可以在空间上或者一个关键场所的围栏上,形成自己的新的高阶的智能,比如看轨迹怎么发生、事件怎么建模。

我们提了一个概念:基础设施提升的关键在于,提升一个区域或者一个城市的智能密度。分两个维度来解释,一个是宏观上,单体智能要变成群体智能,一个摄像头的智能要变成 1 万个摄像头的智能,他们之间识别出来的内容是能够汇聚在一起,能够形成一个新的、大的智能体。

微观上,要普及成从一个到 1 万个,甚至 10 万个,微观上的算力要急剧提升,才能有经济性,或者说性价比较高的基础能够普及开来。

这是我们今年 5 月份发布的 AI 芯片,这是云端的一个视觉芯片,一块芯片能够支撑 50 个摄像头的算力,那一台 1U 的服务器可以支撑约两百路摄像头的算力,比同类的市面上最先进的英伟达的方案提高 5 到 10 倍的性价比。

一个是它的能耗降低了非常多,空间降低了非常多,降低多少呢?

一个机柜能够支撑一万路摄像头的全解析的功能,且机柜中有空间的限制、电的限制、能源的限制、算力的限制,这是在一个城市在做城市的智能等级的提升上面,有了非常重要的基础设施的准备。由此,我们就可以打开城市管理的丰富的场景。

这里列了大概 18 个场景,包括机场、火车站等等,可以解锁更多的应用。我们认为,今天从算法的成就到算法的提升,到我们整个城市或老百姓都能感知到,点亮 AI 就是要在基础设施上做重大的提升。

除了刚才高院士提到的人才资本和政策以外,我们认为基础设施就是数据、算法、存储、算力和传输,一定会在未来的几年会进一步以三倍、十倍的速度再加大速度提升,这才是革命性的,这个会让智能文明更快速的到来。

这是我们的一个小小的愿景,也是希望能够在厦门以 10 万路的视觉中枢为基础,助力厦门成为全球智能密度最高、智能等级最高的城市。谢谢大家。

举报
评论 0