3月8日,阿里宣布自家的智能音箱销量已经超过千万,成为中国第一,全球第三的智能手机厂商。

从Strategy Analytics最新发布的研究报告指出,智能音箱是的确是2018年最热门的消费电子产品。

2018年第四季度,全球智能音箱出货量增长了95%,达到3850万台。超过2017年的全年总出货量,这种增长率堪比2012年前后的智能手机。

从市场份额看,国外的亚马逊与谷歌还有明显优势,2018年四季度,亚马逊的销量是1350万,谷歌的销量是1150万,而中国的阿里、百度、小米销量都在200万左右。

有意思的是,如果我们把中国三家厂商每季度的销量分开来看,就会发现中国智能音箱增长最快的并不是阿里,而是百度。

百度是全球前五中入场最晚的厂商,到了2018年二季度才开始发力,但是在短短几个月,百度就成为智能音箱的世界级巨头,这种增长速度是爆炸性的。

智能音箱这款产品始于2014年亚马逊的Echo,国内厂商纷纷仿效,经过数年优胜劣汰,阿里和小米到了2018年初已经傲视所有国内厂商。

百度真正发力智能音箱是在2018年中,“小度在家“这款全球首款带屏智能音箱在2018年4月份才公开招募内测。

而短短几个月,百度的智能音箱就如核弹爆炸一般急速增长,到了2018年底,已经是三巨头之一,而且销量几乎与阿里和小米持平。

2019年一季度有春晚的加成,百度拿下一季度销量第一应该不是问题。

百度成立已经很多年了,但是它最基本不做硬件,从互联网跨界智能硬件,百度在几个月内就从“青铜“一跃成为“王者“,这个奇迹是如何创造出来的呢?

一、 厚积而薄发

智能硬件看似是一个硬件产品,而实际上它的核心技术并不是硬件,而是AI的语音识别与搜索。

语音识别技术已经存在很久了,但是要让智能音箱有优秀的体验,不仅仅是正确识别语音就够了,而是要判别说话者的意图,给予正确的回应。

国内很多所谓的智能音箱,只是买了科大讯飞的语音识别技术,而百度的智能音箱核心技术是自己研发的。

百度对AI的研发,可以追溯到多年之前。

人工智能科技发展很早,但是一度遇到瓶颈,难以突破。互联网发展起来之后,人们发现人工智能科技中深度学习技术,可以依靠互联网的大数据不断进步,同时硬件的发展,特别是GPU通用计算的发展,让计算能力不再是瓶颈,AI有了进一步发展的可能。

于是,百度在硅谷等地成立实验室,投入重金,招募全球最好的AI专家,搭建百度大脑,开始AI的深度研发。

早在2014年(亚马逊推出Echo之前),百度的研发团队,就利用深度学习技术,研发出Deep Speech系统。

到了2016年,百度的Deep Speech系统已经进化到第三代。

传统上,对语音识别的人工智能技术是RNN(循环神经网络)。RNN是在DNN(深度神经网络)的基础上发展出时间戳,发展出长短时记忆单元,可以有解决时间序列的应用。语音识别是有时间序列的,所以业界对RNN用于语音识别的研究比较多。

而百度将深层卷积神经网络技术(Deep CNN)应用于语音识别声学建模中,将其与基于长短时记忆单元(LSTM)和连接时序分类(CTC)的端对端语音识别技术相结合,大幅度提升语音识别产品性能。这项技术借鉴了图像识别在近些年的成果,以及语音与图像在利用 CNN 模型训练的共通性,在语音识别技术上取得了革命性的进展。

《麻省理工科技评论》(MIT Technology Review)杂志在2016年度十大突破技术的榜单中把百度语音识别技术列为十大突破技术。

实际上早在2016年,百度已经有了顶尖的语音识别技术。李彦宏在百度科技大会的上发言可以由AI同声传译。李彦宏在Tech World大会上展示了AI与人的多轮对话。这些展示,远远超过市面上在售的智能音箱所拥有的水平,百度只是缺少一款转化的产品。