
首先,百度智能视频音箱是“智能音箱+屏幕”的组合,问题描述的很准确。这是个什么需求呢?人是一个多感官动物,任何一个好的产品在体验上都应该满足“调动单独感官完成基础功能,调动多个感官可以带来更完美体验”的标准,比如你在做饭时,跟小度在家说“小度小度,番茄炒蛋怎么做”,小度在家直接给你找到食谱,同时给你播放番茄炒蛋的视频,是不是比一点点的听更直接高效?(PS:连番茄炒蛋怎么做都需要攻略的人,不配拥有厨房。)其次,所有的智能硬件都避免不了走向同质化,智能程度几乎是衡量一款产品好坏的唯一标准。
带屏幕的智能音箱不只有小度在家,还有天猫精灵CC、小米小爱触屏音箱等。既然作为一个“音箱”的升级产品,行业发展多年已经非常成熟了,如果不够智能,那要你何用?屏幕大小、分辨率、电池容量、外观设计等等,这些都都没有分析的必要,用钱就可以解决的问题。但在智能程度这一点上,小度在家还是值得一夸的。
举个例子
我:小爱同学
小爱:我在
我:放首歌听
小爱同学:好滴,小爱陪你一起听歌
我:小爱同学
小爱同学:哎
我:这是什么歌
小爱同学:现在播放的是xxxx
我:小爱同学
小爱同学:我在
我:这首歌是哪张专辑的
小爱同学:好啊,让小爱陪你一起听歌吧(答非所问并且切换了另一个首歌)
转向小度
我:小度小度
小度:在呢我:放首歌听
小度:音乐如心情,小度陪你共同感受
我:快进一分钟(歌曲快进一分钟)
我:这是哪张专辑的歌
小度:这张专辑是xxxx
我:今天天气好热啊,收藏这首歌
小度:收藏好了
差距已经很明显了,小度在智能这一层面上相对来说更高级一些,不仅不用再次傻傻的唤醒小度,在沟通方式上也更加拟人,理解能力满分,也不会误回答和它不相关的话。现实生活中,小度就像是对你已经有一定了解的朋友,她了解你的习惯,并且可以轻松实现连续对话。不过小度在家也不是刚开始就那么智能,突然变的更聪明了,跟最近百度推出的双全工唤醒功能有关。
附:小度在家X8智能音箱更全面的功能介绍:https://dumall.baidu.com/product/124568596676619?skuNo=S20202200110057
字面意思,“免唤醒”就是跟小度对话时不用每次都说唤醒词,开通极客模式后可以在上次对话“30秒内“再次进行对话,直接描述内容即可,真正做到了一次唤醒连续对话。“全双工” (Full Duplex)是通讯传输术语,可以同时进行信号的双向传输(A→B且B→A)。
单轮交互:比如手机上的语音助手,最早的形态就是单轮交互,问一句答一句,可到了智能音箱上,每次对话都需要唤醒就变得很不方便。
多轮交互:亚马逊遇到了这个问题,开始寻求解决方案,当用户需要问一个复杂的问题时,比如打一辆出租车很难一句话把时间、地点、行程都说清楚。亚马逊引入了多轮交互的概念,像步话机一样,双方只有一边可以说话,但是等AI说完了之后,它会重新打开它的耳朵去听说接下来人会说什么。
持续监听:典型的是科大讯飞的AIUI模式,试图去持续地监听用户发进来的语音消息,每听到一个语音给出一个回答。可惜的是,每播放一个回答都要占用一定时间,如果一个人连续问了两个问题的话,可能第一个问题没回答完,第二个问题又出来了,就把原来第一个问题覆盖掉,体验反而比之前的单轮交互、多轮交互更差。
最后是百度的全双工模式:一个连续的上行的语音流,把用户的声音传到人工智能耳朵里,然后再有一个同步的下行的语音流,把人工智能的话传到人的耳朵里,就好像人和人在打一个电话一样。听起来并不复杂,实践起来却很难。传统的半双工只需要语音识别、对话引擎、文字到语音的转换TTS等模块,全双工需要连续的语音识别、语言的对策、对话引擎,需要文字到语音的转换,还要进行节奏控制和场景识别,对硬件设计和算法都是一场考验。比如你刚刚唤醒小度小度,突然接到了一个电话,AI就要准确识别你的语音是不是给智能音箱的指令,该不该作出回答,什么时候进行回答。
不过,全双工交互的魅力在于,用户一旦习惯了更自然的对话,就很难退回当初,在这个技术上跑在行业前面,无疑是智能化最直接的表现。目前百度的“双全工免唤醒能力”已在小度在家系列产品上线,小度在家、小度在家1S、小度在家1C上全面升级,可以说是当下最智能的音箱。
本文出自知乎:https://www.zhihu.com/question/269092345,作者:俞怀瑾