语音这件事,科大讯飞为ES8提供了底层能力(应该是ASR,NLU),蔚来自有产品技术团队根据车辆使用场景进行了定制化开发,实现DM(对话管理)、NLG(对话生成,语料库设计)和TTS。不得不说,整体语音体验调教得相当不错。
发音人音色调教与形象设计
见字如面,听音识人
ES8的语音助理音色温婉,断句自然,甜而不腻,一个字:嗲。配合卖萌派智能交互机器人NOMI的形象、动作和表情设计,消除了人机对话的不真实感,颜控er应该会一见钟情。
NOMI机器人可进行上下30°,左右50°的摆动,表情动作随情景变换。播放音乐时会打拍子,雾霾天会带口罩,大晴天时会带上墨镜,主驾,副驾,后排有人对TA说话,TA会扭头注视,有人上下车会朝开门方向扭头表达欢迎或者恭送。
关于NOMI的表情,有的说只能体验到十几种,有的说有48种,还有的说是60多种,官宣更是号称要更新到成百上千种。由于静态测试体验不到太多场景,所以所见有限,但是表情库一定会随场景不断递增,这一点毋庸置疑。
全车一共搭载了4个麦克风,分布于前后左右四个座位,多麦克风阵列也实现了声源定位,可以左右NOMI机器人的动作朝向,以及提供不同座位的独立车控操作(空调,座椅,车窗等)。
语音通用能力
蔚来的语音表现,从Case-by-case的角度测评并没有很多亮点:
垂类覆盖不足
传统广播电台不支持语控;
明明有在线视频,却不支持语音搜索;
明明有相册,也不支持打开相册操作;
不支持查看所有应用(ALL APP);
……
亮点是支持启动车内自拍;
支持闲聊;
语音能力一般
噪音环境下唤醒率不高(比如放音乐时),
Query泛化不够;
不支持免唤醒;
不支持一次唤醒连续交互;
不支持唤醒+识别一次交互;
不支持纠错……
只支持普通话,据说以后会陆续支持多种口音和方言;(这一点有些奇怪,按说讯飞系语音的亮点就是对于口音和方言的支持。不过蔚来采用的是定制版TTS,对话管理应该是自行设计的,所以口音和方言的实现还需要时间进行训练和匹配)
垂类的深度上有一些亮点
除了支持常见的天气、导航搜索的多轮交互之外,还特别支持音乐的上下文理解和多轮交互,多轮搜歌能力较百度DuerOS略逊一筹,但胜在坐拥QQ音乐的庞大版权曲库,内容为王;
导航支持多轮交互,支持路况查询,支持查询还有多久到达,距离目的地还有多远;但是不能添加途径点,不能进行沿途搜索,不能查看POI详情,不支持问询POI的具体信息,不支持POI的多条件叠加搜索,不支持出行场景闭环服务(停车,加油,订餐,订酒店等);
支持车辆的程度控制,这点很实用;
缺点是不支持全场景闭环服务。
下面先详细分解一下语音功能和能力层面的亮点与槽点:
车控的亮点和槽点
亮点一,支持车窗,天窗等的程度控制,类似:
——————————————————
车窗开一半
前排车窗全部开一半
天窗打开三分之一
——————————————————
这些指令都可以支持。这是处女座人的福音,也避免了像我这样的强迫症患者扣坏车窗升降按钮的行为。目前市面上的车载语音产品中,暂时只发现蔚来ES8和北汽绅宝智道支持这样的程度车控。
亮点二,和斑马一样支持音源定位和区别操作,例如:
——————————————————
车里有点闷
好的,主驾车窗已经打开了
我太热了
温度调低了,副驾现在温度22.5度
我不需要空调了
前排空调已经关闭了
(副驾)我想吹风
已打开前排空调
——————————————————
全车的4麦克风阵列分布在前后左右四个座位,声源定位支持识别前排主、副驾和后排乘客,可以根据不同位置乘客的需求区别操作,单独进行空调、座椅和车窗的控制与调节。
槽点是车辆执行结果经常与指令不符
例如:
——————————————————
副驾:关闭座椅按摩
已关闭座椅按摩(实际关闭了主驾按摩)
副驾:关闭副驾座椅按摩
已打开座椅按摩,我来为你提供舒适的体验
我不想按摩啦
已打开座椅按摩。座椅按摩有轻柔、波浪,敲击三种模式可选哦
—————————————————
还有类似“天窗打开三分之一”的指令,虽然可以识别,但是操作成了天窗翘起;遮阳帘控制及车窗的程度控制也是如此,车辆的实际动作并不是语音指令中传达的那样;座椅按摩的例子更是夸张,操作完全反了。上屏文字是对的,也就是说ASR没有问题,是NLU出了问题,或者音源识别有问题:有时候副驾和NOMI说话,NOMI的脑袋还是朝着主驾方向。
多媒体搜索的亮点和槽点
亮点一:音乐搜索支持多轮交互
这是一些例子:
——————————————————
我要听王菲的歌
正在播放的是王菲的《匆匆那年》
我不喜欢这首歌
嗯,这就换(换了一首)
换一首英文的
正在播放的是XXX的《XXXX》(英文歌手的英文歌曲)
这首歌挺好听的
《轻柔》收藏好了
我想听法语歌
现在要播放的是XXXXX(外文歌名)
给我放首情歌
现在要播放的是范玮琪的《我们之间的事》
想要男生的
现在播放的是《XXXX》,男声版专辑的《XXXX》
换成对唱歌曲
现在播放的是伤感情歌,对唱专辑的《错错错》
我想听刘若英的对唱歌曲
现在播放的是刘若英和黄立行的《分开旅行》
——————————————————
可以按曲风类型、语种搜索,也可以按歌手性别,人数进行搜索;支持自然语言切歌,收藏等操作,但是不支持类似“不要英文的”这种否定性质的条件筛选。
亮点二:接入主流音乐与有声CP,资源优势明显
坐拥QQ音乐,喜马拉雅电台,考拉FM定制的品牌电台这些强大又主流的媒体内容资源,可以大大提升用户的满足度,否则巧妇难为无米之炊,花样搜索需要海量资源作为背书,缺一不可。
NLU问题:Query泛化不足
——————————————————
给我看看你能干嘛
这个问题难住我了,让我好好想想啊
查看帮助
我可以让旅程变更有趣,不管是想控制空调,净化器,车窗,座椅,还是要导航,打电话,拍照,听音乐和广播,都可以让我来帮忙
查看帮助
我会提供最舒适的驾驶环境,如果需要控制车内的设备,导航、打电话、音乐、广播、播报天气的话,可以都交给我
你会做什么?
我会的可多了,需要你慢慢了解我的
帮助中心
换个容易的说法和我说一下吧
——————————————————
同样表达“打开帮助”的意图,有的识别正确,有的识别为闲聊。
来看另外一组:
——————————————————
我今天不太舒服
你是不是胃病犯了?要不我带你去医院吧
好的
……(无回复)
肚子有点疼
是不是吃坏肚子了?赶紧吃点止泻药吧
今天空气不太好
今天襄阳空气质量良……
车里有点闷
好的,主驾车窗已经打开了
我挺冷的
天气冷了,多穿点衣服,注意保暖哦
我太热了
温度调低了,副驾现在温度XX度
开车的人太热了
天气太热了,一定要注意补水啊
好冷好冷好冷
好的,主驾温度现在调到了22.5度
——————————————————
同样表达“冷,热,身体不适”的意图,有的识别为需要进行空调控制,有的识别为闲聊。如果定位在闲聊,话术设计可不能随便涉及导航,车控等垂类,例如上文的“你是不是胃病犯了?要不我带你去医院吧”,用户会以为智能启动了“去医院”的意图设定,便会下意识回答:“好的”,然后发现,就没有然后了,尴尬。
细思极恐,怎用怎舒服的语音交互
口干舌燥测试大半天下来,虽说硬性指标体现的能力真的很一般,但整体感受是两个字:舒服。怎么用怎么舒服。
为什么呢?
失败回复语设计
话不多说,先体验一轮对话:
——————————————————
打开相册
没发现相册,或者不支持语音操作
上海汽车的股票
NOMI还不支持股票信息的查询
我要去美罗大厦
我找不到这个地方
明天一起吃饭帮我翻译一下
NOMI还不支持代翻译功能
启动雨刮器
这个我现在还做不了,试试别的吧
把车门上锁
这个操作我还不会
把车门上锁
NOMI不支持这样的控制操作哦
——————————————————
这些都是失败案例。对于语音能力“不支持”类型的回答,为了保持回复的多样性,通常的做法是设计一套或端庄,或俏皮的失败回复语,表达“没听懂,没听清,不知你在说啥”的意思,然后随机匹配扔给用户(类似斑马、讯飞的语音),但是蔚来不同。
对于系统不支持进行的Domain(垂类),Intent(意图),甚至Slot(槽位),蔚来还是会努力定位TA的Domain,Intent甚至Slot,然后明确回复用户,传达这样的信息:我听懂了你的诉求,但我的能力暂时还不支持这个领域的操作,潜台词是:可能将来我会很快学会这项技能。就像上面对话中的例子:我知道你的Intent是操作相册,股票查询,搜索POI,翻译等,只是我还不会。
继续聊ES8的回复语设计。
对待完全不支持的Domain,擦边球式讨巧设计
——————————————————
百度的CEO是谁?
忘记了,外国人的名字都好长啊(槽点:把Cháng读成了Zhǎng)
珠穆拉玛有多高?
有多高?我的老伙计,难道你一直没看到我两米八的大长腿吗?(槽点同上:把Cháng读成了Zhǎng)
我想看看热门电影
我也想知道耶,好久没看电影了呢
我想看动作片
哎,这个节目没版权呢,NOMI播不了
我想看电视剧《延禧攻略》
已经很久没看电视剧了,最近比较喜欢看电影
蔚来的股价是多少?
你没看吗?在市场上表现很好的
我想洗衣服
暂时无法查询洗衣服指数
(真实意图是想搜索洗衣店)
上海有什么好玩的地方?
上海有很多好玩的地方呀,比如东方明珠
帮我推荐襄阳好玩的地方
亲爱的,附近有很多好玩的地方啊
(真实意图是想要获取热门景点推荐)
我想去捏个脚
好啊跑步锻炼身体,要不要我陪你一起去
我想捏脚
是不是逛街走累了?咱们休息一下吧
(真实意图是搜索足疗按摩店)
帮我找个娱乐的项目
好的跟我读:波多野结衣(?)
(真实意图是搜索娱乐场所)
——————————————————
这里提到的百科知识、电影、股票,都是ES8完全不支持的Domain,而“洗衣服”,“好玩的地方”“捏脚”,“娱乐的项目”的是没有理解用户的真实意图,所有没有匹配给正确的Domain;这些回复语的设计都采取了擦边球的方式,根据指令中一些关键词的匹配,调取了语料库中与之相关的回复语,或者根据部分条件匹配一些通用话术,让用户感觉:虽然答不上来,但也不是答非所问啊,这是在就着话题跟我聊天呢,失望感会有所降低。
主动引导式帮助
再来看下这一组对话:
——————————————————
把所有车窗打开1/7
车窗不支持这种操作,试试别的吧
把所有窗户打开1/5
好的,全车车窗打开到20%了
我想要紫色的氛围灯
氛围灯不支持紫颜色,支持红、橙、黄、粉、白、灰、绿、蓝、淡紫、深紫色
那我要红色的氛围灯
嗯哼,氛围灯颜色切换好了
帮我把车灯打开
车灯会影响驾驶安全,只能手动操作
帮我打开示廓灯
示廓灯涉及行车安全,只能手动操作的
好冷好冷好冷
好的,主驾温度现在调到了22.5度,想要快速调节到15-31度的任意温度,可以叫醒NOMI后直接说温度,调节到多少度
打电话
(蓝牙已连接电话)正在帮你接通
(蓝牙未连接电话)要NOMI打电话需要先在手机上连接蓝牙才可以
播放广播
收音机要在中控的媒体中心中手动操作呢
这首歌很好听哦
收藏好了,下次可以说“播放收藏曲目”来收听这首歌
中途帮我找一家超市
我还不能沿途查找,可以试试在当前位置,或者在目的地附近找一下
——————————————————
这里有一些NLU上的瑕疵:深紫,淡紫也是紫色的一种,理应属于可匹配的操控。不过这里的亮点是:针对相同Domain的不同Intent,甚至相同Intent的不同Slot,蔚来都按照支持和不支持做区别回复,并针对为何操作失败进行原因阐述。
比如同属“车辆”Domain,氛围灯调色失败,不是不支持“操作氛围灯”这个Intent,而是“氛围灯颜色”这个Slot中没有找到紫色,为了帮助你了解失败原因,所以就明确告诉你:失败是因为“紫色”这个描述不对,而正确的支持范围是哪些,这样就可以协助你下回进行正确的交互,例如提及“座椅按摩”指令时,TA会告诉你:座椅按摩有轻柔、波浪,敲击三种模式可选。
另外,蔚来支持车辆Domain中的车窗控制,天窗控制,氛围灯控制,座椅加热,空气净化,除霜等,但不支持控制车灯、雨刮控制这样的Intent,当用户提及相关诉求时,回复会明确表明:我知道你在车辆Domain中,我甚至设置了“车灯控制”这项Intent,不支持是因为涉及驾驶安全,而不是我不会,不懂,没听清,正确的做法是手动操作。
这样子用户就可以明明白白的了解失败原因:到底是我没表达清楚导致你没听清,还是你听懂了但是不支持,还是我根本就说错了。如果真的错了,那么正确的说法和做法究竟是怎样的?就像鲁迅说的:要死也得让我死个明白。
这种来龙去脉一清二楚的回复语,远远好过简单卖萌发嗲说:抱歉啊我还没学会这项技能,人家还是个小孩纸~
毕竟,车内语音交互是一个以Task Oriented(任务导向)为主的对话系统,因为涉及驾驶安全,需要语音回复简洁有效,快速执行任务,那种Open Domain擅长的闲聊逗趣虽然也存在场景需求,但始终是第二位的。
任务引导式设计
再看下这段POI搜索的多轮对话:
——————————————————
帮我找一下附近的加油站
是选择距离当前位置700米的A加油站,还是两公里的B加油站?
要价格便宜的
刚刚找到的结果里缺少价格信息,NOMI没办法选择
Hi NOMI
要和NOMI说列表里的选项才可以哦,选哪个?
——————————————————
“缺少价格信息”——这里不支持按价格排序是因为没有取到价格信息,或是还没有上线支持加油站动态信息的CP内容,但是价格这个Slot是预设好了的;
“要和NOMI说列表里的选项才可以哦”——这是无法跳出POI选择的多轮而给出的引导信息。
类似的引导信息在导航中尤其多见:
——————————————————
我要去美罗
要选择美罗家纺,还是美罗家纺旗舰店?
下一页
这是NOMI找到的结果,选择一个吧
翻一页
帮NOMI确认一下选哪个吧
再翻一页
到头了,没法再翻了,有多个结果,我们要选哪个呢?
换一页
只有这么多选择了,选一个吧,帮NOMI确定一下我们选哪个吧
上一页
有以下选择,我们选哪一个?
美罗家纺
帮NOMI确定一下我们选哪个吧?
(页面展示符合“美罗家纺”条件的POI选项)
第2个
要选择哪条路?时间最短?距离最短?你也可以直接开始导航
距离最短
已选择距离最短,开始导航,前方左转……
中途帮我找一家超市
我还不能沿途查找,可以试试在当前位置,或者在目的地附近找一下
帮我在附近找一家超市
要选择距离美罗家纺200米的家万福商业广场,还是300米的赤眉超市?
(结果是在目的地周边搜索)
帮我在目的地找一家超市
要打电话还是导航去美罗家纺附近的赤眉超市呢?
(TTS对排序第一位的结果具有强引导性)
打电话
先在手机上连接好蓝牙,NOMI才能帮你打电话(自动跳出蓝牙配对界面)
(目的地已悄悄更换)
返回导航
好的,打开地图了
帮我在目的地附近找一个加油站
要选择距离赤眉超市4公里的加油站,还是500米的新市加油站?
按从远到近的距离排序
在赤眉超市附近找到好几个结果,要选哪一个?
按距离由近到远排序
已经按照距离进行排序,在赤眉超市附近找到好几个结果,要选哪一个?
嗯,不要了
好的,再见!
——————————————————
这套导航场景的暴虐测试简直惨无人道。
理一下逻辑:
1)搜索结果的翻页测试:不是简单的上一页下一页第X个,翻到最后一页还要虐一下语音助理,这里的回复语亮了,有应变,有诚恳,有坚持;
2)路径/POI选择的引导语设计:针对POI搜索的结果列表,TTS播报会询问你要导航去距离XX米的第一个,还是距离XX米的第二个,或者询问是导航还是打电话去第一个(针对具备电话信息的POI)?让用户不用移开视线就可以获取最优选项信息,以及可进行的操作;另外,强调“你也可以直接「开始导航」”也是在用引导用户说出下一步的操作指令「直接导航」,两种引导方式的叠加增大了用户盲操作的可能性;
3)不支持X操作(沿途搜索)的前提下,推荐了类似的Y操作(当前位置周边搜索)和Z操作(目的地周边搜索)可能性,引导用户退而求其次换为其他操作替代,减少需求不被满足带来的失望感;
4)用户选择了A(美罗家纺)设为导航目的地并开始导航,然后进行X操作(沿途搜索)被拒后采纳建议,改为Y操作(当前位置周边搜索),这个时候你会发现NOMI并没有执行Y操作,而是错误进行了Z操作(目的地周边搜索)。这有可能是上下文理解惹的祸——下文指令说“附近找一家超市”,而上文提及了“目的地附近”,可能是因为这样的关联而导致判断错误;
5)此时用户将错就错,重新进行Z操作(目的地周边搜索),页面给出了正确结果:C(赤眉超市)和D(百顺超市),但是TTS只读出针对排位第一的结果C的引导提示:电话还是导航?这样的引导是一把双刃剑,在快速获取结果信息的同时容易忽略其他屏幕信息。根据引导,用户可以说“打电话”,用户以为自己下达的指令只是“打电话”,但是机器下达的指令是:选择了C+打电话,所以执行导航去C+打电话给C的双重操作。再下一步,如果用户要搜索自己以为的目的地A(美罗家纺)附近的加油站时,会以为NOMI再度错乱,因为导航目的地已经悄悄换成了C(赤眉超市)。
挠头,抓狂,很绕吧?
规则简单粗暴显得呆板生硬,交互很不友好;代入智能判断有时又自作聪明,让用户丈二摸不着头脑。来去之间的“度”最难掌控,即使是这样单一场景内的多轮交互,也会产生这些意想不到的“惊吓”。决定你是人工智能还是人工智障的不仅仅取决于技术,还取决于大量真实的样本数据,“取之于民,用之于民”。就好像界面设计中的字体问题,按规则来说,同一层级的文字应统一字号,间距,基线等,没毛病,但是实际设计中会发现,相同字号下中文字和英文字,甚至不同字体的视觉感都会不同,升部和降部长的字体看起来会比其他字体显得更小一些,所以需要根据字体特征调整粗细,字号,间距等,力求达到视觉上的统一和谐。界面设计用眼睛看到的说话,对话设计则耳听为实。需要用户短时间内思考判断并脱口而出的交互更需要符合下意识交互,也就是符合真人对话的习惯和逻辑,这一点,挑战极大。
总感觉,蔚来的语音还是个半成品,框架往大了搭建,功能、体验、服务都有待完善,所以当前很多不支持但是可识别的Domain,Intend和Slot,除了涉及安全件不允许控制的类型(车灯等),其余都是蔚来未开发完成,正在或留待将来实现的东西,这是一个值得期待的悬念。
另外,除了语音,蔚来的整车智能也还没有全部完成,配置都预留了,太多场景有待完善和发掘,其中应该也包含语音相关的多模交互。
最后,不负责任的预测一下蔚来语音发展的Roadmap:
1. 增加本地语音引擎,实现本地车辆控制等无需完全依赖网络,需要快速响应的功能;
2. 补全垂类的缺失,让语音覆盖系统的全场景操作;
3. 深入高频场景的语音能力挖掘,合作更多互联网公司;
4. 利用车内外摄像头+图像识别技术,发掘更多场景的多模态交互,提升语音智能度;
5. 提供更多主动交互和智能推荐。
总结
明确的指标层面上,蔚来的语音交互乏善可陈;但是用户体验层面,却让人感觉
自然,妥帖,靠谱.
就像文中描述的那样:怎么用怎么舒服。这种舒服来自好听的音色,精心的回复语设计,以及答案的靠谱性。
最高级的聪明,是靠谱。最好的靠谱是:凡事有交代,件件有着落,事事有回音。
明明白白交互,舒舒服服交谈,良好的第一印象就这样打下了烙印,再往后的功能扩展,体验打磨全会变成锦上添花的惊喜存在。
声明:本文内容及图片由BC-AUTO转载至网络,来源于公众号新人类未来研究所。