智能音箱什么牌子好?智能音箱怎么选?智能音箱买哪个好?智能音箱哪个值得买?智能音箱哪个性价比最高?

智能音箱什么牌子好?智能音箱怎么选?智能音箱买哪个好?智能音箱哪个值得买?智能音箱哪个性价比最高?

  • 回答数

    8

  • 浏览数

    14

  • 关注者

    0

8个回答 默认排序
  • 默认排序
  • 按时间排序

mj5b90350c 编辑专家

在使用层面,小爱音箱 mini 和小米 AI 音箱的差距不算大,均是一句「小爱同学」便可开启智能操控(支持语音唤醒的小米设备别放一起,不然会同时响应,后续官方会通过固件更新的方式解决这个问题)。直至目前,小爱音箱 mini 可以控制的智能设备多达 37 款,涉足的设备也小到智能开关,大到电视、空调,这些东西单个发布时我们似乎感觉不到那所谓的智能化,但现在整合在一起来看真的是一股很强大的力量了。如果说之前小米的智能设备都个点,那么小爱音箱 mini 出现就为了将它们连成一条线。


不过,虽然在生态链的构建方面小米做得不错,但落实到产品本身,小米还是差了那么点儿意思。比方说,小爱音箱 mini 所连接的 App — 小米 AI,在内容方面就稍显落后,内置的音乐库不够全,或者说有那么点老旧;再有,看着小米 AI App 这个主界面是不是觉得内容很丰富呢?但实际上,你如果点击「更多」就会发现,内置的内容还真的也就主界面显示的那些。在线音频内容的匮乏,是小米目前所面临的尴尬局面,考虑到各大服务商独占版权,小米估计后续也只能通过合作的方式增加内容库了,这里其实可以参考一下 SONOS 的做法嘛,我个人觉得可行。

取消 评论

alaxiba3 编辑专家

软件类

目前来看,小米 AI 音箱和小爱音箱 mini 的布局有些类似于亚马逊的 Echo 和 Echo Dot,一大一小,分别面对不同的消费人群,不过考虑到小米 AI 音箱的售价也就 299 元,如此小的差距真的不会影响到小爱音箱 mini 的销量吗?当然,如果很多人只是将小米 AI 音箱当做玩具来看的话,更便宜的小爱音箱 mini 自然是首选了,而且我觉得小爱音箱 mini 比小米 AI 音箱好看一些。(其实也就是一个电饭煲和一个空气净化器的区别)

和米家的其他产品一样,小爱音箱 mini 的机身配色还是全白,顶部的按键为实体键,功能也就四个,少了之前小米 AI 音箱上的切歌键。有意思的是,虽然小爱音箱 mini 的机身小了,但渲染灯却没少,位于机身顶部的渲染灯会根据模式的变化而变化颜色,还是比较好看的。


取消 评论

alaxiba3 编辑专家

软件类

记得很多年前,物联网的概念还在以未来生活为模板向大众进行着科普,而现在物联网的例子却已经实实在在的出现在了我们的生活之中,譬如如今大热的智能家居。试想一下,你家中的任何电器都已经熟悉了你的习惯,无需动手就可以配合着你的日常家居生活,仿佛一位贴身的管家一般,这样的体验谁又不想去拥有呢?

既然有了体系,自然需要一个入口,音箱便成为了智能家居中扮演管家的那一位。我曾对于音箱作为智能家居的中心抱有疑问,但体验了一段时间后才发觉这种谈话般的交互交给音箱来做才是最适合的。事实上,国内的智能家居并算不上普及,至少智能音箱这类产品你很难在一些数码店或者商场里看到,不过这不代表国内没有厂商在这方面做得出色,小米就是个例子。

我相信,如果说小米是国内在智能家居领域做得最全面、最领先的厂商,没有人会持反对意见。这里不得不称赞一下雷军的眼光,在其他厂商还没反应过来的时候,小米就已经逐步建立起了自己的智能家居生态。你以为小米想开百货店?其实人家是想给用户一套完整的生态链,各个产品之间产生联动,给予用户最为连贯的使用体验,而等到智能家居的布局差不多形成的时候,小米自家的智能音箱也该开始涉足了。

2017 年 7 月 26 日,小米 AI 音箱正式发布。

299 元的小米 AI 音箱对于家中拥有诸多小米智能设备的人来说极具吸引力,售价低就不多说了,可以智能操控其他小米设备才是其真正有价值的地方,况且还附赠了音箱的功能呢(笑)。或许小米期望将智能音箱真正普及到每个人的手上,所以更为便宜的小爱音箱 mini 出来了,功能没什么少,价格却降到了 169 元。


取消 评论

y5j65258ff 编辑专家

在智能音箱领域,笔者一度认为已经很难有企业能与小米竞争。因为虽然众多厂商发布了五花八门的智能音箱,但是依靠生态优势,只有小米的小爱同学能成为智能家居的语音控制中心。在笔者体验过多款智能音箱后,只有小爱同学没有放在一旁吃土,原因很简单,就是她能帮我打开小米空气净化器。


但是最近,小爱同学我也很少用了,一是近期天气不错,不需要使用净化器。更重要的是,每当我让小爱同学播放热门歌曲时,她的回答总是:小爱正在努力争取这首歌的版权。作为智能音箱产品,居然大部分的热门歌曲都无法播放,这实在是很尴尬。


随着技术成熟,各品牌智能音箱在语音识别等方面的差距会越来越小。所以在我看来,智能音箱只有两个方面的体验最为核心,那就是音乐播放和智能家居控制。因为只有这两个需求是频发需求,这么多巨头重视智能音箱的原因就是看好它会成为智能家居的流量入口,但是要想成为入口,高频的需求是必不可少的。除此之外,阿里的天猫精灵或百度的小度在家瞄准的搜索和信息识别等需求,智能音箱的体验并不会优于手机,需求频次也并不高。


在音乐播放方面,腾讯听听绝对是当前体验最好的产品。一是远远优于竞品的音质,二是领先行业的音乐版权储备。在智能家居控制方面,小米同样遥遥领先,目前,小爱同学已经能控制众多小米智能家居产品。


随着小米推出百元级的小爱同学mini,可以说小爱同学已经被定位成智能语音助手,音箱音质被战略性放弃了,小米要的是销量。而腾讯听听则选了一条完全不同,却是唯一能走通的路,小米做语音助手,腾讯做音乐音箱。


取消 评论

4 月 17 日下午,腾讯在北京 798 艺术区举办了旗下智能音箱产品腾讯听听的媒体品鉴会,笔者作为自媒体代表受邀参与,有幸提前体验到了这款产品。而在今年早些时候,猎豹、阿里巴巴、百度都分别发布了自家的智能音箱产品,小米也推出了小爱智能音箱的mini版本。 2018 年的智能音箱市场可谓热闹非凡。

可移动使用和与微信打通是腾讯听听官方宣传的主要亮点,但是在实际测试中,这两个亮点并不成熟。内置锂电池的腾讯听听虽然可以实现多种场景的移动使用,待机时长也达到 16 小时。但是因为音箱重量不轻,且在断网情况下无法语音控制,相信移动使用的场景将非常少。至于微信打通,目前也还只是个噱头,实际体验还不够好,让用户跑到音箱旁边按住按钮发送一条语音消息,实在是不如用手机直接沟通来得便捷。

腾讯听听真正的亮点,显然是突出的音质。在媒体评鉴会现场的音质盲测中,腾讯听听得到了到场媒体的一致认可。笔者在家中也使用听听音箱与小爱音箱进行了对比测试,作为对音质并不敏感的用户,我还是能明显感受到腾讯听听在音质表现上的优势。


取消 评论

k46y019f68 编辑专家

HomePod是苹果旗下首款智能无线音箱,并且可以与亚马逊Echo和谷歌Google Home进行竞争。唯一的区别是,HomePod的音质更好、价格也贵了不少。


虽然一些批评人士认为,苹果现在进入这个市场已经有点晚,但对果粉们来说有一个非常具有说服力的理由,第一个起跑的人不一定会赢得比赛。虽然当初iPod并不是市面上首款MP3播放器,同时在第一代iPhone问世之前,智能手机就已经大行其道了。另外苹果的AirPods无线耳机也取得了成功,而这款产品进入市场的时间同样也并不算早。


既然HomePod的售价高达350美元,那么苹果就必须向用户和粉丝证明自己物有所值。毕竟比竞争对手贵这么多,大家都想知道自己的钱花在了哪里。


音效出色


苹果公司表示,HomePod智能音箱的音质会让很多智能音箱类颈枕对手汗颜,尤其是与亚马逊和谷歌的廉价产品相比。这个不到7英寸高的“小胖子”内置了7个扬声器阵列、6个麦克风阵列和一个4英寸低音炮,每个部分都经过专门设计,并且可以精确定向,能够针对不同的方向发出声音。


相比之下,谷歌售价130美元(约合人民币830元)的Google Home只有1个扬声器,而亚马逊售价100美元(约合人民币670元)Echo有两个扬声器。50美元(约合人民币320元)的Echo Dot更是在迷你的体积里只有一个小小的发声单元。


HomePod还内置了先进的传感器,可以对整个空间进行分析,可以知道墙壁在哪里、角落在哪里。然后HomePod会使用音频波束将声音聚焦到房间的中心,同时将声音投射到四周的墙壁上。


用户的语音命令声音和播放音乐的声音可以被直接投射到房间的中央,或者从墙壁上反弹回来营造出一种环绕音效。它甚至可以通过在多个高音之间分离音频通道来实现立体声的效果。我们还可以在同一个房间里摆放两个HomePod,它们会自动监测彼此的位置,创造出真正的立体声音效,同时将音频调到房间的中心,而不是互相靠近。


HomePod还拥有一个专门用来进行声音辨析的低音音箱,这就意味着HomePod的电机驱动隔膜达到了完整的20毫米。苹果表示,这样的参数对于HomePod这样大小的音箱来说非常棒,意味着更多的空气震动、可以产生效果更震撼的低音。


HomePod的低音音箱尺寸为4英寸,光这个组件就要比亚马逊的Echo Dot还要大。


HomePod还内置了低频校准麦克风,可以监听低音效果,因此这款智能音箱可以自动调整并对其纠正。正因为如此,苹果已经可以通过HomePod大幅削减声音失真,而这种现象在其它产品中其实很常见。


外观设计


HomePod提供了白色和灰色两种颜色,其实灰色更接近于黑色,而不是传统意义上的灰色。从尺寸上来看,HomePod的高度为6.8英寸,宽度为5.6英寸。相比之下,亚马逊Echo的高度为9.3英寸高,Google Home的高度为8英寸。


苹果说,HomePod的合计可以让内置的6个麦克风更好的接收用户的指令,计算是在大声播放音乐的时候也没问题。与此同时,HomePod的竞争对手只是直接在电路板上焊接了麦克风,而不像HomePod这样在外部采用分离式的设计。


内置处理器


HomePod内置了苹果A8处理器负责大脑处理任务,与iPhone 6和iPhone 6 Plus的处理器相同。


虽然A8处理器现在看起来稍显过时,但是这款CPU却可以承担很多的任务。比如对低音扬声器进行实时软件建模、直接对环境音频进行混合、实时缓冲以及形成音频波束和多通道的回声消除。


这枚A8处理器还负责Siri的任务,与iPhone上的Siri一样,她可以用来做任何事情,从查看天气、转换单位、播放播客、查看附近交通状况、设置闹钟或提醒,甚至还可以发送短信。


相比之下,根据iFixit的拆解来看,Google Home的处理器、闪存和RAM都是与第二代Chromecast相同,而后者的售价只有35美元(约合人民币223元)。


安装和连接


HomePod的安装方式很简单,只要插上电源开机,你的iOS设备就会立刻检测到它。当然,你的设备必须运行的是最新的iOS 11.2.5或以上版本系统。


HomePod支持最新最快的蓝牙5.0网络,以及MIMO技术的802.11AC Wi-Fi连接,这项技术可以让HomePod同时在多个发射和接收装置中传送数据。


当HomePod接入到家中的Wi-Fi网络之后,iPhone用户还可以通过HomePod进行免提通话。当有电话进入的时候,HomePod会通过语音提醒内,然后在iPhone上做出应答后,通话就会被转移到HomePod上。


当AirPlay 2发布的时候,你就可以在多个房间里同时使用HomePod了,它们之间会互相通信,这样多个HomePod就会同时播放相同的音乐。同时它们还可以在不同的房间里不妨不同的音乐,一起都可以通过HomeKit控制。


HomePod也兼容HomeKit,可以让用户通过Siri来控制智能灯泡、设置恒温器、打开花洒、或者控制任何兼容苹果智能家居平台的设备。


现在一些批评人士认为,苹果Siri在智能语音助手方面,已经远远落后于亚马逊Alexa和谷歌Google Assistant这样的对手。不过苹果现在已经推出了HomePod这样的硬件,那么通过未来的软件升级,Siri依然还有很大的成长空间。


手动控制HomePod


对那些不想用语音控制或者不能用的朋友来说,HomePod还提供了触控屏幕,就在HomePod的顶部。


在顶部的屏幕上点击或按住“加号”或“减号”,可以直接调整音量。用户还可以点击中心的播放或暂停按钮,双击进入到下一首音乐,再点击三次回到原来的歌曲。


另外,这款屏幕还可以显示用户用来与Siri交互的过程。熟悉iPhone的朋友都知道,Siri对于每个单词的识别,都可以通过特定的波形显示。


播放音乐


HomePod是在苹果音乐订阅服务Apple Music基础上打造,因此可以直接播放Apple Music中超过4500万首流媒体歌曲。同时Siri可以在播放列表中添加歌曲,或者保存多个喜欢的歌曲。随着时间的推移,Apple Music将会了解你对音乐的品味,并以此为依据对推荐播放音乐列表进行微调。


如果你还不是Apple Music的用户,那么可以免费试用三个月,并且可以随时取消。如果你喜欢苹果的这项服务,可以每月10美元的价格订购。家庭多用户捆绑费用为15美元/每月,学生用户为5美元。


当然,就算不订阅Apple Music一样可以使用HomePod,它可以直接播放iTunes音乐库中的歌曲。你还可以通过AirPlay来播放任何支持的流媒体音乐,比如Spotify和Pandora等。不过这些服务在对Siri的兼容性上并不是太好。


HomePod还支持多种格式的音频文件播放,比如MP3、WAV等。


总结


显然这已经不是苹果第一次推出高品质音频产品了。苹果在2006年发布了iPod Hi-Fi,但由于当时价格太贵并没有流行起来,而且在2007年就已经停产。10年后的今天,我们不确定苹果是否已经从之前的失败中吸取的教训。


但是HomePod留给我们的早期印象非常不错。在去年的WWDC全球开发者大会上我们已经了解到了这些HomePod的消息,但不知道当HomePod真正上市之后会有多少用户支持和买单,以及苹果这款产品会有怎样的表现。


取消 评论

k46y019f68 编辑专家

综合来看,认为智能音箱玩家中小米的优势是最大的。


先发优势:

品牌优势。相比较阿里、京东、百度等巨头。做了诸多爆款硬件的小米,天然具有品牌优势。

价格优势。299的价格也是没谁了……国内智能音箱发展到今天,撑死就只能算“可用”,离“好用”还很远。体验上没有议价空间,消费者当然谁便宜选谁啦。


产业优势:

硬件技术优势。智能音箱,大体可分为,声学结构、系统芯片、发声单元,相比以往的蓝牙音箱,除了要“讲得好”以外,还要“听得好”。而“讲”(频响)和“听”(回声消除)又是强耦合关系。这对于传统硬件厂商或者习惯了做软件的互联网公司,这方面绝对是一个从0到1的过程,巨头还好,有足够的试错预算。但对于中小型创业公司,可能一仗下来,不是死的死,就是残的残。而至于小米,却是个从1到10的过程,硬件BOM、工程结构大多都在小米现有射程范围内,唯一可能需要加强的是声学结构的技术实力。所以,大概率胜任。

供应链优势。小米敢做299的价格,除了战略、资金实力因素之外,当然还有小米的供应链能力。供应链优势事实上是和硬件技术优势配对的,公司的硬件能力越强,对于选型、ODE越有控制力。这带来的好处是,产能节奏和成本控制能力。


以上两点,可以帮小米获得一定的先机。但被视为人工智能时代的入口级的自然语言交互如果真的想做到好用,不可获取的硬实力有几点:


1.自然语言模型能力。即从唤醒到识别,到语义理解并执行,再到语音播报。这里面每个环节都是一套人工智能算法模型。这些是智能音箱,或者说自然语言交互,最基础最底层的需求。其中一环出现短板,后续的产品做得再好也无法弥补。

2.自然语言大数据。以上模型要很好的生效,需要不同类型的大数据喂养,有了数据量的积累,体验才有可能发生质的变化。

3.资源。从唤醒到语音理解结束,就是执行。执行能力和所能调用资源的能力成正比,大到听内容、叫外卖,小到查航班、问天气,能让用户一句话解决的资源问题越多,体验当然就越好。

4.IOT联动。可以预见,未来智能音箱会扮演家庭智能硬件中控的角色。之前,很多厂家试图让手机胜任这样的角色,但GUI在交互执行层面存在着先天的短板。而CUI在基于IOT交互执行的效率基本是吊打GUI,简称,能BB,憋动手(参见)。所以,如果通过语音交互能够形成智能家居的互联生态,会为用户节省很多操作成本。


具备以上四个方面,智能音箱可以视为好用。其中1和3,是短期内各家都能看到也都在努力解决的,有了1和3产品基本可用,同时在这个过程中可以获取2,从而更进一步。最后,随着智能家居普及、传统巨头转型,慢慢做到4。


以上4点中,

百度在自然语言模型和文本层面的大数据层面具备比较大的优势,远场语音大数据各家都不具备优势;资源方面,各家能力基本差不了太多,另外从资源对接的市场策略本身不应该存在排他性;而IOT联动,小米有着较大的优势。小米生态链产品基本能够覆盖大多数家庭的各个场景,且已经形成了互联。所以从硬实力来看,小米也有着不大不小的优势。


综上,在智能音箱之争,小米的优势更大。


取消 评论

7mwt92d9d3 编辑专家

智能音箱的本质其实是“智能助理”,音箱这个硬件只是一种载体形式。

“智能助理”=“智能”+“助理”,“智能”表现的是AI的技术深度,而“助理”表现在体验层次上,是服务的质量。两者相较,“智能”是关键吗?其实恰恰相反,做好“助理”才是重点,“智能”是为助理“更好地理解用户需求”和“提供有价值的服务”的,但服务的深度所需要的远远不只是技术的深度,智能只是其中一个维度,纯有智能不过是空中楼阁。

而目前的智能音箱,是否在做产品时颠倒了头脚?是否真正在从助理层面思考,在用“心”做产品?


将用算法式的产品思维来剖析智能音箱这款产品。通过有趣且大道至简的算法视角来看一些通用性的规律,从而帮助我们对这款产品有更深的理解。希望这个思路可以帮助大家更直接地去分析每一款已经面世或即将面世的智能音箱,从Echo,Google Assistant,HomePod,到天猫精灵、小爱同学等。


整体的算法如下


因为“智能”是“助理”的能力素质维度之一,是包含关系,下面用约等号。

“ 优秀的智能助理 ” ≈ “ 优秀的助理 ”

而“ 优秀的助理 ” = “ 优秀 ” + “ 助理 ”

那么下面需要解释“优秀”和“助理”这两个词。


透彻理解“助理”


解释优秀之前,首先来理解一下“助理”这个概念。

算法的本质是对世界规律的抽取,越底层越深刻,因此第一步就是抽取现实世界中“助理”的规律。


在思考这个复杂的问题前,不妨把复杂问题具体化。可以分解为以下几个问题,问题之间逐步递进:

问一:哪些人会请助理?以及这些人愿意承担的价格?

问二:他们请助理的动机是什么?

问三:助理的工作内容、流程是什么?

问四:一个优秀的助理需要哪些能力和素质?

问五:助理的工作做到什么地步会让人基本满意?

问六:做到什么会让人惊喜?


回答完这些问题,80%的规律基本就可以抽取出了。(其中部分问题的答案会穿插在本文中,也欢迎大家在评论区表达自己的看法,一起讨论。)


首先,“助理”的工作流程是什么?

简单来说,就是搞清楚助理的老板想要什么,然后把事情办好。所以有:

“ 助理 ” = “ 理解用户的需求 ” + “ 提供有价值的服务 ”

(理解用户的需求是提供有价值的服务的前置条件)


然后,评价一个助理的优秀程度的方式可以由上被推导出来:理解我需求的程度和你知道后能为我提供多大价值的服务。

“ 助理优秀的程度 ” = “ 用户的需求 ” 的 “ 理解程度 ” + “ 提供服务 ” 的 “ 价值大小 ”


接着,对于助理来说,理解用户需求的流程是什么?

首先可以肯定的是需求理解是一个交互的过程,而对于“音箱”这个载体来说,交互的方式是“语音”,所以这里的:

“ 助理 ” ≈ “ 语音助理 ”


那么一个语音助理理解用户需求的交互过程是怎样的?

首先第一步是要听清用户说了什么,第二步是理解用户说了什么,所以:

语音助理 “ 理解程度 ” = “ 听清 ” 的程度 + “ 听懂 ” 的程度


怎么定义听清?

听清涉及到几个方面,隔多远能听见,不同方向是不是都可以听见,说多大声才能听见,噪音有多大还能听见,能不能识别出特定的人,多人对话时听谁的,夹杂方言是不是能听懂等。

很明显,这些都是生活中常常会遇到的事情,因为生活场景是复杂的。但其实归纳到技术上就是语音识别ASR(自动语音识别技术)+远场拾音,即:

“ 听清 ” 的程度 = “ 语音识别系统的质量 ” + “ 远场拾音的质量 ”


而语音识别系统的性能大致取决于以下4类因素:

1. 识别词汇表的大小和语音的复杂性;

2. 语音信号的质量;

3. 单个说话人还是多说话人;

4. 硬件(如麦克风阵列)


具体到生活场景中时,不必那么复杂,基本上保证“听写的准确度”就可以了。

“ 语音识别系统的质量 ” = “ 听写的准确度 ”

“ 听写的准确度 ” = 语音识别算法的 “ 准确率 ”


而“远场拾音的质量”也可以简化,也就是能适应多复杂的环境,即

“ 远场拾音的质量 ” = “ 适应场景的广泛度 ”

“ 适应场景的广泛度 ” = 硬件上 “ 麦克风阵列的质量 ” + “ 其他技术 ”


“适应场景的广泛度”如何理解,这里可以举个例子:

当Alexa在客厅而你在其他不远的房间的时候,你可以以稍大于正常说话的音量和它沟通;

当Alexa开着大音量的歌时,你用正常声音说话它也依然能听得清。

这些都是明显的高场景适应度的例子,让人类在各种环境下都能轻松和它交流。 另外补充一个重要的场景体验——“唤醒词”,相关的参数是“唤醒词长度”、“唤醒后的持续对话时间”以及“误唤醒的程度”。 据使用过目前市面上一些智能音箱的用户描述,使用这些音箱时,用户说每一句话前都要重复使用唤醒词,这样智能音箱才能听懂后面的内容。另外,越短的唤醒词使用的难度越大,尤其是中国人更偏向于用二音节的词。但即使是四个字的唤醒词也经常会误唤醒,因此带来不好的用户体验。但为了增强持续对话的能力,减少误唤醒的概率,一些智能音箱依然需要每次都加唤醒词。

至于听写的准确度,这个就不做解释了,小学大家都经历过听写,很容易理解。


怎么定义听懂?

对于“听清”来说,其本质是将语音信息变成了一段符号化的文本。

听清之后就需要听懂,听懂不只是语义上的理解,而是一个相对来说较为复杂且需要交互的过程。听懂是后续服务执行质量的关键和前置条件。

“ 听懂的程度 ” = “ NLU技术水平 ” + “ 用户模型的利用度 ”


这跟我们和人类说话是类似的,需要结合这个人的用户模型(如性格特质,爱好等)读懂对方说话的意图。

拿 Alexa 举例,讲讲实现“听懂”的流程:

用户:“Alexa,冰箱里啤酒没了,再帮我买一些吧”

Alexa:“好的,还是买你上周买的“青岛啤酒吗”

用户:“是的”

Alexa:“买一箱吗”

用户:“嗯,一箱就够了”


在这个场景下,你会发现听懂,以及对用户需求的理解不是单向的,而是需要通过交互来实现,通过交互将需求进一步清晰化、准确化。具体流程是这样的:

①用户说出自己的需要→②助理尝试理解你的意图→③助理通过行为或语言来给用户一个反馈→④用户再通过语言或行为对助手给出反馈→⑤助理再调整自己的行为


在上面的例子中,每次这种文本的理解都需要用到“NLU,即自然语言理解”

关于“NLU技术水平”(此处只限定在对话中)的理解,即:

“ NLU技术水平 ” = “ 从对话中理解完整意图的能力 ”


由此来分析“Alexa,冰箱里啤酒没了,再帮我买一些吧”,对这句话的理解需要抽取出这段文本中的实体、意图。比如,“冰箱”,“啤酒”是有意义的实体,“买”是意图,这个句子完整的意图就是“我要买啤酒”。但这样还不够具化,比如(需补充)什么啤酒,(需补充)数量多少等,对于这些信息的补充,有以下两个主要的方法:

1. 在多轮对话中抽取出所需补全的信息。对于支持多轮对话的交互理解系统,语义引擎不再是无状态的,而是系统更为复杂的,需有对话管理、历史信息存储等模块。(这里有技术上的难度)

2. 从其他地方收集所需数据信息,如在Amazon上的购物记录(这里有获取外部数据的困难)


当然上面那个例子中,更多的可能是通过语音来反馈,下面再举一个以行为反馈为主的例子:

用户:“Alexa,放点音乐”

Alexa:“好的”,然后随机播放了一首“我的收藏”中的一首歌

用户:“换一首high点的”

Alexa:“好的”,然后根据音乐的标签(如摇滚,轻快等),选了一首它感觉不错的曲子播放

用户:“这首还不错”

Alexa:“好的”然后默默记下了用户的偏好,因此在下次推荐时会更偏好推荐这一类歌曲。


从这两个例子中我们都会发现,交互的过程中有一个关键点——根据对用户的了解做出相应行为。

而对用户的了解中,涉及到的是“对用户建模”的技术,即通过用户在互联网上的各种行为数据或助手与用户的对话记录等建立的一个专属该用户的用户模型。如果没有这个模型就会出现一个问题——每次和用户交流时,都要从零开始理解其需求。没有用户会喜欢一个都相处了一个月,但我叫你去买一杯上次的咖啡,你还一直问我是哪种,还问加不加糖和奶,完全不懂我的喜好,每次都要我费力沟通的助理的。

事实上当用户下达语音指令后,一般而言只有两次对话机会,如果第三次对话还没弄清用户需求,就算失败,因为这样的反复对话对用户来说是非常糟糕的体验。

这里解释一下用户建模,用户建模的载体一般是图谱数据库,用图谱的方式记录用户的各种属性以及和某些事物之间的关系。比如用户对摇滚乐有狂热的爱好,这就是用户与摇滚乐之间一种关系。这里有用户的属性,如基本信息和近期的历史行为等。


用户模型的丰富度 = “ 外部数据 ” + “ 内部数据 ”

内部数据,如:用户主动输入的,通过NLU技术提取的信息等;

外部数据,如:Amazon的购物记录,google搜索记录,facebook好友关系,跨平台的音乐歌单等。


其中,外部数据是用户模型丰富度的关键。因为外部数据很大程度上能决定理解用户的深度、能对用户做什么以及做到什么程度,而同时外部数据却是一道真正的壁垒,这也是为什么一些智能助手、智能音箱做不好的原因,拿不到有价值的外部数据,毫无疑问服务就做不深。

当模型信息很丰富,但不会合理使用时,依旧会白费力气。所以建立模型的目的,其实是为了能做出更好的决策。当用户问任何问题时,给出的答案或行为,其本质都是辅助去做决策这件事情。

比如用户需要放音乐,想要做好放什么音乐的决策其实就需要很多信息的支撑。同理,上面说到的买啤酒,有Amazon的购物记录也会比较好操作。

而 用户模型的利用度 = 用户模型信息的丰富度 * 模型中信息的利用方式


如何判断“服务”的质量?


实际上,服务的前置条件除了“听清”和“听懂”外,还有“服务内容的价值”,这里需要的远不止技术这一个维度的能力。

“服务内容的价值”=sum([能做什么]*[做到什么程度])(矩阵乘法)


比如下面两个题目的结果,哪一个大?

①[1,2,1,1,1,1,1,1,1]*[2,2,1,1,1,1,2,1,2]

② [8,9]*[6,7]


其实从这个算法就透露了正确的战略方向:做重要的事情,需要把事情做深!比如苹果的智能音箱,其认为音乐是最重要的,所以为了做深这件事,在硬件、服务上都下了很多功夫。Apple的策略大致可以理解为[10,1,1,2...][9,1,2,1...],实际上看亚马逊echo的几千条评论也会发现,其实音乐是最重要的功能,所以某种程度上,Apple的策略还是比较明智的。


什么是 [能做什么]?比如“好看”就是一种价值,这个对于有些用户来说可能比较重要,如果重要程度划分为10档,那么“好看”这个功能的数值可能是8;而很少使用或不痛不痒的功能的数值可能是1或2,一堆不重要的功能形成的就是[1,2,1,1,1,1,1,1,1]。

而 [做到什么程度] 大致可以这么算:

做到什么程度 = 相对省下的时间和精力 + 提供的额外价值

这个指的是相对于自己做这件事需要花费的时间精力,比如还是买啤酒的例子,我自己做这件事的话,需要登录亚马逊,然后搜索,选择种类,最后下单支付。这一套流程还是有点费时费力,但如果和Alexa沟通几句就解决了,那就是相对省出了很多时间精力。


提供的额外价值,指自己做可能获取不到的价值。比如选择自己所需的服务种类时,用户需要买啤酒,智能音箱能够在对话中告诉用户某个产品卖得特别好,评价都很高,问要不要试试,而这个过程就相当于帮用户做了一些人类不擅长但又对其有用的事情,反之,用户自己去判断就比较累。

这里要充分利用机器智能与人类智能的区别,因为价值都是相对的,做人类智能不擅长的事情是一件困难的事情。


接下来一题,我们可以从中窥到一些产品战略。同样也是比较大小:

①[5,1,1,2,1,2,2,1,1,1,1,3,2,1,1,2......(中间省略100)1,2] * [7,1,3,2,2,3,1,1,2,1,2,3,2,1,3,2........(中间省略100)2,3]

②[8,9,7][9,7,5]

①②的结果,即做生态的战略,不单打独斗。当长尾服务做得足够多的时候,可以超越头部效应,而把这件事做好的关键同样是——做重要的事情,把事情做深。


首先是多,这里接入需要足够简单轻松;

第二是做深,这里要共享给合作者的技术和数据要多,有更多更深的权限。


Amazon在这件事上一直很用心,其在降低合作门槛上很擅长,做企业服务多年,怎么做到简单易用已经不是难事。此外,还积极开放自己技术和数据,积累了大量的合作商,这些合作商就是Amazon的服务壁垒,这是短时间内其他企业无法跨越的。


总结


最后汇总一下所有公式。


“ 优秀的智能助理 ” ≈ “ 优秀的助理 ”

“ 优秀的助理 ” = “ 优秀 ” + “ 助理 ”

“ 助理 ” = “ 理解用户的需求 ” + “ 提供有价值的服务 ”

(理解用户的需求是提供有价值的服务的前置条件)


“ 助理优秀的程度 ” = “ 用户的需求 ” 的 “ 理解程度 ” + “ 提供服务 ” 的 “ 价值大小 ”


“ 助理 ” ≈ “ 语音助理 ”

语音助理“ 理解程度 ” = “ 听清 ”的程度 + “ 听懂 ”的程度 

“ 听清 ”的程度 = “ 语音识别系统的质量 ” + “ 远场拾音的质量 ”

“ 语音识别系统的质量 ” = “ 听写的准确度 ”

“ 远场拾音的质量 ” = “ 适应场景的广泛度 ”

“ 适应场景的广泛度 ” = 硬件上“ 麦克风阵列的质量 ” + “ 其他技术 ”

“ 听写的准确度 ” = 语音识别算法的“ 准确率 ”

“ 听懂的程度 ” = “ NLU的技术水平 ” + “ 用户模型的利用度 ”

“ NLU的技术水平 ” = 从对话中理解完整意图的能力


用户模型的丰富度 = “ 外部数据 ” + “ 内部数据 ”

用户模型的利用度 = 用户模型信息的丰富度 * 模型中信息的利用方式


服务内容的价值 = sum([能做什么]*[做到什么程度])

做到什么程度 = 相对省下的时间和精力 + 提供的额外价值


其中大部分公式间有逻辑关系,参数之间也可以带入计算。这里只罗列公式,因为参数的定义和数值大小的判定是相对主观的,在运用中需要case by case。另外有些参数之间是线性相关的,有系统效应。

最后,算法式思维的价值在于用数学的方法指导产品战略,下面就是想办法提升各参数的问题了。


以上。

取消 评论
ZOL问答 > 智能音箱什么牌子好?智能音箱怎么选?...

举报

感谢您为社区的和谐贡献力量请选择举报类型

举报成功

经过核实后将会做出处理
感谢您为社区和谐做出贡献

智能音箱什么牌子好?智能音箱怎么选?智能音箱买哪个好?智能音箱哪个值得买?智能音箱哪个性价比最高?

提示

确定要取消此次报名,退出该活动?