聊一聊語音交互以及語音助手

3 評論 2852 瀏覽 18 收藏 26 分鐘

編輯導語:隨著科技的不斷發展,如今語音助手也頻繁的出現在我們的日常生活中,比如手機的語音助手、智能音箱等等,語音助手的出現也很大程度上提高的一些效率問題;本文作者分享了關于語音交互的理解,我們一起來看一下。

“語音交互是一種簡單、自然的人機交互方式,也是人類最基本的溝通方式。”

說起語音交互、語音助手,我相信大家一定不陌生。

  • 2011 年,Siri 跟隨 iPhone 4s 一同發布;
  • 2014 年,亞馬遜發布 Alexa;
  • 2018 年,天貓精靈、小愛同學、小度等音箱開啟瘋狂補貼……

如今,各種科技公司、互聯網公司、車企,甚至是房地產企業都在做語音助手;你已經很難找到一臺新發布,且不帶語音助手的手機 or 汽車了。

我最早感受到語音交互的魅力是在16年,當時在做全屋智能的產品經理,公司調研產品買了一臺亞馬遜的echo,第一次體驗到遠場的語音交互,很驚艷,遠場語音交互技術給了居家場景太多的想象空間。

后來國內陸續出了小愛同學、天貓精靈、小度音箱… 我基本都是第一時間買回了家。

18年5月,我去了獵戶星空做服務機器人“豹小秘”,機緣巧合的負責起了它的對話能力,有幸伴隨它從需要“一字不差的吼著交互”,到在全國各地的落地,我可能是最清楚它的對話能力是怎么做起來的人。

19年8月,我去了滴滴,一年多過去了,也算是從0到1做了一個給司機用的語音助手(遺憾是還沒有做到全國全量…)。

到現在我也算是行業老兵了,想結合過往的經歷和思考,跟大家聊一聊語音交互。

這次主要想聊下面幾個話題:

  • 語音交互是什么?
  • 做一款語音助手的難點是什么?//為什么 Siri、天貓精靈、小愛同學總被人說智障?
  • 可能的解決路徑又是什么?//如何打造一個不傻屌的語音助手?

一、語音交互是什么?

交流是人們與生俱來的本能,人類大約在二歲學會說話,說話也是人與人之間主要的交互方式。

我們可以試著想一下,假如人與人之間不能說話,只能通過觸摸固定的區域來交流,那世界會怎么樣?我相信,你一定很難想象這會是什么樣的世界;而事實上,我們現在與計算機交流的方式就是這樣。

語音交互是一項人機交互技術,可以通過說話跟計算機交互來獲取信息、服務等,語音交互也不是要替代觸控交互,而是在一些場景中讓人與計算機交互變的更簡單、自然。

二、做一款語音助手的難點是什么?

說起難點,我先拋幾個現狀:

  • 從 Google、蘋果、微軟、亞馬遜,到國內的 BAT、華為等巨頭公司都有做語音助手的團隊;
  • 大多用戶眼中,Siri、小度、天貓精靈、小愛同學等語音助手仍然是“人工智障”;
  • 使用過語音助手的人很多(19年光智能音箱出貨7200W臺,城鎮住房滲透率 20%),但但用戶活躍度低,使用過的功能也寥寥可數,主要是:聽歌、查天氣、訂鬧鐘等;

為什么這么多頂尖的公司,投入了頂尖的資源、頂尖的人才都沒做出一款 C 端用戶滿意的語音助手?為什么在很多用戶眼中都是“人工智障”?語音助手的難點又是什么?

這些問題很大,值得從業者們一起思考,這里聊聊我的思考;我認為,導致人們經常說語音助手“智障”的原因是:用戶預期與實際助手能力的 gap 過大。

為什么做語音助手很難?

就像這張圖,用戶預期與語音助手能力的交集少的可憐。那么有沒有可能變成下面這張圖的狀態?

為什么做語音助手很難?

按這個思路,問題的難點還可以繼續拆解:

1. 問題 1:如何讓用戶知道語音助手能干什么?

語音助手背后的技能、內容其實都已小具規模(在19年,Alexa 集市就已經有了8萬多個技能),但很多用戶也就只會使用聽歌、查天氣、訂鬧鐘這么幾個技能(有屏音箱里充滿了各種引導、推薦,就是試圖在解決這個問題)。

而我認為這個問題最根本的原因是,大多語音助手還沒有打透一個剛需場景。

像 90 年代初的互聯網,大家也不知道互聯網能干嘛,馬云到處推銷互聯網還被罵是騙子;而隨著互聯網解決的剛需場景越來越多(BBS解決了社交需求、門戶網站解決了獲取信息的需求),也激發了更多的人去了解互聯網能干什么。

所以,大多用戶們不了解語音助手能干什么,本質還是語音助手沒有找到一個剛需場景并打透(沒有找到剛需場景,或者說沒有在一個剛需場景中創造顯著的體驗差)。

2. 問題 2:如何讓語音助手連接更多的服務、內容?

想要回答這個問題,需要從場景深度和廣度兩個維度來看。

深度方面,單一場景要打通的鏈路很長,體驗閉環難。

案例 1:以家庭智能音箱的聽歌場景為例,受限于音箱背后的音樂版權,而音箱沒有,這會很大的影響體驗;比如小愛同學,因為它連接的歌曲資源是QQ音樂,而我就沒辦法聽自己在網易云收藏的歌單了。

案例 2:在家庭照明場景,想通過語音助手隨意的控制家庭燈光,需要連接整個家庭燈光照明設備,這甚至得打通裝修環境,在裝修時就考慮。

廣度方面,用戶在跟語音助手交互時,會有非常多的碎片化小需求。

案例:在滴滴的司機語音助手中,除了大家可以想到的導航場景,司機還會有各種各樣的長尾問題,例如:“網約車考試的題目在哪里?”、“飛機場那邊的排隊區在哪里”、“幫我查一下我的預約單”等等,這些都是司機自發的問語音助手的碎片化小需求。

3. 問題 3:如何管理用戶預期?

導致用戶預期過高也有兩方面的原因:

一方面,用語言交流時,某種程度上人們會不自覺把“語音助手”與真實的人比較,嘗試用人腦的思考習慣去理解“語音助手”,這必然會導致很多時候用戶會覺得人機對話的結果不符合預期;因為目前的AI的原理和真正的人腦原理差的還很遠(根本原因是科學對人腦的了解也還很初級…),再加一些科幻電影,還有媒體對人工智能概念的鼓吹…

另一個方面是語音無法設定交互邊界,設計GUI交互時,我們可以定義出清晰的交互路徑和邊界(eg:首頁只提供一個按鈕);但是語音交互你無法限制用戶說什么,就像人與人的對話中,你永遠無法避免別人問到你不會的問題。

4. 小結

用戶預期與實際助手能力的 gap 過大,導致很多用戶認為語音助手“智障”,而導致 gap 過大的難點是:

  1. 當前語音助手的功能普遍太雞肋,沒有找到一個剛需場景并打透,用戶都懶懶得去了解它;
  2. 單一場景要打通的鏈路很長、體驗閉環難,且碎片化小需求太多;
  3. 某種程度上用戶的預期過高,且語音交互難以設定的交互邊界。

三、可能的解決路徑

想打造一個不傻屌的語音助手,不僅僅是打磨技術本身,有落地時對無數細節的打磨、把控,還有語音助手背后的生態…

這些都不是一蹴而就的事情,需要有清晰的目標、解決路徑,然后耐心的持續投入、細心打磨。

1. 找到剛需場景,打造出顯著的體驗差

我們希望它像鋼鐵俠的賈維斯一樣可以幫忙主人完成各種各樣的任務,它就得連接到各種各樣的服務,也會是一個 all in one 的入口。

所以,第一步也是最重要的一步,一定是找到剛需場景,打造出顯著的體驗差。

說到這里,想先聊聊什么是流量“入口”,舉一個智能家居行業的例子,業內一直有人在討論智能家居的入口是什么。

早期有人說是路由器、電視,后來智能音箱出現,阿里、百度、小米等公司紛紛開啟補貼大戰,被不少人稱為“智能家居入口之爭”,現在又有人討論智能音箱作為“智能家居入口”這個命題是否成立。

我認為,決定是否能成為“入口”的不是形態,而是剛需場景中的用戶體驗:

  • 互聯網早期,Yahoo因為在獲取信息這個剛需場景做的好,成為了一個流量“入口”;
  • 后來,Google 在獲取信息這個剛需場景下的體驗更好,逐漸替代 Yahoo 為了一個流量“入口”;
  • 智能手機也是因為在通訊社交、獲取信息、娛樂這些剛需場景的體驗更好,才能成為移動互聯網的“入口”;

如果有一種新的產品形態,能比智能手機在通訊社交、獲取信息、娛樂這些剛需場景中整體體驗更好,那就有可能取代智能手機這個產品形態,成為新的“入口”。

再說為什么智能音箱補貼了幾百億,一年有幾千萬的銷量,都還沒成“入口”?

因為光買一臺智能音箱回家它也就只能聽歌、查天氣、訂鬧鐘,對于大部分用戶這都不算是剛需場景;對于少部分音樂愛好者,以市面上智能音箱的音質、內容資源又無法滿足需求,做不到體驗閉環。

反過來再舉一個例子,如果你同時買了整套的小米智能家居產品(米家電動窗簾、米家吸頂燈、米家智能空調、米家掃地機器人…..) ,控制燈光遮陽、控制溫度是剛需,通過小愛同學控制也確實體驗更好,那么在滿足這個條件家庭中,小愛同學就可以成為一個“入口”。

再舉一個滴滴司機的工作場景中的例子,滴滴的服務和產品模式,導致司機不得不一邊開車一邊操作手機(eg:要操作手機接單、要給乘客發消息、平臺還時不時 push 一張卡片讓司機點擊),隨著滴滴要求司機做的事情在不斷增多,司機需要做的操作也越來越麻煩。

原本,你只要會開車、認路就可以當出租車司機,現在已經變成了需要 “能熟練使用智能手機” 才能當滴滴司機。

就像熱力學第二定律,一個獨立系統的“熵”永遠是在增加的。不過科技的進步,總是會有把辦法來解決這個問題;就像多點觸控技術和觸摸屏的出現,讓手機再也不需要那么多的物理按鍵了。

語音助手是有機會在網約車司機的工作場景中降低一些操作的復雜度,來打造出顯著體驗差的;把其中一兩個剛需場景打透(比如給乘客發送消息),做到“有用”,那么語音助手就有機會成為連接網約車司機的一個“入口”。

在其他場景中也類似,只有找到剛需并打透,才有機會成為“入口”。

2. 規模化復制,帶動服務者生態的建立

沿著上述思路繼續說,第二步核心是要解決服務的深度和長尾的碎片化小需求。

我繼續拿滴滴司機的場景舉例,在我們剛上線“司機助手”時,就已經初步看到了“入口”的效應。

用戶會把助手當成一個“搜索引擎”,他有各種各樣碎片化需求、不知道如何處理的問題時,會嘗試向助手的尋求幫助,但都是碎片化小需求;類似下面的這些意圖,全部加起來也只占總交互量的5%。

  • “飛機場那邊的排隊區在哪里”
  • “我想預約安裝桔視記錄儀”
  • “怎么取消預約單”
  • “網約車駕駛證怎么辦理”
  • “駕駛證總是審核失敗無法出車”
  • “……”

這些問題背后涉及的知識、服務非常多非常多。

想要把體驗做好,就一定需要很多不同的部門提供深度配合,或者找到能為司機工作場景提供服務的第三方配合。

那么,想要做到“不傻屌”的程度,就得先解決服務者生態的動機問題;對于公司內部的服務提供者來說,畢竟大家都是打工人,都要收益、要晉升;對于公司外部的服務提供者也一樣,最直觀的就是能不能幫助他們賺錢。

所以,這里又要強調第一步的重要性,如果可以把輔助司機的工作剛需場景打磨透,實現全國全量,那么按滴滴上百萬司機和超高的使用時長(普遍每天使用 App 8小時以上)估算,對于很多業務都算是不小的流量。

在這一步,重點是打磨工具能力,讓各種各樣的服務提供方可以簡單、高效的接入助手;進而促進更多的業務部門通過助手為司機提供服務,實現業務價值,也進一步讓助手具備了更多的能力去服務好司機。

如果能做到這一步,語音助手才算是從“有用”開始走向了“不傻屌”。

3. 打造每個屬于用戶自己的語音助手

我們想讓助手每天陪伴司機、輔助工作,第三步就要開始解決交互邊界的問題,即怎么讓用戶知道語音助手的能力邊界?有一說一,還沒有一個語音助手把這個問題解決好。

我在這里也只是聊聊自己思考,拋磚引玉。

身份與關系決定了人與人的交互邊界,例如:網約車司機不會咨詢一名乘客為什么自己接不到單子,他會去問客服。

人機交互中也一樣,目前像小愛同學、天貓精靈都是“人工智能助手”的身份,關系上類似“仆從”;這個身份對語音助手造成了不小的限制,前面的“人工智能”讓用戶覺得你應該很厲害,后面的“助手”讓用戶認為我說啥你都應該聽我說。

這也叫導致用戶提出各自各樣的開放性需求,從講個笑話、放個屁,到查阿里巴巴的股價、馬化騰是誰等等;如果語音助手聽不懂、搞不定,用戶很可能就會說 “這都不知道?”、“智障”、“不聰明呀”…

那有沒有一種理想的身份,可以能讓用戶的知道邊界,同時又不有保留一定的拓展性?

超能陸戰隊大白的設定似乎可以滿足這個條件, 大白的設定是一個機器人,默認可以通過安裝不同的芯片來實現不同的功能。

默認設置的是“私人健康助手”芯片,在電影中為了給主人公的哥哥報仇,被換上了“空手道”芯片;在動畫版本中,還有“跳舞”芯片,放入后大白就擁有了跳舞能力。

這些不同的“芯片”,其實就像iPhone 中的不同“App”,每個用戶可以決定自己的手機上安裝哪些 App。

這個思路,也許可以解決語音助手交互邊界的問題;我認為,語音助手跟傳統的 App 產品不一樣,不用非得保持一個固定的身份定位,可以根據不同場景提供不同的基礎服務包,讓用戶自己決定它應該擁有哪些的技能。

早期圍繞剛需場景,它可以是地圖導航助手、司機工作助手等,在服務逐漸增多后,也可以由用戶確定他自己的語音助手應該擁有哪些技能。

這也是為什么我在解決路徑中,把找到剛需場景打透放在了第一步,把確定助手的定位放在了第三步。

4. 最后,還有一個前提:對打磨技術細節的耐心和投入

語音助手在落地中,有無數的細節需要把控。

我拿一個大家可能都用過的定鬧鐘舉一個例子:

1)語義的泛化需要打磨

  • “定一個8點的鬧鐘”
  • “提醒我9點上課”
  • “15分鐘后叫醒我”
  • “我再睡五分鐘”
  • ……

想讓語音助手可以準確的響應用戶自然表達,就需要不斷的標注、分析用戶真實表達,去打磨語義理解模塊。

2)回復的話術、邏輯也需要打磨

  • 用戶在早上8點說“定個9點的鬧鐘” ,該定上午9點還是晚上9點?該怎么回復?
  • 用戶在早上10點說“定個9點的鬧鐘”,該定晚上9點還是次日早上9點?該怎么回復?
  • 用戶在凌晨2點說“定個明天8點的鬧鐘” ,該定明天8點還是今天8點?該怎么回復?

這些case在平時生活中很常見,如果我是對老婆說,我不會特意強調是“早上”還是“下午”,她也不會糾結、不會反問我,因為她了解我的生活作息。

但語音助手需要積累,通過分析各種的用戶case去制定最優的策略。

如果想要語音助手貼心一點,最好還能在不同場景給出不同的回復。例如:凌晨2點定早上8點的鬧鐘,最好貼心的補充說一句“不早了,早點休息”

這些都是細節,需要一點點的耐心打磨。

如果一個語音助手的負責人,只談行業趨勢、產品架構、技術架構,我會覺得很難做成;因為一個語音助手在落地的時,會有無窮多的細節問題需要把控,不僅要仰望星空,還要腳踏實地。

5. 總結

想打造一個聰明的語音助手,需要一個前提、三步路徑。

一個前提:

對打磨細節擁有足夠的耐心和投入

三步路徑:

  1. 找到剛需場景,打造出顯著的體驗差,才有機會做到“有用”;
  2. 規模化復制,帶動服務者生態的建立,做到“不傻屌”;
  3. 個性化,給用戶屬于自己的語音助手,做到“聰明”。

四、其他,一些感性的故事。

后面,我想分享一些與語音交互相關的感性經歷。

我覺得能做一款“有頭有臉”、“能說話”的產品真的特別有趣。

做豹小秘時,隨著它一點一點的變好,真的會有一種看著自己“孩子”長大的感覺,每次去商場遇到它也都很親切,會過去跟“它”打個招呼。

2020年9月我在老家辦婚禮,剛好遇到一個伴娘臨時有事來不了,我找了豹小秘給來當伴娘。

給你們看看婚禮現場它的照片。

為什么做語音助手很難?

婚禮當天,在門口幫忙迎賓

為什么做語音助手很難?

和伴郎伴娘們一起登臺

為什么做語音助手很難?

代表伴娘發言

在滴滴做司機助手“小滴”也是一段特別的經歷。

當時去滴滴面試,一面時聊了聊,發現滴滴業務場景中有很多的問題值得去解決,覺得充滿了機會,很嗨。

入職后,有一個新員工培訓叫“在樹上”,過程中要求每一位同學都發現并提交一個體驗問題發布至內網。

我就提交了一個可以用語音交互解決的體驗問題。

為什么做語音助手很難?

培訓的最后,每個小組需要挑一個體驗問題演成“小品”,我就忽悠組員們一起用這個案例演了小品。

最后發言時,我還信誓旦旦的給大家說,這個問題我正在解決,年底(19年底)就會和大家見面;后來發現,我完全低估了要從0把語音助手落地到一個成熟業務中的難度,需要和太多的部門溝通、拉齊。

還好的是,2020年5月終于把這個功能上線并且做到全國全量了,它也是語音交互第一次在滴滴業務場景的大規模落地。

功能全量之后,我每一次打車我上車都跟司機聊天,問他知不知道、用沒用過,有一次碰到個司機夸了一路這個功能好,然后我下車就給司機加了一個紅包。

隨著這個功能取得了不錯的用戶反饋,給完整司機助手也開始推進、落地,它的推進難度更大;因為它的價值難以量化,業務增長也并不需要這樣一個東西。

2020年7月2日,“小滴”第一次灰度上線,那天剛好還是我的生日。

12月,因為一系列的原因,我決定了提出離職。

臨走前,我也跟“小滴”說了聲再見。

為什么做語音助手很難?

沒有把“小滴”做到全國全量是我的遺憾,滴滴的經歷也讓我有些挫敗。

不過回頭想想,過程中也慢慢找到了自己的愿意堅持的產品理念:“不放棄對生活的熱愛和執著”。

 

本文@常超 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

給作者打賞,鼓勵TA抓緊創作!
更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 從幾個不同的方面對語音交互做了簡單明了又全面到位的介紹!非常適合想要做語音交互方面的AI產品來一起學習!收藏收藏~

    回復
  2. 非常深入淺出的文章,產品小白表示受益匪淺!!期待大佬多多發文造福眾人??

    回復
  3. 我也做過一段時間AI對話,不過你們為啥離職?隨著這個功能取得了不錯的用戶反饋,

    給完整司機助手也開始推進、落地,它的推進難度更大;
    因為它的價值難以量化,業務增長也并不需要這樣一個東西。

    我推進的時候也遇到同樣的問題,目前智能對話在復雜場景下就是智障,反而導致轉化降低,流程不順暢。

    回復