高準確率以后,進階中的語音輸入體驗?

0 評論 8582 瀏覽 4 收藏 13 分鐘

編輯導語:如今隨著科技的不斷發展,更多技術出現,比如我們平常經常會用到的語音輸入,由于需求變多,很多用戶需要使用語音輸入的功能;語音輸入里也需要高準確率,提高用戶體驗;本文作者分享里關于語音輸入功能的準確性,我們一起來看一下。

2020年,距離第三方輸入法陸續推出語音輸入功能,已經接近10年;疫情期間,多場景下的語音輸入需求激增。

據估算,2020年第三方輸入法用戶規模接近7億,接近9成使用拼音輸入,而語音輸入的用戶接近4成(數據來源:MobTech,2020中國第三方輸入法行業洞察報告)。

“準確”是廠商對于語音輸入的預期,也是持續重點優化的方向;在這10年間,各大輸入法廠商公布的語音輸入準確率越來越高,那么在目前這種高準確率的輸入體驗下,用戶對于語音輸入還有哪些更高的要求,這將是廠商未來必須面對和思考的問題。

本文中,我們就聚焦語音輸入用戶,一起來深入探討用戶為什么使用語音輸入,用戶在什么場景中使用語音輸入,以及他/她心目中的語音輸入應該是什么樣子。

01 研究目的和方法

1. 研究目的

了解語音輸入用戶的真實使用場景和使用動機。

探究語音輸入用戶對語音輸入的評價標準。

2. 用戶

我們招募了15名不同行業和職業的用戶(分別是金融/保險銷售、教師、大學生,和互聯網白領),均為語音輸入的高頻用戶;體現在行為上,他們每天都會多次使用到語音輸入,且從態度上,語音輸入是他們需要輸入時優先考慮的輸入方式。

3. 研究方法

我們采用了日志+訪談的方式來了解用戶對語音輸入的認知和態度,以及真實的使用行為。

通過對語音輸入進行現場評測來了解用戶對語音輸入的評價標準。

具體如下所示:

1)日志:用戶挑選一個典型的工作日和休息日進行語音輸入的日志記錄,記錄內容包括每次語音輸入的使用環境,使用場景,使用原因和使用體驗;日志使我們能夠得到用戶真實的使用場景和使用體驗。

2)訪談:結合用戶日志中記錄的語音輸入使用情況,通過訪談了解用戶對語音輸入的知曉和使用歷史,使用場景和動機,使用行為和體驗。

3)現場評測:用戶在現場根據自己的使用場景和習慣進行語音輸入,并通過對比多個手機輸入法的語音輸入結果的優劣;研究員對用戶的主觀評價維度進行提煉和分析。

02 語音輸入的使用

在手機中進行輸入,是最基礎的工具型需求,拼音輸入和語音輸入都是滿足需求的方式。

圖:拼音全鍵盤輸入(左)和語音輸入(右)

有趣的是,兩者在可用性的不同維度表現非常不同。在輸入場景下,有效性指的是用戶完成輸入的正確和完整程度。

從有效性來看,目前語音輸入的結果常常需要修改,因此不如鍵盤輸入;效率指的是用戶完成輸入所需要付出的資源,如時間和努力程度;在這個維度上,語音輸入占優勢,輸入速度更快,且用戶只需要動動嘴,更不費力。

不同的用戶和不同的使用場景都會影響兩個維度的相對重要性和兩種輸入方式在不同維度的差異程度,從而解釋了不同輸入方式的選擇。

圖:可用性的三個維度:有效性(用戶完成特定目標的正確和完整程度),效率(用戶完成特定目標的效率,與消耗的資源,如時間、努力程度,成反比),滿意度(用戶使用產品時感受到的主觀滿意程度)。

1. 用戶特征

“懶”不僅是驅動技術發展的核心動力,也是技術嘗鮮者的共同特質。

通過日志我們發現,用戶選擇語音輸入,并不局限于走路,單手等不方便打字的情景中,當需要輸入時,語音輸入是優先選擇的輸入方式,除非是不方便說話的情景中。

在訪談中,他們會說:“可以動動嘴皮子就完成的事情,干嘛還要動手呢?”這樣的用戶,對可用性中的效率維度更為敏感。

他們樂于去嘗試各種新的方式,只要它能夠提高效率;對他們來說,改變輸入習慣的門檻更低。

2. 場景特征

當使用場景對結果的準確性要求不高,或對于效率要求高時,語音輸入比鍵盤輸入更合適。

使用語音輸入的一大場景是日常的聊天,在此場景下,用戶對于準確性的要求沒那么高,語音輸入的準確率也達到了較高的水平,因此鍵盤輸入在有效性維度的相對優勢不明顯。

用戶提到在日常聊天中,需要修改的比較少,甚至有時有錯誤也不會修改,直接發送。

另一大語音輸入的場景是工作相關的輸入量巨大且及時性要求高的場景。

工作相關的場景中,往往對準確率要求很高,語音輸入相對于鍵盤輸入有效性差距大;但由于輸入量巨大,且及時性要求可能很高,此時語音輸入效率高的優勢被放大,用戶還是會選擇語音輸入,這體現了有效性對于效率的妥協。

圖:工作相關的使用場景(不同顏色代表不同職業人群)

03 用戶對語音輸入結果的主觀評價標準

1. 研究與分析方法

研究員給出不同的場景,用戶結合自己的習慣,進行語音輸入(三個輸入法同時進行語音識別),用戶根據結果對比優劣,并說明原因。

研究員對用戶的主觀評價維度進行提煉與分析:

2. 研究發現

從用戶主觀表述和對語音輸入結果的評價來看,用戶對于語音輸入的預期是“準確”,但是它與客觀的“準確”不同。

當用戶使用語音輸入時,盡管輸入方式是語音,但最終用戶希望信息呈現的方式是文字,而用戶評判結果的標準也是從“文本表達”的角度,即語音輸入的結果理想態應和鍵盤輸入是一致的。

而從語音到文字的過程,可能造成結果偏差的原因有很多;例如從技術層面的識別錯誤(語音識別結果和人耳識別結果存在差異),也有由于用戶采用語音這種方式造成的天然區別(例如用戶口語中不自覺的口頭禪和語氣詞),還有具體的表達形式上用戶可能存在偏好和習慣(例如文字的數字和阿拉伯數字的差異)。

用戶的主觀評價維度具有一定的層級特征,最底層的是基礎語音的識別,主要是句子中“關鍵結構”的準確識別,第二層是語義的精準識別,主要包括語氣和情感的表達,第三層是表達形式上更易閱讀,關鍵信息突出,第四層也是最高層是個性化的需求,主要是個人的習慣用法。

總的來說,從低到高,用戶的修改意愿也慢慢下降。

1)基礎語義識別準確:基礎語義識別主要包括句子中“關鍵結構”的識別錯誤,這種錯誤往往直接影響語義的表達;其中比較常見的錯誤是人地名的識別,用戶對于具有一定知名度的地名有較高的準確識別預期。

2)精確語義準確識別:精準語義識別主要涉及結果的規范性、語氣、情感表達,對語義有不同程度的影響。

語氣傳達主要通過一些語氣助詞和語氣標點,準確的傳達對語音輸入來說尤其困難;首先,個人的語氣相對主觀,語氣詞和語氣標點的使用也有一定的群體特征(尤其是標點對于語氣的表達,例如多個句號表無語);如“唉”和“誒”,雖然讀音相似(ai和ei),但前者往往表嘆息或惋惜,而后者表示招呼或者詫異。

3)表達形式易閱讀:當語義表達沒有問題后,用戶也會在意表達的形式是否利于閱讀; 一種錯誤類型就是缺少斷句,造成信息接收方難以閱讀和理解句子的意思。

值得注意的是,盡管用戶希望斷句,但他在輸入時,并不會在需要斷句處進行有意的停頓;因此,判斷是否需要斷句,并不能完全根據用戶輸入時的節奏,而是需要根據語義進行判斷。

4)個性化表達:標準化的表達并不能滿足用戶個性化的需求。用戶在日常使用時或多或少存在一些個人特色的表達習慣與偏好;例如語氣詞的識別,“好的呀”可能屬于標準的表達方式,但用戶可能習慣使用“好的吖”;這些個性化的表達習慣,在社交中往往成為個人的表達風格。

04 小結

語音輸入的結果最終理想態和鍵盤輸入的結果是一致的,呈現的都是“我”的輸入習慣。

準確的語義表達是或許只是語音輸入最基礎的目標,進階中的語音輸入需要學會的不僅僅是標準的表達,更是個性化的表達。

 

作者:技術中臺UER小分隊

本文由 @Du Design 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 unsplash,基于CC0協議

給作者打賞,鼓勵TA抓緊創作!
更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!