互聯網廣告內容審核專題(二)——機器審核

0 評論 2215 瀏覽 14 收藏 9 分鐘

導語:在上一篇文章《審核業務機制基本認知》中,作者為我們分析了審核維度主要分為準入環節的客戶主體審核和推廣環節的內容審核。在本篇文章中,作者將重點介紹推廣內容的機器審核方式,不僅限于商業推廣的內容,同樣適用于流量內容審核。

互聯網上每日發布海量內容,單單微博的評論日均可達億級以上。同時,隨著時代發展,在傳統的圖文內容以上,音視頻、直播、彈幕等內容形式的興起,對于內容審核的挑戰日益增大。

很明顯,在風險和用戶體驗雙重重壓之下,僅依賴人工審核是不現實的,使用機器審核并初步過濾風險內容才是最優的選擇。

機器審核是什么?

簡言之,機器審核是通過AI算法對劣質內容進行識別、過濾的一種審核模式,通過提取海量數據樣本的特征,輸入機器學習形成的機器算法。

機器審核通常可以區分為機審規則和機審模型,機審規則是最簡單的機器審核方式,僅支持識別文本類內容。機審模型則能力更加強大,可支持文本、圖片、音視頻的審核,一起來看看機器審核是如何識別風險內容的?

一、機審規則

機審規則即風險詞表,由海量的風險詞和匹配規則構成,簡單理解為根據匹配規則,識別待檢測文本中是否存在風險詞表中的詞,下面來具體說說匹配規則:

1. 場景1:針對單個風險詞的匹配規則

  • 精準包含匹配:待檢測文本中精準包含風險詞才能夠命中機審規則。如風險詞為【真人荷官】,待檢測文本中內容為【真%人。荷/官】,詞中間加入了特殊符號,即無法識別;
  • 強過濾匹配:能夠將(1)中的特殊符合自動過濾后進行匹配,即將【真%人。荷/官】轉化為【真人荷官】,再進行識別;
  • 拼音匹配:能夠將【zhenrenheguan】、【真人heguan】轉化為【真人荷官】進行識別;
  • 字母大小寫轉換:如風險詞為【coco】,可以將【COCO】、【Coco】轉化為【coco】進行識別。

2. 場景2:針對多個風險詞的匹配規則

  • 多模匹配:通過識別固定詞間距內是否同時出現了多個風險詞(通常不超過3個),如同時出現即命中機審規則。舉例:如機審規則中,風險詞為【真人】和【荷官】,設置識別的固定詞間距為60字。當待檢測文本中出現【真人XXXX荷官】,且兩個詞間距不超過60字時,機審規則可以識別;
  • 置換匹配:對于多模匹配,需要按順序先出現【真人】,再出現【荷官】,才能識別;而置換匹配,可以將兩個詞倒序排布后識別,即可以識別【荷官XXXX真人】。

3. 場景3:豁免規則

為防止正常合規的詞語被誤殺,通常會人為添加豁免規則。

舉個例子:如機審規則中風險詞為【人流】,豁免規則為【人流量】。那么當出現【人流量】時,即會命中豁免規則,允許該詞語正常使用。

除了上述基本的匹配規則外,在商業推廣中通常還會增加【白名單機制】。白名單機制的出現,是基于品牌保護的目的,即白名單內的客戶或賬戶允許使用詞【coco】,其他客戶不允許使用,來保證品牌主體的正當權益。

大家可能有疑問,海量的風險詞是怎么來的?如何判斷一個詞屬于低俗風險?

這些都是專業的審核人員或風控規則運營人員基于工作經驗、審核case以及互聯網的海量數據進行人工整理的。可想而知,工作量極大。

隨著機審能力的發展,目前也可以借助一些詞擴展工具,通過一個基礎詞,基于繁體轉換、拼音轉換、同義轉化等邏輯,自動擴展出變體詞,輔助人工收集。

二、機審模型

機審模型能夠實現對文本、圖片、音頻、視頻各種形態產品的識別,對于不同形態的產品如何識別呢?

1. 文本識別

相較于機審規則,模型能夠實現的識別場景更多。通過語義分析構建智能學習算法,結合場景對風險文本進行識別。

以下面一段文本為例【韓國電影/迷人的保姆/男主經不住漂亮保姆誘惑】,這段話拆開每個詞都不涉及敏感問題,但整體的場景描述下卻是低俗導向,不適宜發布。

對于這類情況,機審規則無法生效,只能靠模型來識別。通過樣本輸入和機器學習,讓模型具備這類場景的識別能力。

2. 圖片識別

通常區分為圖片中的文字和圖像識別:

文字識別采用ocr識別技術,即對圖片進行掃描,將圖片中的文本輸出,再使用文本規則或模型進行風險識別;圖像識別基于海量的圖片數據,獲取圖片的信息并進行預處理,比如去噪、平滑、變換等,然后抽取圖片特征進行分類處理存儲至索引庫,計算并存儲圖片的風險標簽。

那在面對一張新圖片時,索引庫中如有與之相似的特征,即可以進行識別判斷。作者對于圖像識別研究并不深入,不作更多妄論。

3. 音頻識別

asr語音識別技術,將音頻轉換為文字后進行識別。

首先對音頻進行預處理,提取音頻的特征。特征提取出來后,建立索引庫存放特征。在面對一段待識別的語音時,將其與索引庫中特征進行匹配,輸出識別的結果。

音頻識別與同為多媒體元素的圖片識別,基本的原理是一樣的,都是提取特征、建立索引庫存儲、特征匹配這三大過程。

4. 視頻識別

視頻審核目前主要以視頻切幀的方式,將視頻切成一張張的圖片,再按照圖片識別的方式進行審核。

三、總結

可以看到,相較于機審規則,模型的識別范圍更加廣泛,識別能力更加強大。但在實際機器審核中,通常是規則和模型組合拳的方式使用。

原因在于,模型的研發需要更加海量的數據和極細粒度的標準,并經過嚴格的線上測試,準召率達標后才能夠上線使用。而機審規則不需要研發,通常配置即可生效,是一種實時服務。

對于緊急風險來說,最合適的辦法是使用機審規則應急,同時進行模型研發,以最大程度降低風險影響。

當然機器算法的識別能力也是有限的,除了準召率的問題外,對于某些場景幾乎不適用。

比如直播的審核,對時效性要求極高。如使用視頻切幀、音頻識別的方式,直播畫面結束還沒審核完成,遠遠達不到風險管控的目的。因此通常使用人工審核,盯在直播間前防止風險突發。

本篇文章的內容就到這里,關于更多的審核模式、審核機制、審核業務管理方式等會在后續文章中繼續和大家分享!歡迎大家一起探討!

 

本文由 @聲生 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

給作者打賞,鼓勵TA抓緊創作!
更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!