新聞記者 吳漢
8月30日,科大訊飛星火極速超擬人交互技術正式上線訊飛星火APP,率先面向全民開放體驗。據了解,這是國內首個對標GPT-4o語音的大模型產品,用戶可在訊飛星火APP中直接體驗使用。根據官方介紹,星火極速超擬人交互在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現重大突破,讓整體交互體驗更自然、更具情感。
上線當天,科大訊飛研究院常務副院長高建清針對星火極速超擬人交互技術及應用展開進一步解讀,不僅剖析了星火超擬人交互的“端到端”“共情力”等核心技術亮點,還為公眾勾勒出技術產業化的愿景圖。
據悉,“端到端”技術框架是實現極速響應的重點。目前在全世界范圍內,框架模型算法持續演進,國外以GPT-4o、特斯拉FSD等為代表的多模態端到端方案,已被證實可進一步提升技術效果和用戶體驗。而科大訊飛極速超擬人交互作為業界首個端到端極速超擬人交互,通過將此前級聯方案升級為統一神經網絡,直接實現語音到語音的“端到端”建模,大幅縮短響應時間,做到了真正的極速。
而人類語言被稱為世界上最動聽的語言,是因為具有獨特的情緒感染力,能夠傳達復雜的情感和思想,實現文明的傳承和進化。但長久以來,智能語音與自然語言處理技術主要針對“內容”模塊下功夫,比如能“聽懂”更多的語種,“解答”更多的問題,但想要獲得擬人化的對話體驗,還需要“內容”與“情緒”等模塊協同作用。
大模型時代的到來,恰好能讓不同的模塊化功能進行“大統一”。高建清表示:“以往語音交互系統都是不同的模塊,比如語音識別、語音合成和大語言模型。而科大訊飛星火極速超擬人交互技術基于端到端大模型框架,并結合訊飛多維度語音屬性解耦表征訓練模塊,實現情感、方言、韻律、音色等的可控,實現了對語音交互的擬人化升級。”
星火極速超擬人技術還將星火大模型的“共情力”帶到了新的高度,在這次單交互系統上線之前,業界的交互系統大多沒有情感,均以中性情緒回復,或者個別系統有這種情感,但大多停留在文本層面。而星火極速超擬人技術可以實現情感共鳴,當人機對話時,機器可以理解你的聲音內容,包含情緒表達。高建清認為,雖然目前系統暫時不能使用表情,但未來如果將表情、聲音內容與聲音情緒三者結合在一起,將會是一條可行的新路徑。
星火極速超擬人語音的情緒感知能力,能夠感知到數十種音頻事件與情緒,比如喜怒哀樂、害怕、困惑等,AI會以“感同身受”的方式進行語言組織和情緒表達。而情感共鳴會結合聲音和內容等不同維度,在合適的情境采用合適的情感進行回應,比如用戶開心的時候用笑聲呼應心情,用戶悲傷的時候用安慰語氣進行安撫,讓AI變得有血有肉有溫度。
共情力對于大模型是一項重要的基礎能力,或許在未來的人形機器人身上,我們將看到共情力的具象表達。比如你一進門,機器人向你笑臉相迎地問候道,就像1999年科幻電影《機器管家》里面的人形機器人安德魯,讓人機之間也有情感紐帶。當然暢想這些還為時尚早,現階段的星火極速超擬人交互更有另一部電影《Her》的既視感,TA可以用笑聲回應開心,用急促回應憤怒,更自然,更逼真,更還原真人對話的語境。
至于快速打斷功能,這也是真人對話中經常復現的狀況。比如你入住酒店問前臺客服,如果對方答非所問肯定當即打斷;同理,沒耐心聽AI講一大堆話,或者回答跑偏,立即打斷是人的生理本能。“這是個極其復雜的工程問題,需要去判定何時打斷、何時不應打斷,我們通過技術創新與強化底座認知能力,解決了打斷和響應時間平衡的問題。”高建清說道。