每個科技時代,都有每個時代的“入口”和“推手”。
在PC時代,瀏覽器和搜索引擎是主要入口,用戶通過鍵盤和鼠標(biāo)進行交互。移動互聯(lián)時代,APP和應(yīng)用商店成為典型入口,用戶用手指和觸摸屏進入互聯(lián)網(wǎng)世界。而在眼下的AI時代,業(yè)內(nèi)已經(jīng)把語音交互當(dāng)做重要入口,它提供了一種更為豐富、自然和便捷的交互體驗。
縱觀歷史,每一個抓住入口、推動時代發(fā)展的企業(yè),反過來也能掌握競爭主動權(quán),獲得長期發(fā)展動力。比如,PC時代的谷歌,移動互聯(lián)時代的蘋果等等。
因此,如今很多大廠都在圍繞語音交互展開深度布局,力圖搶占AI時代的戰(zhàn)略要地。其中,就國外和國內(nèi)而言,OpenAI和科大訊飛成為最受關(guān)注的兩家企業(yè)。
今年5月,OpenAI 發(fā)布GPT-4o,展現(xiàn)出更為強勁的語音交互能力。比如,更快的響應(yīng)速度、更自然的語音等等。但遺憾的是,GPT-4o目前還沒有向國內(nèi)用戶開放,大部分人無法親自感受各種體驗。
很多人不知道的是,國內(nèi)的科大訊飛不僅做到了對標(biāo)GPT-4o的語音交互體驗,而且還能讓人搶先體驗。
今年8月19日,科大訊飛發(fā)布了星火極速超擬人交互技術(shù),在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達、人設(shè)扮演四個方面實現(xiàn)巨大突破。這項技術(shù)將于今年8月底在訊飛星火App上全民開放使用,普通用戶也能親自感知。
在最近的科大訊飛2024年上半年業(yè)績說明會上,《一點財經(jīng)》觀察到科大訊飛董秘江濤親自演示星火極速超擬人交互技術(shù),由此更直觀地看到了這項技術(shù)的操作體驗。
不得不說,科大訊飛雖然在研發(fā)上大力投入,但在宣傳上的力度著實不夠。其實,這項技術(shù)能對行業(yè)變革產(chǎn)生深度影響。與此同時,科大訊也在積攢技術(shù)勢能,未來預(yù)計會釋放出強勁的發(fā)展動能。
語音交互的“理想”與“現(xiàn)實”
2014年,一部講述人類與AI愛情的電影《Her》收獲了超高人氣,還獲得了奧斯卡最佳原創(chuàng)劇本獎。
電影中,男主角西奧多的工作是給不善表達感情的人代寫情書。他有語音操控的隨身設(shè)備,能夠直接用語音輸入信件內(nèi)容、進行打印等等。日常生活中,他還能通過語音收聽歌曲、接收郵件和新聞。
讓很多觀眾浮想聯(lián)翩的是,西奧多遇到了一個AI機器人“薩曼莎”,她擁有溫情的聲線,不僅非常體貼還很懂西奧多。在跟“薩曼莎”的長期語音交流中,西奧多墜入愛河,開始了一段“人機戀”。
十年以來,這部電影里的科幻場景不斷照進現(xiàn)實,各種語音交互產(chǎn)品和技術(shù)持續(xù)迭代,豐富著用戶的語音交互體驗。
不過,很多用戶還是感覺跟想象中的體驗有落差。因為市面上語音交互技術(shù)普遍存在痛點,包括響應(yīng)遲鈍、難以共情、個性化不足、端點檢測困難等問題。
簡而言之,現(xiàn)在許多語音交互技術(shù)機器的味道還是太重,擬人的感覺不足,沒能提供足夠的情緒價值。這一方面導(dǎo)致用戶體驗不佳,另一方面阻礙了行業(yè)發(fā)展,需要有企業(yè)來破除痛點,充當(dāng)行業(yè)發(fā)展的推手。
目前來看,科大訊飛就是一個重要的推手。其推出的星火極速超擬人交互技術(shù)在四個方面極大提升了用戶體驗——“響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達、人設(shè)扮演”,總結(jié)下來就是:
不僅在響應(yīng)上有速度,而且在情感上有溫度,能夠提供更多的情緒價值。
1、響應(yīng)上的速度
用戶進行語音交互的過程中,都想獲得更快的響應(yīng),達到“召之即來”的效果。并且在中途頻繁打斷的情況下,希望能夠迅速重新響應(yīng)。
然而,目前主流的語音交互應(yīng)用中,從用戶提出問題到應(yīng)用響應(yīng)大多需要2-2.5秒,會明顯感覺到停頓,中途打斷后響應(yīng)的時間更長,這就會影響用戶的交互節(jié)奏和智能體驗。
而星火極速超擬人交互技術(shù)帶給人的首個感受就是“快”,其讓響應(yīng)時間縮短到了0.9秒,幾乎感覺不到停頓。另外,用戶還可以隨時打斷、插話,它依然能做到迅速響應(yīng)。
這意味著,通過星火極速超擬人交互技術(shù),用戶可以獲得更加貼近日常對話的現(xiàn)實體驗。
2、情感上的溫度
在語音交互過程中,如果能夠及時響應(yīng),但回應(yīng)的卻是冷冰冰的話語,用戶的交互欲望和熱情必然會降低,因為沒有人愿意面對一個沒有溫度的機器。
傳統(tǒng)指令型語音技術(shù),只能通過對某些特定發(fā)音的識別給出響應(yīng),情緒感知能力不足,而星火極速超擬人交互技術(shù)進行了明顯的提升。其不僅能夠根據(jù)語音判斷用戶情緒,包括高興、悲傷、生氣、害怕等等,還能識別咳嗽、寵物叫聲等非語言信號,跟用戶之間產(chǎn)生更深層次的情感共鳴。
如果只能分別情緒,不能情緒化地回應(yīng),用戶的感知度也不會很明顯。星火極速超擬人交互技術(shù)在表達方式上更加靈活,可以根據(jù)用戶的指令控制數(shù)十種情感、風(fēng)格、方言,甚至自動調(diào)節(jié)語速、語氣和情緒,讓對話更有溫度從而直入人心。
另外,星火極速超擬人交互還有一個優(yōu)勢就是能夠“選角色”,其支持多種人設(shè)的任意切換,用戶可以與孫悟空、蠟筆小新、小豬佩奇等角色進行互動,感受到跟不同角色對話的樂趣。
可以說,以往的語音交互技術(shù)體驗起來更像機器,而星火極速超擬人交互更像人類,大大提升了用戶體驗。這種進化背后,在于科大訊飛進行了長期的技術(shù)研發(fā)和積累。
語音交互進化史:技術(shù)才是硬道理
語音交互進化史,就是一部技術(shù)迭代史。
最早的語音交互技術(shù),可以追溯到上世紀(jì)60年代。當(dāng)時的語音交互技術(shù)主要基于規(guī)則,也就是將語音按照語法等規(guī)則進行分析和生成,然后根據(jù)設(shè)定好的語句進行回應(yīng)。
這種方法的智能度和靈活度都很低,只能進行某些特定任務(wù),比如查詢天氣、訂票等,稍微復(fù)雜一些的指令就無法操作。
上世紀(jì)90年代,語音交互技術(shù)進入新的階段,也就是基于統(tǒng)計模型。這種方法不再依賴于固定規(guī)則,而是利用概率論建立交互模型,根據(jù)上下文生成最合適的回應(yīng)。這種方法相對可以處理更多指令,也能適應(yīng)不同的場景需求。
2006年,隨著深度學(xué)習(xí)技術(shù)興起,語音交互技術(shù)有了質(zhì)的飛躍,可以自動學(xué)習(xí)語音信號的復(fù)雜特征,從而進入DNN(深度神經(jīng)網(wǎng)絡(luò))時代。比如,RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。它具有長期記憶能力,可以用于處理連續(xù)的語音特征,從而提高識別準(zhǔn)確率。
此后,語音交互技術(shù)在持續(xù)進化,比如CNN(卷積神經(jīng)網(wǎng)絡(luò))、DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò))等等,用戶體驗也在持續(xù)升級。在技術(shù)進化浪潮中,科大訊飛一直站在潮頭浪尖。
早在2012年,科大訊飛就將BN-feature和NDD-HMM兩套深度學(xué)習(xí)方案上線了訊飛輸入法和語音開放平臺,由此成為國內(nèi)首個上線深度學(xué)習(xí)語音識別商業(yè)系統(tǒng)的機構(gòu),將實際場景中語音識別的準(zhǔn)確率從60%提升到了88%左右。
到現(xiàn)在,星火極速超擬人交互采用的是統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實現(xiàn)語音到語音端到端建模,這是一種被驗證為能力更強的技術(shù)方案。
因為傳統(tǒng)的語音識別系統(tǒng)一般由多個模塊組成,包括聲學(xué)模型、語言模型和發(fā)音詞典等。而端到端建模將這些模塊合并為一個整體,實現(xiàn)了原始語音信號到最終文本的直接映射,這就給語音交互帶來了許多提升。
首先,端到端建模簡化了傳統(tǒng)語音識別系統(tǒng)的復(fù)雜度、減少了模塊之間的集成難度。其次,它可以更好地外理語音信號中的噪聲和變異,提高了系統(tǒng)的魯棒性,即抵御外界干擾和保持穩(wěn)定的能力。此外,它還具有更快的訓(xùn)練和推理速度,適用于實時場景。
星火極速超擬人交互的技術(shù)優(yōu)勢背后,在于科大訊飛持續(xù)進行研發(fā)投入和積累。
根據(jù)科大訊飛最新發(fā)布的2024年上半年財報,報告期內(nèi)其營收93.25億元,比上年同期增長18.91%。值得注意的是,公司研發(fā)投入21.9億元,同比增長32.23%,占營收比重達23.5%。
在企業(yè)發(fā)展因子中,營銷、宣傳等淺層次的是“快變量”。短期內(nèi),它們能夠發(fā)揮一時的成效,但也會呈現(xiàn)不穩(wěn)定和低門檻的特征。
深層次則是“慢變量”,比如技術(shù)、研發(fā)等等。它們前期需要大量的投入,就像推動一個靜止的輪子,投入到一定程度后輪子會越轉(zhuǎn)越快,從而迸發(fā)出“飛輪效應(yīng)”,最終轉(zhuǎn)化為出色的技術(shù)和產(chǎn)品以及堅固的護城河。此次,科大訊飛推出星火極速超擬人交互技術(shù)就是一個典型。有時候,“慢”反而意味著“快”。
其實,星火極速超擬人交互技術(shù)背后的大模型能力,同樣具備龐大的想象空間。
眺望未來:大模型重塑語音產(chǎn)業(yè)
如今,“大模型+”就像當(dāng)年的“互聯(lián)網(wǎng)+”給與市場無限想象力。
在大模型的熱風(fēng)之下,許多產(chǎn)業(yè)都值得被重塑一遍,其中就包括汽車、機器人、消費電子、家電等領(lǐng)域。在大模型落地方面,科大訊飛通過星火大模型云邊端一體化、軟硬件一體化的全場景布局,這讓其能夠滿足多個復(fù)雜場景對大模型的需求,進而摘取多元的產(chǎn)業(yè)紅利。
先說汽車領(lǐng)域。今年上半年,中國汽車產(chǎn)銷量分別達1389.1萬輛和1404.7萬輛,依然保持全球第一。出口總量達348萬輛,同比增長25%,火熱態(tài)勢依舊。目前,中國汽車出海十強企業(yè)中,有8家企業(yè)和科大訊飛合作。未來,汽車的趨勢必然是智能化。而大模型的賦能,可以提升智能座艙、智能駕駛等多個方面的用戶體驗,助力中國汽車產(chǎn)業(yè)的增長。
比如,自2011年科大訊飛率先完成汽車語音國產(chǎn)化,車載語音已經(jīng)成為中國汽車市場的標(biāo)配,但在海外仍受制于單一語種的制約。今年星火語音大模型發(fā)布72個語種/方言免切換對話,并通過云邊端及軟硬一體化解決方案可以大大提升智能座艙體驗。另外,科大訊飛還研發(fā)出基于星火大模型的用車助手,能夠?qū)崟r監(jiān)測理解車輛狀況,精準(zhǔn)解答用戶對用車的問題。
科大訊飛方面透露,公司汽車智能化產(chǎn)品合作已覆蓋90%以上的中國主流自主品牌和合資品牌車廠。最新財報顯示,科大訊飛汽車業(yè)務(wù)也延續(xù)了強勁的增長勢頭,上半年實現(xiàn)營收3.5億元,同比增長65.49%。
跟汽車一樣,機器人同樣是未來的重要趨勢。
尤其是人形機器人的前景非??捎^,據(jù)《人形機器人產(chǎn)業(yè)研究報告》預(yù)測,2024年中國人形機器人市場規(guī)模將達到約27.6億元,到2029年達到750億元,將占世界總量的32.7%,占比位居世界第一。
大模型的思維鏈推理能力,能夠明顯提升機器人對于復(fù)雜任務(wù)的理解能力,并提供符合常識的任務(wù)拆解與規(guī)劃。尤其是具身感知模型與具身決策模型的結(jié)合,能夠進一步提升人形機器人在真實場景下的多模態(tài)感知與理解能力。
在復(fù)雜任務(wù)拆解、開放場景物體識別、多模態(tài)感知與理解等方面,星火大模型明顯提升了人形機器人的智能水平。在最近的在2024世界機器人大會,科大訊飛亮相了“大模型+具身智能”的人形機器人最新進展:
整體運動性能提升2倍,復(fù)雜任務(wù)拆解成功率超過95%,交互能力、運動性能進一步提升。
另外在產(chǎn)業(yè)賦能上,訊飛機器人超腦平臺已賦能420家機器人企業(yè),深度鏈接1.5萬機器人開發(fā)者,與優(yōu)必選、宇樹科技、智元機器人、銀河通用等人形機器人企業(yè)形成廣泛合作,未來預(yù)計有著充足的想象空間和強勁的產(chǎn)業(yè)推動力。
除了機器人,大模型浪潮也正在向消費電子終端和家電領(lǐng)域蔓延。
包括智能手機、智能辦公本、學(xué)習(xí)機等在內(nèi)的消費電子終端的規(guī)模非常龐大,《2024年數(shù)字經(jīng)濟報告》顯示到2029年全球物聯(lián)網(wǎng)設(shè)備數(shù)量將增至390億部。如果用大模型讓每臺終端都變得更智能,從而提升用戶體驗,也能創(chuàng)造更大的市場空間。中商產(chǎn)業(yè)研究院預(yù)測,2023年中國智能硬件市場規(guī)模將達到14031億元,預(yù)計2024年增至達15033億元。
以科大訊飛智能辦公本X3為例,其搭載了最新的訊飛星火智能技術(shù),實現(xiàn)語音轉(zhuǎn)文字、智能筆記整理、多語種翻譯等高效辦公功能。用戶只需簡單操作,就能將會議內(nèi)容、演講要點等語音信息實時轉(zhuǎn)化為文字記錄。這不僅大大提高了用戶工作效率,也助力了科大訊飛智能硬件業(yè)務(wù)的增長。根據(jù)最新發(fā)布的2024年半年報,科大訊飛智能硬件業(yè)務(wù)實現(xiàn)營收9億元,同比增長56.61%,增速遠超行業(yè)平均水平。
隨著新一輪以舊換新熱潮來襲,家電市場也迎來新的市場增量。而家電與大模型的結(jié)合,能夠為用戶創(chuàng)造更智慧的家居生活,也能為家電廠商、技術(shù)提供商帶來新的增長點。
比如,搭載訊飛星火認知大模型的電視語音助手將升級為全能的家庭中心,能夠輕松應(yīng)對日程管理、智能家居控制等操作,也能讓孩子跟電視語音助手直接對話,練習(xí)口語、獲取知識等等,打造出新的教育場景。三星就結(jié)合訊飛星火認知大模型的能力,讓電視語音助手具備深層次理解、內(nèi)容生成和知識問答等能力,極大提升了用戶體驗。
如今,星火大模型正成為教育、醫(yī)療、能源、汽車、家電、機器人等多個重要領(lǐng)域落地的首選。其不僅為AI時代的入口探索出更多可能性,也在結(jié)合實際場景進行應(yīng)用落地,為用戶真正帶來技術(shù)紅利,為企業(yè)創(chuàng)造經(jīng)濟效益,其本身也能夠獲得發(fā)展動能。
結(jié)語
《底層邏輯》一書中提出“戰(zhàn)略勢能”的概念,形象地說把一塊石頭抬到較高的山頂上就儲備了勢能。石頭向下滾動時,勢能就轉(zhuǎn)化為了動能。
現(xiàn)在的科大訊飛,正處在積蓄戰(zhàn)略勢能的時候,需要克服困難大量投入。隨著各項技術(shù)的深入和落地,戰(zhàn)略勢能將持續(xù)轉(zhuǎn)化為發(fā)展動能,其未來是值得期待的。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
5月9日,蔚來舉辦了第五十萬臺量產(chǎn)車下線活動,第50萬臺量產(chǎn)車則是蔚來旗艦車型ES8。值得一提的是,科大訊飛董事長劉慶峰,成為了蔚來第50萬臺量產(chǎn)車型的車主。當(dāng)被詢問購買蔚來ES8的原因,劉慶峰稱“我親眼看著那輛灰色的ES8,快得像一道閃電,超過了我的邁巴赫?!痹诒敬伟l(fā)布會上,李斌稱,2019年以來
文/六金投入大模型一年之后,科大訊飛交出了首份成績單。2023年實現(xiàn)營業(yè)收入196.50億元,較2022年同期的188.20億元增長4.41%;歸母凈利潤為6.57億元,較2022年同期的5.61億元增長17.12%。在星火大模型的加持下,科大訊飛的很多業(yè)務(wù)都開始和模型實力掛鉤,給了市場不少驚喜,不
“黑色魅影”傷害的不只是科大訊飛,在當(dāng)前復(fù)雜大環(huán)境下,更傷害了中國科技健康發(fā)展的肌體。作者|Cindy編輯|楊銘身處殘酷商業(yè)世界,永遠無法判斷,什么時候會有明槍暗箭射出,甚至是遭遇帶著明確目的性的惡意詆毀。10月24日,本應(yīng)是大喜日子的科大訊飛,就因此度過了有點“鬧心”的一天。這一天,科大訊飛在一年
10月份,科大訊飛進入新的成果驗證節(jié)點。一是進一步透露AI進展的財報發(fā)布。三季報顯示,科大訊飛仍然保持較為穩(wěn)健的發(fā)展步伐,營收始終處于增長狀態(tài),對訊飛星火認知大模型的應(yīng)用成果,進行了進一步揭示?;诖耍攬蟀l(fā)布前后,超過10家券商紛紛給予科大訊飛買入或增持評級。二是10月24日這一科大訊飛承諾全面對
“技術(shù)日新月異,人類生活方式正在快速轉(zhuǎn)變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經(jīng)熟悉的一切,都開始變得陌生?!庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)
智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實
崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當(dāng)下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知
瞄準(zhǔn)場景需求,打造國內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項