數(shù)字內容“遍地開花”，AI技術如何創(chuàng)新“造夢”？

2024-06-24 10:37 來源：A5專欄我來投稿撤稿糾錯

　域名預訂/競價，好“米”不錯過

文 | 智能相對論

作者 | 陳泊丞

這是春晚舞臺西安分會場《山河詩長安》的一幕：“李白”現(xiàn)世，帶領觀眾齊頌《將進酒》，將中國人骨子里的豪情與浪漫演繹得淋漓盡致。

這又是浙江義烏商品市場里的另一幕：只會說幾個英文單詞的女老板秒變外語達人，無縫切換36國語言流暢介紹自家商品，瘋狂帶貨。

這一幕幕不可思議的畫面，成就了今天中國文化、商業(yè)的頻頻出圈。而一切的背后，都有著相同的支持：AI技術賦能數(shù)字內容生產(chǎn)和應用。

近年來，隨著AI大模型技術的持續(xù)升級與賦能，數(shù)字內容生產(chǎn)與應用的趨勢愈發(fā)強烈，現(xiàn)實場景與數(shù)字內容不斷融合，悄然改變著整個內容創(chuàng)作行業(yè)的格局，甚至進一步推動了相關產(chǎn)業(yè)和商業(yè)的新變革。

技術創(chuàng)新重塑數(shù)字內容生產(chǎn)與應用新范式

數(shù)字人“李白”的精彩演繹、義烏女老板的AI帶貨——這些熱門事件的背后，是技術創(chuàng)新突破所帶來的結果。AI大模型的成熟應用，讓越來越多不同形式的數(shù)字內容得以爆發(fā)，并廣泛進入大眾視野。

在6月21日舉辦的華為開發(fā)者大會（HDC 2024）上，華為云盤古大模型迎來5.0版本升級，其中盤古媒體大模型在語音生成、視頻生成以及AI翻譯上的技術創(chuàng)新就重塑了數(shù)字內容生產(chǎn)和應用的新范式。

對比過去的技術能力，新的技術所帶來的效果是非常顯著的。

一、語音生成進階：只需三言兩語，沉浸式、真實感的語音易如反掌

過去的語音生成依賴傳統(tǒng)的聲音克隆模型，由于模型比較小，精度低等原因，往往在實際操作上就要復雜得多。比如，在數(shù)據(jù)收集階段，對目標人物的語音數(shù)據(jù)就要盡可能的多樣化，包括不同的語速、語調、音量以及不同語境下的語音，需用到幾百句話的錄音。

然后到了預處理階段，需要對收集到的語音數(shù)據(jù)進行清洗，通過人工標注等形式去除噪聲、靜音片段和其他不需要的部分。進而還要進行語音分割，將連續(xù)的語音信號切割成較小的語音片段（如音素或單詞）。最后提取音頻特征，再用于后續(xù)的聲音建模。

以上，還只是數(shù)據(jù)收集和預處理，尚未進入真正的語音生成階段。但其中的工作量和操作復雜度就已經(jīng)很大了，對語音生成的效率和質量都是一個非常大的影響和挑戰(zhàn)。

時至今日，隨著技術的創(chuàng)新，基于更先進的模型，比如盤古媒體大模型的語音生成能力，這一問題得到了很好的解決。只需要幾句話、幾秒鐘的聲音，AI即可學習到個性化的音色、語調、表達韻律，從而獲得高質量的個性化語音。同時，還支持喜怒哀樂等擬人情感語音，閑聊、新聞、直播等10多種語氣風格，讓生成的語音更真實、更有情感色彩，能沉浸式地應用到不同場景中。

比如，在視頻譯制中，AI將能做到配音演員的專業(yè)程度——通過盤古媒體大模型提供的視頻翻譯能力，AI可以把視頻翻譯為目標語言，并保留原始角色的音色、情感、語氣。華為云也在積極聯(lián)合伙伴邏輯智能，打造高感情語音克隆以及14國小語種配音，共同構建高感情超擬人多模態(tài)音頻應用能力等。同時，再結合盤古媒體大模型的口型驅動模型，還可以實現(xiàn)音唇同步，尤其是在側面、多人對話、物體遮擋以及人物移動等場景，也能做到很好的口型匹配。

二、視頻生成跨越：只需幾十張圖，可控的、一致的視頻唾手可得

傳統(tǒng)的視頻生成技術在資源需求、數(shù)據(jù)集、時序一致性、物理定律遵守、效率與質量平衡、可控性、逼真度和連貫性以及應用限制等方面都存在一定的局限性。如今，基于盤古媒體大模型，只需要訓練幾十張?zhí)囟缹W風格的圖片，如吉卜利、二次元等風格，再輸入實拍視頻即可快速生成該風格的動漫視頻。

除了按需時長生成穩(wěn)定的動漫視頻，再通過ID一致性模型，還能對生成畫面中的關鍵角色進行一致性處理，確保視頻中角色樣貌特征在前一幀和后一幀中所呈現(xiàn)的效果始終一致，在側臉、運動軌跡下的視覺效果合理一致，由此增強AI視頻生成的可控性、一致性，讓視頻內容更合理、真實。

此外，業(yè)內對視頻生成的真實度、復雜度也在聚焦增強。比如，OpenAI的Sora正在試圖模擬復雜的攝像機運鏡，同時準確地保持角色和視覺風格一致，讓AI創(chuàng)作的數(shù)字內容更加趨于現(xiàn)實創(chuàng)作。英偉達更是發(fā)布了一系列技術套件如ACE（NVIDIA Avatar Cloud Engine）、NeMo™以及RTX™等，去增強數(shù)字內容的真實感，讓數(shù)字人物的互動、對話更加復雜、逼真。

三、AI翻譯強化：準確性>93%，實時的、跨語言溝通指日可待

過去的機器翻譯系統(tǒng)往往是基于統(tǒng)計模型或規(guī)則模型構建的，因此翻譯結果大多無法與原文一致，顯得生硬、不自然，并不具備應用到不同場景的條件?，F(xiàn)如今，華為云通過AI實現(xiàn)多語種實時傳譯，準確性>93%，可應用于實時通話、云會議等需要實時翻譯場景。

同時，基于盤古媒體大模型的語音復刻、AI文字翻譯以及TTS技術，便可以實現(xiàn)語音的同聲傳譯，成功實現(xiàn)跨語言母語溝通體驗。甚至還可以結合數(shù)字人技術，讓數(shù)字人來模擬用戶說話，結合口型模型技術做到口型與聲音精準匹配，讓AI翻譯、數(shù)字人與語音生成高度結合用于線上開會、跨國貿易交流等場景中。

技術的“瓶頸”在收縮？

技術的創(chuàng)新和突破帶來了數(shù)字內容生產(chǎn)和應用的爆發(fā)，但另一方面隨著生產(chǎn)和應用的進程加速，相應的技術瓶頸也在出現(xiàn)，并不斷收縮、聚焦。目前，AI大模型在數(shù)字內容生產(chǎn)和應用上的問題主要呈現(xiàn)在三個層面。

其一，能源與計算效率瓶頸。 當前，大模型訓練的算力當量還在進一步增大，從GPT-3到GPT-4算力當量增長了68倍。隨著訓練的token數(shù)、模型參數(shù)增加，大模型訓練所需的計算量也需要隨之增加。

更重要的是，其背后的成本投入是難以為繼的。根據(jù)計算，訓練一個5000億參數(shù)規(guī)模的Dense模型，基礎算力設施投入約10億美金，無故障運行21個月，電費約5.3億元——這遠遠超出了企業(yè)的承受范圍。

但是，如果想要規(guī)?；厣a(chǎn)高質量的數(shù)字內容，大模型的精進又是必要的路徑。在這個階段，業(yè)內開始尋求更高效、更優(yōu)的算力解決方案。像華為云昇騰AI云服務就在致力于提供方便、好用的算力服務，在算力層面不斷革新計算能力和計算效率，提供從云化算力、模型開發(fā)、模型托管到生態(tài)的全棧服務。

其二，算法架構的優(yōu)化挑戰(zhàn)。 隨著大模型參數(shù)的增加，想要實現(xiàn)更好的計算結果和輸出更優(yōu)的答案，那么其處理的時長就會不斷延長的。但是，這在實際應用中是一個困擾數(shù)字內容生產(chǎn)和應用的顯著問題，非常不利于數(shù)字內容的規(guī)?；?、商業(yè)化發(fā)展。

由此，業(yè)內也開始在算法架構上進行優(yōu)化，調整計算邏輯、處理方法來實現(xiàn)更優(yōu)效果。其中，以稀疏激活機制為代表的MoE模型就是目前AI行業(yè)的一個焦點，類似于“術業(yè)有專攻”的理念，稀疏激活機制通過對數(shù)據(jù)任務進行拆解，分門別類，再分配給特定的“專家”（Experts）進行處理，最終綜合加權輸出——不僅實現(xiàn)了計算效率優(yōu)化，也讓輸出結果更加全面、強大。

其三，安全與倫理問題。 大模型內部運行機制復雜，生產(chǎn)出來的內容欠缺可解釋性和可控性，又易受對抗樣本攻擊，存在監(jiān)管難題和安全漏洞。對此，在數(shù)字內容生產(chǎn)和應用中，相關的安全和倫理問題隨著行業(yè)的廣泛發(fā)展而日趨突顯。

因此，在數(shù)字內容行業(yè)高速發(fā)展的階段，盡管企業(yè)能吃上數(shù)字內容的紅利，但也需要鑒別模型的安全性、可靠性，避免因模型的安全和倫理問題而引發(fā)負面輿論影響。在這樣的挑戰(zhàn)下，華為云盤古大模型也隨即作出升級，在數(shù)據(jù)治理、安全合規(guī)等方面達到了較高標準。

以技術“造夢”，數(shù)字內容未來可期

新范式的明確帶來更明確的技術方向，對于整個數(shù)字內容行業(yè)而言，這意味著未來的發(fā)展已經(jīng)有了基礎的雛形，前景仍是樂觀的。但是，不可忽視的是，技術的瓶頸客觀存在，且更加突出，擺在行業(yè)面前的依舊是一條較為嚴峻的發(fā)展之路。

盡管拋開技術瓶頸不談，在具體的實踐中，數(shù)字內容的生產(chǎn)和應用也不簡單，往往都需要面對很多在技術之外的具像化問題，只有基于問題去一步步解決才能最終完成落地。

華為云團隊在進行紀錄片譯制時就發(fā)現(xiàn)，項目實際開展起來會遇到各種各樣的問題，比如環(huán)境聲音太雜太亂，AI無法準確識別人聲保證音譯的完整度，或是隨著場景的切換，人物的狀態(tài)、口型都呈現(xiàn)出不同的樣子，需要AI精準地匹配等等。

如果這些問題不一一解決，AI譯制的效果就打了個大大的折扣。對此，華為云團隊通過精準分析問題，采用不同的技術去解決各類細微問題，比如通過分離模型技術讓環(huán)境聲和人聲分開，通過口型模型技術讓聲音與口型精準匹配等。

技術或許一直都有，但是如何用恰恰才是項目落地的關鍵。換句話說，在今天數(shù)字內容行業(yè)高速發(fā)展、技術創(chuàng)新加速迭代的階段，只有實踐了才能真正推動行業(yè)的發(fā)展。這是一個比拼項目的階段，誰家的項目經(jīng)驗越豐富，越能知道相關的技術應該如何應用才能發(fā)揮出應有的效果。

目前，中影集團與華為云合作，將媒體大模型應用到影視工業(yè)，共同打造影視譯制大模型，通過AI將視頻譯制成不同語言，并保留原始角色的音色、情感、語氣，還能支持口型匹配，為影片譯制提供全新的AI制作方式。

今天，數(shù)字內容迎來迸發(fā)，越來越多精彩內容面世的另一面恰恰是廠商們不斷運用技術、驗證技術、完善技術的過程。未來的項目之路任重而道遠，同時也是行業(yè)走向成熟的必經(jīng)之路。靜待技術在創(chuàng)新中、實踐中持續(xù)升級、完善，未來便更快能看到一個數(shù)字內容精彩紛呈，如同夢境一般的世界。

*本文圖片均來源于網(wǎng)絡

此內容為【智能相對論】原創(chuàng)，

僅代表個人觀點，未經(jīng)授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網(wǎng)絡，且未核實版權歸屬，不作為商業(yè)用途，如有侵犯，請作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬個為什么》

•【重點關注領域】智能家電（含白電、黑電、智能手機、無人機等AIoT設備）、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai技術

AI提高效率：用智譜清言打造爆款視頻號

關注盧松松，會經(jīng)常給你分享一些我的經(jīng)驗和觀點。(1)想做副業(yè)、短視頻的同學，看完本文一定對你有所幫助!(2)很多人說2024是視頻號紅利的一年，有分成收益，廣告主也多，流量大。(3)松松一共做了10多個視頻號，在視頻號布局3年了，幾乎啥都做過，有的收益千八百、有的收益1-2k，有的收益3-5k。(4

標簽：

ai技術
開發(fā)者怎么擁抱智能化浪潮？昇騰AI給出了“通關指南”

在大模型代表的新一輪技術浪潮下，智能化轉型已然是毋庸置疑的趨勢，科技大廠們紛紛給出了智能化的“道法術”，大大小小的企業(yè)也開始更新認知，想要從創(chuàng)新中挖掘出驅動增長的新質生產(chǎn)力。但現(xiàn)實和智能化的美好愿景之間，仍然橫亙著一片鮮有人涉足的“荒海”，腳下還沒有堅實的路。3月23日在天津舉辦的昇騰AI開發(fā)者創(chuàng)享

標簽：

ai技術

ai智能
8款AI視頻生成產(chǎn)品實測，誰將成為中國Sora？

?自象限原創(chuàng)作者丨羅輯、蘇奕編輯丨程心2024年開年，科技圈沒有什么比Sora的出現(xiàn)更讓人興奮。如同ChatGPT在2023年初帶來的LLM創(chuàng)業(yè)潮，Sora的發(fā)布也同樣將視頻生成模型推到了風口浪尖。科技巨頭猛推產(chǎn)品，創(chuàng)業(yè)公司則乘風而上。3月13日，AI視頻大模型公司愛詩科技完成億元級人民幣A1輪融資

標簽：

ai技術

ai智能
AI手機需要新故事

言必稱AI的時代，已經(jīng)來了，尤其是隨著sora等的震撼發(fā)布，以及Google、微軟和國內大廠等在AI研發(fā)、大模型等方面的日新月異。就手機行業(yè)而言，在存量時代出貨量連年不及預期的情況下，如何刺激用戶換機，成了一道擺在所有手機廠商面前的共同命題。從三星到國內的一些手機廠商，實際上已先行一步打出了“AI手

標簽：

ai技術
AI學習機踏進AI時代：科大訊飛、網(wǎng)易有道快馬加鞭

最令家長們頭大的問題大概就是給孩子輔導作業(yè)了吧，而包括學習機在內的一系列教育硬件產(chǎn)品的誕生，則很好地彌補了這一問題，成為了孩子們在家庭場景中學習的好幫手。隨著用戶需求的增長，教育智能硬件行業(yè)也實現(xiàn)了穩(wěn)定發(fā)展。而在教育硬件賽道，學習機這一品類格外受人關注。說起學習機，相信絕大多人都不會感到陌生。從最早

標簽：

ai技術

ai智能

“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

“人工智能的商業(yè)模式，是要創(chuàng)造一個市場，而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場，占據(jù)主導地位的中美雙方，卻也走出了兩條截然不同的技術路徑，前者執(zhí)著于前沿技術的探索，后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向，或許已經(jīng)無法直接進行排位先后、優(yōu)

標簽：

ai智能
智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

智能體進化發(fā)展了一年，現(xiàn)在的RPAAgent迭代到什么程度了？從實在智能最新發(fā)布的實在Agent7.0，看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT，這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構建到執(zhí)行全自動化，持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶：大模型降溫背后的難點、卡點、節(jié)點

崔大寶｜節(jié)點財經(jīng)創(chuàng)始人進入2024年，大模型似乎有熄火之勢：資本市場，與之關聯(lián)的概念炒不動了，英偉達股價動輒暴跌重挫，引發(fā)“泡沫戳破”的擔憂；消費市場，BATH們的推新活動少了，產(chǎn)品更新迭代的速度慢了，民眾的關注度降了……熱鬧的大概只剩下兩場酣仗：自5月15日字節(jié)跳動宣布“以厘計費”，打響國內大模型

標簽：

大模型
這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

文|智能相對論作者|陳泊丞好消息！你心心念念的事業(yè)單位發(fā)錄取公告了！壞消息！他們沒錄你，錄了個數(shù)字人。圖片來源網(wǎng)絡隨著數(shù)字人技術的突破，越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”，也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

標簽：

數(shù)字人
來到IPO關口，地平線離“三分天下”還有多遠？

黑芝麻智能敲鐘后，港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據(jù)悉，近日地平線已通過中國證監(jiān)會IPO備案，擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市，預計籌集約5億美元資金。從天眼查可以了解到，該公司成立于2015年，是一家乘用車高級輔助駕駛（ADAS）和高階自動駕駛（AD）解決方案供
對標GPT-4o，科大訊飛正以大模型重塑語音產(chǎn)業(yè)

大模型的創(chuàng)新與未來

標簽：

科大訊飛

機器人大會引領產(chǎn)業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

8月21日，萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天，集“展覽”“論壇”“賽事”于一體的機器人盛會，反映了當下機器人領域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù)，今年現(xiàn)場逛展觀眾高達25萬人次，比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知
卓翼智能：超大載重高烈度環(huán)境特種智能系留無人平臺的應用與未來

瞄準場景需求，打造國內領先的自主可控、高質量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕，大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項
60萬獎金召喚AI創(chuàng)新者，2024無錫國際人工智能創(chuàng)新應用大賽火熱進行中！

人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅動力量。無錫市作為中國的科技創(chuàng)新中心之一，正通過構建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài)，為產(chǎn)業(yè)技術創(chuàng)新應用提供強大支撐，通過“AI+”行動推動人工智能與多個產(chǎn)業(yè)交叉融合，實現(xiàn)技術落地和產(chǎn)業(yè)化，加速形成新質生產(chǎn)力，打造具有國際競爭力的產(chǎn)業(yè)創(chuàng)新智造
“云+AI”驅動操作系統(tǒng)創(chuàng)新升級，龍蜥堅持可持續(xù)發(fā)展路線

近日，2024龍蜥操作系統(tǒng)大會（OpenAnolisConference）在北京圓滿召開，此次大會由中國計算機學會開源發(fā)展委員會、中關村科學城委員會、海淀區(qū)委網(wǎng)信辦、中國開源軟件推進聯(lián)盟指導，龍蜥社區(qū)主辦，阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦，主題為“進化

加載更多

數(shù)字內容“遍地開花”，AI技術如何創(chuàng)新“造夢”？

相關文章

AI提高效率：用智譜清言打造爆款視頻號

開發(fā)者怎么擁抱智能化浪潮？昇騰AI給出了“通關指南”

8款AI視頻生成產(chǎn)品實測，誰將成為中國Sora？

AI手機需要新故事

AI學習機踏進AI時代：科大訊飛、網(wǎng)易有道快馬加鞭

“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

崔大寶：大模型降溫背后的難點、卡點、節(jié)點

這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

來到IPO關口，地平線離“三分天下”還有多遠？

對標GPT-4o，科大訊飛正以大模型重塑語音產(chǎn)業(yè)

機器人大會引領產(chǎn)業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

卓翼智能：超大載重高烈度環(huán)境特種智能系留無人平臺的應用與未來

60萬獎金召喚AI創(chuàng)新者，2024無錫國際人工智能創(chuàng)新應用大賽火熱進行中！

“云+AI”驅動操作系統(tǒng)創(chuàng)新升級，龍蜥堅持可持續(xù)發(fā)展路線

熱門排行

編輯推薦

數(shù)字內容“遍地開花”，AI技術如何創(chuàng)新“造夢”？

相關文章

熱門排行

編輯推薦

數(shù)字內容“遍地開花”，AI技術如何創(chuàng)新“造夢”？