不到兩個月的時間硅基智能連續(xù)獲得6項數(shù)字人發(fā)明專利,包括實時音頻驅動人臉生成方法、三維人臉表情渲染方法、訓練神經(jīng)輻射場模型等涉及計算機視覺(CV)、自動語音識別(ASR)、自然語言處理(NLP)領域的多項人工智能技術專利。截至目前,硅基智能已擁有授權專利77件(含5件美國發(fā)明專利、1件新加坡專利)。
前瞻產(chǎn)業(yè)研究院《2023年全球數(shù)字人行業(yè)技術全景圖譜》顯示:2022年1-12月,全球數(shù)字人行業(yè)專利申請數(shù)量和專利授權數(shù)量分別為3054項和230項,成功通過申請率僅為%。硅基智能短時間內成功收獲多項專利授權,足見在數(shù)字人賽道中技術實力的頭部地位。
(資料圖片)
硅基智能兩個月內連獲6件專利授權
據(jù)悉,這6項專利發(fā)明涉及“唇形與語音能否一致、語音實時驅動人臉、人臉表情精準遷移、音頻驅動人臉清晰度”等影響數(shù)字人形象仿真效果的重要技術,是硅基智能作為AIGC數(shù)字人品類發(fā)明人所進行的全面細致、系統(tǒng)性的專利技術布局。
硅基智能聲學團隊針對ASR相關技術申請的”文本輸出方法及系統(tǒng)、存儲介質、電子裝置“專利,針對數(shù)字人語音識別系統(tǒng)對于不同聲學模型無法理想融合問題進行了突破。
利用上述文本輸出系統(tǒng)進行語音識別過程中,可在不增加明顯時耗的基礎上同時對齊多個文本,融合詞頻和置信度信息,提升融合效果來提高模型穩(wěn)定性,優(yōu)化文本輸出算法和系統(tǒng)架構,使得數(shù)字人能夠更準確地識別和轉換語音輸入,大大提高數(shù)字人音頻驅動、真人驅動模式下的語音識別準確性、實時性,為全球用戶帶來更高水平的數(shù)字人交互體驗。
硅基智能CV團隊同樣也構建了計算機視覺相關的全套專利群,此次的”訓練神經(jīng)輻射場模型和人臉生成方法、裝置及服務器“專利。攻克了“多層感知器對神經(jīng)輻射場模型訓練、學習,只能實現(xiàn)低清晰度的人臉視頻生成,無法基于音頻驅動實時生成高清人臉視頻”的技術壁壘。
硅基數(shù)字人專利攻克實時生成數(shù)字人高清人臉視頻技術壁壘
該發(fā)明無需其他任何中間模態(tài)的轉換,如人臉表情,人臉關鍵點等,進一步提高了語音到人臉形狀映射的準確性。并且,該發(fā)明無需大量成對的語音、視頻數(shù)據(jù)集,只需要單人提供的短視頻即可用于模型訓練。同時,該發(fā)明使用圖像像素位置特征,用于訓練神經(jīng)輻射場,以及設計感知損失函數(shù),用于優(yōu)化神經(jīng)網(wǎng)絡參數(shù),以此顯著提升音頻驅動人臉生成渲染清晰度,避免局部模糊、動作卡頓,使數(shù)字人形象更加逼真自然,動作表情更加流暢順滑,提高圖像高頻差異感知,達到實時語音驅動高清人臉的數(shù)字人視頻生成效果。
IDC將數(shù)字人發(fā)展定義為5個階段 來源:IDC咨詢《中國AI數(shù)字人市場現(xiàn)狀與機會分析》
2022 年之前數(shù)字人大多處于 L1-L3 的階段,在AIGC技術浪潮下,行業(yè)頂尖數(shù)字人技術即將跨進 L4 階段,實現(xiàn)初步的智能化交互。得益于較早布局AIGC賽道,硅基智能AIGC數(shù)字人已是數(shù)字人L4階段的頭部代表,并無限逼近L5階段。硅基團隊50%以上皆為研發(fā)人員,每年研發(fā)投入占比高達70%。正是硅基智能對數(shù)字人相關的AI技術和算法進行的持續(xù)性研發(fā)投入,以及在計算機視覺、語音識別、自然語言處理等方面長期積累的技術能力,讓硅基智能AIGC數(shù)字人在全球范圍內均處于行業(yè)頭部地位。
作為全球首創(chuàng)AIGC(Artificial Intelligence Generated Character)數(shù)字人模式的科技公司,硅基智能自2019年推出全球首個AI數(shù)字人以來,先后開創(chuàng)了數(shù)字人直播、數(shù)字人短視頻的創(chuàng)新行業(yè)應用,憑借卓越的技術實力牢牢占據(jù)了全球數(shù)字人行業(yè)的領導地位。
硅基數(shù)字人賦能千行百業(yè)
硅基文明創(chuàng)立者、硅基智能創(chuàng)始人司馬華鵬曾說:“每一個新技術都有自己的成長周期,長期主義需要戰(zhàn)略定力,忽略短期噪音。在歐洲創(chuàng)業(yè)的前十五年我都致力于人工智能和計算機圖像算法領域的研發(fā),后來回國創(chuàng)立了硅基智能,把實現(xiàn)硅基文明作為未來十年要全力以赴去投入的事業(yè)。這兩條沉淀了二十多年的技術線的匯聚,構成如今硅基數(shù)字人產(chǎn)品的‘表’和‘里’”。
硅基智能一直倡導科技平權的理念,利用AIGC技術實現(xiàn)科技普惠,計劃到2025年為全球輸出一億硅基勞動力,通過AIGC技術、數(shù)字人產(chǎn)品和產(chǎn)業(yè)生態(tài)的結合,打造AIGC領域的中國樣板。
同時,硅基智能不斷探索以科技力量解決社會問題,截止2022年中國共計有110萬失獨家庭,面對這樣的社會問題,硅基智能數(shù)字人技術已可實現(xiàn)用一段1-3分鐘視頻素材,克隆去世親人的數(shù)字分身,以實現(xiàn)和“真人”一樣逼真的“面對面”交流互動。
硅基智能生命克隆“數(shù)字人奶奶”
此外,硅基智能專注于解決各行業(yè)勞動力不足的剛性需求,利用AIGC技術創(chuàng)造大量硅基勞動力,同時助力企業(yè)實現(xiàn)數(shù)字化轉型。目前,硅基智能的業(yè)務遍布全球,已經(jīng)為數(shù)十個行業(yè)近萬家企業(yè)提供了數(shù)字人服務。
展望未來,硅基智能將繼續(xù)推動科技創(chuàng)新,積極響應國家數(shù)字經(jīng)濟建設布局,充分發(fā)揮自身技術優(yōu)勢和商業(yè)化落地經(jīng)驗,以AI賦能助力加速產(chǎn)業(yè)數(shù)字化轉型,打造更多智能化標桿場景應用案例,不斷為數(shù)字中國創(chuàng)新發(fā)展注入新動能。
熱門
聯(lián)系我們:435 226 40 @qq.com
版權所有 重播新聞網(wǎng) www.bluestd.cn 京ICP備2022022245號-17