聚焦內(nèi)容安全 跨模態(tài)視頻搜索引擎“白澤”正式發(fā)布
11月24日,由中央網(wǎng)信辦、中央廣播電視總臺(tái)、廣東省委網(wǎng)信委聯(lián)合主辦,人民網(wǎng)與華為技術(shù)有限公司聯(lián)合承辦的2021中國網(wǎng)絡(luò)媒體論壇技術(shù)論壇在廣州市舉行。論壇上,人民日報(bào)社傳播內(nèi)容認(rèn)知國家重點(diǎn)實(shí)驗(yàn)室與人民中科共同發(fā)布了面向內(nèi)容安全的跨模態(tài)視頻搜索引擎——“白澤”,人民日報(bào)社傳播內(nèi)容認(rèn)知國家重點(diǎn)實(shí)驗(yàn)室主任,人民網(wǎng)黨委書記、董事長、總裁葉蓁蓁介紹了相關(guān)情況。
“白澤”搜索引擎主頁面。
據(jù)悉,內(nèi)容風(fēng)控大腦是對全網(wǎng)海量內(nèi)容進(jìn)行高通量感知、機(jī)器理解、智能檢索并自主進(jìn)化的計(jì)算平臺(tái),“白澤”則是該計(jì)算平臺(tái)的核心組件。內(nèi)容風(fēng)控大腦全部技術(shù)組件均實(shí)現(xiàn)國產(chǎn)化部署,提供視頻搜索、內(nèi)容風(fēng)控、開源情報(bào)、反詐反恐、內(nèi)容溯源、版權(quán)保護(hù)、實(shí)訓(xùn)靶場等多功能。鑒于跨平臺(tái)、跨模態(tài)的視頻搜索引擎是探索數(shù)字世界的重要工具,有巨大社會(huì)價(jià)值和商業(yè)前景,該引擎擬獨(dú)立運(yùn)營,以“白澤”作為商品名對外提供服務(wù)。據(jù)了解,“白澤”取名于中國神話傳說中一種“通萬物之情、曉萬物狀貌”的神獸,它知道天下所有鬼怪的名字、形貌和驅(qū)除的法術(shù)。
葉蓁蓁表示,當(dāng)前,各大主流媒體已進(jìn)入多模態(tài)階段,可實(shí)現(xiàn)文字、圖片、視頻搜索,但相互間的壁壘依然存在,人民網(wǎng)進(jìn)入跨模態(tài)搜索領(lǐng)域,實(shí)現(xiàn)文字、圖片、音視頻互聯(lián)互通。
“白澤”搜索界面。
當(dāng)前,基于單個(gè)模態(tài)的內(nèi)容提取及簡單規(guī)則匹配的內(nèi)容分析策略,已無法滿足實(shí)際工作需要。對此,各廠商紛紛推出基于多模態(tài)融合和復(fù)合規(guī)則判斷的多模態(tài)策略,但仍面臨依賴大規(guī)模算力、模態(tài)之間信息相互隔離、運(yùn)行和維護(hù)成本高、資源復(fù)用率低等問題。此次發(fā)布的“白澤”引擎,基于跨模態(tài)視頻檢索的策略,其跨模態(tài)引擎可實(shí)現(xiàn)單模態(tài)語義理解、多模態(tài)信息融合、跨模態(tài)語義關(guān)聯(lián),補(bǔ)全單一模態(tài)信息不足的現(xiàn)狀,打破模態(tài)間信息孤島。
據(jù)介紹,“白澤”引擎將文字、圖片、語音和視頻等不同模態(tài)信息映射到一個(gè)統(tǒng)一特征表示空間,以視頻為核心,學(xué)習(xí)多個(gè)模態(tài)間統(tǒng)一的距離度量,跨越文字、語音、視頻等多模態(tài)內(nèi)容的語義鴻溝,自動(dòng)關(guān)聯(lián)多模態(tài)間關(guān)鍵要素。
在此背景下,“白澤”引擎無需配置傳統(tǒng)內(nèi)容搜索所需的復(fù)雜匹配規(guī)則,通過自然語言描述即可快速檢索出相同語義的視頻,在不需要依賴大規(guī)模算力的情況下,有效應(yīng)對新事件和突發(fā)事件,資源復(fù)用率高。
此外,面向內(nèi)容安全,“白澤”結(jié)合對境內(nèi)外多平臺(tái)內(nèi)容的檢索,可跨平臺(tái)實(shí)現(xiàn)文本搜圖片、文本搜視頻、圖片搜視頻、視頻搜視頻、圖片搜文字、視頻搜文字等功能。在論壇現(xiàn)場,葉蓁蓁展示了“白澤”在視頻搜索、溯源和辟謠、版權(quán)監(jiān)測、視頻生產(chǎn)等商業(yè)化應(yīng)用場景的功能。
同時(shí),為提升“白澤”引擎的安全和效率,人民中科基于華為昇騰芯片研發(fā)了面向內(nèi)容理解的“雨燕”智能計(jì)算加速卡,并采用全自主研發(fā)的模型壓縮和加速算法,同等條件下能夠?qū)崿F(xiàn)4倍效率的提升。(人民網(wǎng)記者 孫陽 栗翹楚)