中国新闻网

Sora神話:迄今最具破壞性的網絡威脅?

2024-03-29 17:31:52 来源:凯发就来凯发天生赢家一触即发
大字体
小字体

  

  中國新聞周刊記者/胡泳

  發於2024.3.11總第1131期《中國新聞周刊》雜誌

  近期,神话美國人工智能研究公司OpenAI開發的迄今Sora橫空出世,引發全球廣泛關注。最具尊龙手机版下载人們一邊驚訝於它強大的破坏文本轉視頻功能,一邊憂心於真實與虛假的网络威胁界限是否會變得更加難以辨別。Sora到底是神话什麽,是迄今一支馬良“神筆”,還是最具一個超級怪物?

  Sora的技術成就和局限性

  Sora是OpenAI開發的一種先進的文本轉視頻轉換模型,它的破坏功能和應用範圍展示了現代人工智能技術的新視野。該模型不僅限於生成幾秒鍾的网络威胁視頻,還能製作長達一分鍾的神话視頻,在保持高視覺質量的迄今同時忠實再現用戶指令。對於使用者來說,最具它仿佛將夢想變為現實。破坏

  目前,网络威胁Sora正處於獨家測試階段,隻有部分紅隊人員(專門負責從對抗的角度對某一計劃、戰略、政策或產品提出質疑的專家組)、視覺藝術家、設計師和電影製片人可以使用。這一戰略舉措可確保技術在廣泛發布之前,不僅達到而且超過創意和安全的最高標準。一旦Sora可以公開並為更多人所使用,勢將在全球範圍內產生更加重大的影響。

  Sora的技術實力證明了人工智能領域取得的長足進步。Sora代表著從靜態圖像生成到動態視頻創作的飛躍,這是一個複雜的過程,不僅涉及視覺渲染,還涉及對運動和時間進程的理解。這一進步標誌著人工智能在解釋和可視化時間敘事方麵的能力發生了巨大轉變,使Sora不僅僅是一個創建視覺效果的工具,更仿佛成為一個講故事的人。

  該突破所帶來的衝擊波預計將橫跨視頻創作的各個方麵,但它也很可能會從視頻發展到三維建模。從目前的尊龙手机版下载演示來看,Sora可以理解提示中描述的元素是如何在物理世界中存在和運行的。這使得該模型能夠在視頻中準確呈現用戶意圖的動作和行為。例如,它可以逼真地再現人奔跑的景象或自然現象的運動。此外,它還能精確呈現多個角色的細節、動作類型以及主題和背景的細微之處。

  在發布Sora的同時,OpenAI公布了一份相應的技術文檔,名為《作為世界模擬器的視頻生成模型》。這篇技術論文寫道:“我們發現,視頻模型在經過大規模訓練後,會表現出許多有趣的湧現能力。這些能力使Sora能夠模擬物理世界中的人、動物和環境的某些方麵。”對Sora如何在內部建立世界模型,英偉達高級研究員Jim Fan博士進行了更深層次的猜測。“如果你認為Sora是一個像DALL-E一樣的創意玩具……那就想錯了。Sora 是一個數據驅動的物理引擎。”

  也就是說,雖然目前Sora被認為僅僅是一個視頻生成模型,但像英偉達高級科學家Jim Fan這樣的計算機科學家相信,Sora實質上是一個可學習的模擬器(simulator)或世界模型(world model)。這表明,人工智能有可能從大量真實世界的視頻和那些考量物理行為的視頻(如遊戲引擎Unreal Engine中的視頻,雖然OpenAI並沒有明確提到這一點)中理解物理規律和現象。

  果真如此的話,在不久的將來出現文本到3D的可能性非常大。屆時,不僅是多角度拍攝的視頻,就連虛擬空間(如元宇宙)中的視覺效果製作也能很快由人工智能輕鬆生成。

  從OpenAI目前公布的視頻看,製作質量相當高。許多視頻都是電影級的;所有視頻都有著高分辨率,大多數視頻看起來都像是真實的——除非你用慢動作觀看。攝影鏡頭會平移和變焦,人物和場景在3D空間中的移動具備一致性,初看起來,你甚至意識不到自己觀看的是合成影像。

  為了達到更高的逼真度,Sora 結合了兩種不同的人工智能方法。第一種是擴散模型(diffusion model),類似於DALL-E等圖像生成器中使用的那種。這類模型通過學習將隨機化的圖像像素逐漸轉換成連貫的圖像。第二種是轉換器架構(transformer architecture),用於對連續數據進行上下文分析和拚接。例如,大型語言模型即使用轉換器架構將單詞組合成一般可理解的句子。在視頻生成過程中,OpenAI將視頻片段分解成視覺的“時空補丁”(spacetime patches),Sora的轉換器架構可以對其進行處理。

  然而,與任何突破性技術一樣,Sora也有自己的局限性。盡管該模型具有先進的功能,但有時仍難以準確模擬更為複雜的場景的物理特性。這可能導致視覺效果雖給人留下深刻印象,但偶爾也會違背物理定律或無法準確呈現因果場景。例如,視頻中的角色與物體的交互方式在物理上或許並不可行,也做不到隨著時間的推移而保持一致。

  所以,雖然Sora號稱是在學習物理,但還並不能準確地建立物理模型。OpenAI的官方博客指出,它在模擬物理、理解因果關係和其他簡單細節方麵遇到了困難。例如,要求生成一個人咬餅幹的視頻,卻發現餅幹上沒有留下任何咬痕;或是一名男子在跑步機上以錯誤的方式跑步。它還可能對提示的空間細節感到困惑,如跟隨特定的攝像頭軌跡等。

  Sora在多個戰場攻城略地

  雖非盡善盡美,人們仍然很難不被Sora早期示例的質量以及它最終對視頻、電影、遊戲等產業的可能改寫所震撼。

  在視頻方麵,OpenAI以外的其他公司,從穀歌等巨頭到Runway等初創公司,都已經推出了文本到視頻的人工智能項目。但 OpenAI表示,Sora的獨特之處在於其驚人的真實感,以及它能夠生成比其他模型通常拿出的簡短片段更長的剪輯。

  例如,OpenAI公布的一個視頻片段,提示要求製作“一個矮矮的毛茸茸的怪物跪在紅蠟燭旁邊的動畫場景”,還有一些詳細的舞台指示(“睜大眼睛和張開嘴巴”)以及對所需氛圍的描述。結果,Sora創造了一種皮克斯風格的生物,似乎具有來自《怪獸電力公司》(Monsters, Inc.)中的怪物的DNA。當《怪獸電力公司》2001年上映時,皮克斯曾經大肆宣揚製作怪物皮毛的超複雜紋理有多麽困難,因為在生物移動時,這些紋理也會隨之變化。皮克斯的“巫師”們花了數月時間才把它做得恰到好處。而OpenAI的新文本轉視頻機器似乎輕易就做到了這一點。這當中並沒有編碼,Sora完全是從觀察到的大量數據中學習3D幾何和一致性的。

  盡管場景確實令人印象深刻,但Sora的能力中最令人震驚的是那些它尚未接受過訓練的能力。如前所述,Sora由OpenAI的DALL-E 3圖像生成器使用的擴散模型版本以及GPT-4的基於Transformer的引擎驅動,它不僅能夠製作出滿足提示需求的視頻,而且在這樣做的同時,還展現了對電影語法的新型理解,這可以轉化為講故事的才能。

  比如,另一個視頻根據“一個色彩絢麗的珊瑚礁紙藝世界,充滿了色彩繽紛的魚類和海洋生物”創建。研究人員發現,Sora通過鏡頭角度和時間安排創造了敘事主旨。“實際上有多個鏡頭變化——這些變化不是縫合在一起的,而是由模型一次性生成的”,“我們沒有告訴它要這樣做,它就自動完成了。”

  OpenAI團隊沒有展示並且可能在相當長一段時間內不會發布的Sora的一個功能是,從單個圖像或一係列幀生成視頻的能力。這將提高講故事的能力:你可以準確地畫出你的想法,然後將其變為現實。從講故事的情形來看,Sora可以顯示對剪輯和節奏的理解,似乎具有初步的導演能力。

  然而,文本轉視頻要威脅到實際的電影製作,將需要很長一段時間,甚至可能永遠都不會出現這種情況。你無法通過拚接120個一分鍾時長的Sora剪輯來製作一部連貫的電影,因為模型不會以完全相同的方式響應提示——連續性是不可能的。但是,對於Sora和類似程序來說,時間限製並不是障礙,它們完全可以用來改造 TikTok、Reels和其他社交平台。在過去,為了製作一部專業電影,你需要非常昂貴的設備,而這一類的模型將使在社交媒體上製作視頻的普通人創作出非常高質量的內容。

  考慮到其進展速度,想象在幾個月內人工智能模型能夠創建長達五到十分鍾的多場景、多角色的複雜視頻並不算瘋狂。然而,從孤立的剪輯到製作一種以故事形式運行的媒介,讓觀眾在觀看時不會脫離其中,還有漫長的路要走。除非Sora成為一款為創作者提供完全定製和控製的開源應用程序,否則它不會顛覆電影產業。但顯然,該技術可以加快經驗豐富的電影製作人的工作速度,同時完全取代經驗不足的數字藝術家。

  另一個常常被提及、可能同樣遭遇顛覆的行業是視頻遊戲。正如OpenAI的論文所述,“Sora 可以用基本策略控製Minecraft(一款電子遊戲)中的玩家,同時以高保真度渲染世界及其動態”。顯然,這隻是其遊戲潛力的開始。未來的視頻遊戲機可能會使用擴散技術實時生成交互式視頻流,而不是由藝術家手工渲染數十億個多邊形。

  一些人推測Sora接受了視頻遊戲引擎的訓練,特別是Epic Games的虛幻引擎5(Unreal Engine 5)。雖然Sora幾乎肯定不會使用視頻遊戲引擎來打造令人著迷的感覺,但視頻遊戲世界可能被用來幫助訓練Sora的底層模型。某些Sora演示看起來確實與現有的視頻遊戲世界非常相似。2023年,遊戲開發者已經受到裁員的打擊,Sora可能會給他們帶來進一步的災難。當然,它也可以顯著降低進入門檻。

  總體來看,Sora的核心是一個多方麵的人工智能係統,能夠理解和執行跨越不同領域的任務。與以前專門用於文本生成、圖像識別或策略遊戲等特定任務的模型不同,Sora旨在彌合這些功能,提供更全麵的方法。這是通過機器學習的尖端技術實現的,包括深度學習、強化學習和遷移學習,它們使得Sora能夠利用在一個領域獲得的知識來提高另一領域的表現。

  Sora最引人注目的方麵之一是它的適應性。OpenAI強調了創建能夠從最少的輸入中學習並輕鬆適應新挑戰的人工智能係統的重要性。Sora體現了這一原則,展示了理解上下文、生成相關響應甚至從交互中學習的能力。這種適應性不僅增強了Sora在各種任務中的性能,還減少了大量再訓練的需要,使其成為人工智能應用更高效、更具成本效益的解決方案。

  2024:不再可能區分人工智能和現實

  然而,不管Sora有多麽神奇,公司外部幾乎沒有人試用過它——這始終是一個警示信號。

  從某種意義上說,OpenAI大可改名CloseAI,盡管其產品的功能強大到足以顛覆我們對世界的看法,但沒人告知我們產品的內部運作方式是怎樣的。公司外部的人員沒有機會研究或測試 Sora,了解它是如何構建的,與以前的產品進行比較也是不可能的。我們隻是知道,與大語言模型類似,OpenAI注入Sora的計算能力越強,其輸出的質量就越高。

  然而它的訓練數據是從哪來的呢?公司含糊其詞。發言人隻是說該模型是根據“經許可的和可公開獲取的內容”進行訓練的;當被問及潛在危害時,發言人表示公司仍在努力解決“錯誤信息、仇恨內容和偏見”。所有這些,就像當初ChatGPT問世一樣,引發了人們對深度造假、版權侵權、藝術家生計、隱藏偏見等方麵極其熟悉但又頗為嚴重的擔憂。

  OpenAI表示,“我們從大型語言模型中汲取靈感,通過在互聯網規模數據上進行訓練來獲得通用能力”。所謂“汲取靈感”是對Sora訓練數據來源的唯一回避性提及。在論文中,OpenAI進一步指出,“訓練文本到視頻生成係統需要大量的視頻和相應的文字說明”。大量視覺數據的唯一來源可以在互聯網上找到,這也暗示了Sora的來源。

  此前,OpenAI因使用《紐約時報》文章訓練GPT-2和GPT-3未付費而麵臨訴訟。到目前為止,從整個互聯網上搜索訓練數據的理由是,這些數據都是公開的。然而“可公開獲取”並不總是等同於“公域”。是否有藝術家、攝影師、表演者和電影製片人的作品被用於訓練Sora?他們是否允許其創意作品以這種方式被使用?

  看起來新的Sora和舊時的GPT在做同樣的事情,隻不過此次是專門針對視頻。也和以前一樣,OpenAI對自己的訓練模型所依據的數據諱莫如深。

  蒙著神秘麵紗的Sora也許會成為一台想象引擎,一場電影革命,或者一架視頻機器。但眼下最好將其視為一種挑釁或一波廣告攻勢。在很大程度上,OpenAI不是在發布產品,而是在製造神話。公眾所有的看熱鬧都近似一種狗仔隊行為。

  所以,盡管我對Sora印象非常深刻,但我並不完全相信這種炒作。需要等到普通人可以使用這個工具,因為現在公眾對 Sora的看法是經過精心策劃的。OpenAI首席執行官山姆·阿爾特曼(Sam Altman)本人和該公司在新聞稿中分享了最精彩的視頻。他們向一小群經過精心選擇的用戶提供了訪問權限。或許可以把這些當作一個“偉大的科技公司產品演示”,而我們並不知道當我們擁有這樣的工具時,生成的視頻是否會那麽好。

  在這種情況下,我們不由得擔心Sora構建中的安全和倫理考量。一個持久的問題是虛假信息,比如深度偽造。與生成式人工智能中的其他技術一樣,沒有理由相信文本到視頻不會繼續快速改進,從而讓我們越來越接近難以區分真假的時代。想象一下,這項技術如果與人工智能驅動的聲音克隆相結合,是否會在構建那些人們從未做過的事情的深度偽造方麵開辟出一條全新的道路?

  Sora的視頻在描述有大量動作的複雜場景時仍然會出現一些奇怪的故障,這表明這類深度偽造視頻目前還可被檢測出來。然而長遠看,必將出現魚目混珠的局麵。隨著Sora在2024年用人工智能生成的視頻讓世界幾乎不再可能區分人工智能和現實,信息時代已經結束,而虛假信息時代正式開始了。

  到2030年,大多數人都將知道,使用免費的人工智能工具可以偽造任何視頻、任何聲音或任何陳述。他們每天都會在網上生成難以計數的虛構,而且其數量在未來的更多年裏隻會激增。

  我們生活在這樣的時代,人類知識的總和幾乎完全可以從我們口袋裏的小裝置中獲取,但人工智能卻有可能毒害這口井。這並不是新鮮事——Sora不是互聯網麵臨的第一個威脅,也不會是最後一個,但它很可能是迄今為止最具破壞性的。

  從媒介素養的角度來看,這將使得驗證任何用戶生成的內容變得極為複雜,因為現在用戶可以生成他們想要的任何內容。由於我們現在生活的整個世界都是後真相的,所以很多人致力於在故事中編造虛假的敘述。圖像比文本更難,因為你必須具備Photoshop或類似軟件的應用知識,它存在進入障礙。而視頻是一個更高量級的難點。製作虛假視頻需要花費大量時間、專業知識和金錢。但有了Sora及類似應用,現在隻需輸入提示並獲取即可。

  這將如何改變新聞業?我相信Sora使各路議程設定者能夠生成比過去多得多的內容。而人工智能生成的營銷者和影響者內容的爆炸式增長,這可能有效排擠合法的新聞和媒體。

  可歎的是,人們對這樣的可怕未來不僅渾然不覺,反而拚命歡呼每一波新的人工智能技術浪潮的到來。新技術總是具有天然的眼球吸引力,各種大小媒體的流量追逐並不新鮮。然而,在隨波逐流當中,鮮有人分析人工智能報道的框架。有誰在認真對這些技術的工作原理進行澄清嗎?存在令人信服的對一些真正離譜的炒作的有力回應嗎?

  結果是什麽呢?公眾得到的是科幻版的人工智能故事,最終被排除在圍繞倫理、使用和未來工作的重要討論之外。這一切都在加劇對人工智能理解的好萊塢化。

  (作者係北京大學新聞與傳播學院教授)

  《中國新聞周刊》2024年第9期

  聲明:刊用《中國新聞周刊》稿件務經書麵授權 【編輯:曹子健】

【编辑:尊龙百家乐网址】
发表评论 文明上网理性发言,请遵守新闻评论服务协议
收藏文章
表情删除后不可恢复,是否删除
取消
确定
图片正在上传,请稍后...
评论内容为空!
还没有评论,快来抢沙发吧!
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
[网上传播视听节目许可证(0106168)] [京ICP证040655号] [ 京公网安备 11010202009201号] [京ICP备05004340号-1] 总机:86-10-87826688
违法和不良信息举报电话:15699788000 举报邮箱:jubao@chinanews.com.cn 举报受理和处置管理办法
Copyright ©1999-2023 chinanews.com. All Rights Reserved

© 2024. 鄂ICP备11018505号-1sitemap

评论