【資料圖】
作者 | Chenglin Pua(馬來西亞) 編審 | 于百程
來源|01元宇宙
以聊天機器人ChatGPT為代表的AIGC的異常火熱,將AI再次推到聚光燈之下。AIGC(AI generated content,即人工智能自動生成內容)被認為是繼專業生產內容(PGC)、用戶生產內容(UGC)之后的新型內容創作方式。人們發現,AIGC已經飛速成長,甚至在接下來的時間有進一步的突破和規模化的商業應用。近期,微軟宣布ChatGPT將會與旗下的Office軟件以及搜索引擎Bing結合,此消息給谷歌帶來了極大挑戰,巨頭們的AI競爭再度白熱化。實際上,谷歌、Meta和百度等在AIGC上也有不同程度的布局。ChatGPT簡介ChatGPT 是 OpenAI 開發的一款專門從事對話的人工智能聊天機器人原型。聊天機器人是一種大型語言模型,采用監督學習和強化學習技術。ChatGPT 于 2022 年 11 月推出,盡管其回答事實的準確性受到批評,但因其詳細和清晰的回復而受到關注。ChatGPT 使用監督學習和強化學習在 GPT-3.5 之上進行了微調和升級。ChatGPT的相關模型是OpenAI與微軟合作在其 Azure 超級計算基礎設施上進行訓練的。ChatGPT 的訓練數據包括手冊頁、互聯網現象和編程語言的知識,例如公告板系統和 Python 編程語言。ChatGPT 獲得了普遍正面的評價。《The Guardian》的Samantha Lock指出,ChatGPT能夠生成令人印象深刻和類似人類的文本。然而新的科技是一把雙刃劍,帶來好處的同時也會帶來許多弊端。例如學生利用ChatGPT來生成作業,或是利用ChatGPT來寫文章等等。在一篇評論文章中,經濟學家Paul Krugman寫道,ChatGPT 未來將影響知識工作者的需求,很可能對此工作領域產生深遠的影響。微軟:ChatGPT或將加入Office和BingChatGPT的橫空出世,讓人們看到了AI的更大創造力,再次給了人類很大想象力。而微軟作為OpenAI背后的金主爸爸之一,也積極把握ChatGPT的優勢,希望把ChatGPT整合進Office(包括Word、PowerPoint、Outlook等軟件)以及微軟旗下的搜索引擎Bing。微軟已經討論在Word、PowerPoint、Outlook和其他應用程序中加入OpenAI的人工智能,用戶通過簡單的提示,就可以自動生成文本。想象一下,在需要請假時,只要隨手打出“寫一封請病假的郵件”幾個字,Outlook就能秒秒鐘把措辭正式的請假申請寫好,直接點擊發送即可。微軟的工程師和研究人員一直致力于創造用于撰寫電子郵件和文檔的個性化AI工具。個性化定制,可以使AI理解對個人或公司具有獨特含義的詞語,例如特定個人的姓名、具有特定含義的術語、特定的工作場所,還可以讓AI更好地解析電子郵件和文檔草稿,并據此提出寫作建議。微軟計劃將ChatGPT整合進自家的搜索引擎必應(Bing),希望從而挑戰谷歌在搜索引擎界壓倒性的領先地位。而整合進Office軟件里,也將會加強自己在辦公軟件方面的霸主地位,后來者與微軟之間的差距會越來越遠。市場預測,或許在2023年3月,微軟將會把ChatGPT成功整合進Bing,Bing會直接向用戶回答完整的句子。而微軟的野心,實際上也威脅到了另一個搜索巨頭——谷歌的地位。谷歌雖然一開始表示沒有興趣在AIGC方面,但近期卻是感覺到了威脅。為此,谷歌也不得不采取一些動作了。微軟在AIGC方向除了布局ChatGPT之外,還有Copilot與Dall·E 2。2021年6月微軟發布了Copilot,是微軟 Visual Studio Code 中內置的一項新的軟件開發人工智能協助服務。GitHub Copilot 支持各種語言和框架,可以在 IDE (integrated development environment,集成開發環境)內為整行或整個功能提供建議。GitHub Copilot 由 OpenAI Codex 提供支持,它是在數十億行的開放源代碼上訓練出來的,為開發者提供有償(定價 10 美元 / 月或 100 美元 / 年,學生免費使用)的 AI 服務,包括能夠自己生成部分代碼以及自行修復部分bug。在2022年10月19日舉辦的Ignite 2022大會上,微軟宣布推出DALL-E2,一個文本到圖像的AI生成模型。DALL-E2生成圖像的結果令人印象深刻,以至于許多行業組織和藝術家都在考慮使用它來創作原創藝術。使用者只要輸入文字描述(Prompt),AI圖像生成工具就會自動產出其認為符合描述的圖像。谷歌推出Sparrow硬剛ChatGPT微軟頻出險招,谷歌自然不能坐以待斃。根據DeepMind創始人Demis Hassabis在2023年1月12日《時代》專訪中透露的信息,谷歌很有可能會利用DeepMind此前推出的Sparrow,來應對微軟ChatGPT的挑釁。Demis Hassabis表示,谷歌手中就有好幾個醞釀了很久的大模型,比如LaMDA、Imagen、Chinchilla和Flamingo等等,但從未對外公開。而如今微軟把谷歌逼急了,谷歌準備把這些模型發表。雖然ChatGPT很費錢,每天大約都要燒掉30萬美元,但人們永遠都會記住,在2022年12月,ChatGPT寫下了大規模語言模型歷史上濃墨重彩的一筆,讓全世界人民為了和機器人聊天擠爆了服務器。2020年,谷歌就推出了一個26億參數的端到端神經網絡對話模型Meena。但僅僅只是推出,沒有將其應用于任何產品,推出后的反響也沒有很大。谷歌此前擔憂AI聊天機器人非常容易被“帶偏”,因AI訓練的數據來自互聯網,往往充滿了偏見、仇恨和謾罵,所以AI會生成攻擊性內容,以及與事實不符的答案。但如今的谷歌,恐怕無法再趨于保守了。DeepMind的聊天機器人Sparrow可能會在2023年晚些時候進入測試階段(private beta)。Demis Hassabis表示,之所以推遲發布Sparrow,是希望讓Sparrow在基于強化學習的功能上更進一步,而這正是ChatGPT所欠缺的。和ChatGPT類似,DeepMind在2022年9月提出的Sparrow模型,采取了一種基于人類反饋的強化學習(RL)框架。Sparrow模型在最初的設計時就是為了和用戶閑聊,并且可以在回答問題時,利用谷歌搜索出相關的信息來作為支撐證據。而為了確保模型的行為是安全的,還必須對其行為進行約束。因此,研究人員為該模型確定了一套最初的簡單規則,例如不要發表仇恨或侮辱性的言論、不要冒充或假裝是一個真人等等約束。比如用戶問如何偷車時,Sparrow模型會說,自己受到的訓練是不會給任何違法行為提供建議,這也是與ChatGPT不同的地方,有類似道德上的約束,而不是盲目的回答人類的指令。此前谷歌曾在AIGC領域上有著相對不錯的表現。例如Chinchilla的參數量(700億)只有GPT-3的零頭(1750億)。然而Chinchilla在幾乎所有的語音任務中都比前輩們表現得更好,包括GPT-3。然而如今卻是畫風突變,微軟也開始威脅到了自己的地位。畢竟,廣告業務為谷歌狂掙了5628億美元,占公司總收入的81%。目前,有報道表示目前谷歌已經發布了“紅色代碼”,重點解決ChatGPT對本公司的搜索引擎業務構成的威脅。谷歌許多團隊開始協助人工智能原型和產品的開發、發布。在可預見的未來,谷歌將會積極入場AIGC領域,目前OpenAI的試水反響相當不錯,有人探出了前路,谷歌或許能夠少走些彎路。在2023年即將發布的Sparrow測試版,身上肩負的使命著實不小。百度全面布局AIGC領域2022年1月10日,百度召開Create大會,開場視頻便是數字人希加加在不同維度的虛擬世界跑酷穿梭;更有數字人樂隊演繹歌曲,從作詞、作曲到編排,全部是由AIGC生成。雖然整場大會當然有專業制作人員參與,但AI這次加入了各個環節之中。Create大會就像一個百度的AIGC秀場。2022年8 月,百度基于自身的文心大模型也推出了AI 繪畫平臺:文心一格。此平臺明確定位為面向有設計需求和創意的人群,基于文心大模型智能生成多樣化AI創意圖片,輔助創作者的創意設計。2022年9月23日舉辦的2022萬象·百度移動生態大會上,百度發布了AI助理,堪稱AI打工天團,覆蓋了各種AIGC應用,包括AI自動生成文字、圖片,圖片轉換成視頻。用百度的話來說,這個團隊里不僅有文案、插畫師,還有視頻制作人,熬夜加班的活兒都可以交給AI了。當前,短視頻戰役愈發白熱化,百度如果想對短視頻再次發起沖擊,殺出重圍,需要更具殺傷力的秘密武器。而AIGC,則被百度視為一把利刃。借助AIGC的力量,百度希望掀起一場內容生產革命,為百度現有的500多萬百家號創作者帶來一套AI生產內容工具,幫助他們更快、更好地產出視頻內容,從而增加百度百家號等產品的用戶粘性,以反擊頭部短視頻平臺。百度移動生態負責人何俊杰認為,AIGC技術將成為百度移動生態的新變量新方向。基于AI生產文案、圖片、圖文轉視頻等技術,百度已經和數十家權威媒體成立“AIGC媒體聯盟”,希望能夠利用AIGC來改變如今的媒體行業。除了以上的成果之外,百度早前在AIGC領域的成果包括了百度的數字人度曉曉曾發布MV《啟航星》,作畫、作詞、作曲,全部由AI一手操刀;百度AI數字人度曉曉,挑戰寫高考作文,40秒寫了40篇,得分可以排在總考生前 25%。Meta布局視頻領域的AIGC工具實際上,Meta在AIGC領域也有布局。2022年11月,Meta推出Make-A-Video,用AI驅動文本、圖片生成短視頻等。Meta 旗下人工智能實驗室 Meta AI,發布了從文本生成視頻的AI系統“Make-A-Video”,即根據輸入的自然語言文本生成一段5秒鐘左右的短視頻。并且在此基礎上,拓展到從圖像生成視頻,和從視頻生成視頻。Meta 創始人扎克伯格表示,AI生成視頻要比圖像困難得多,這是非常驚人的進步。系統除了要正確生成每個像素外,還需預測像素將如何隨時間變化。Make-A-Video 能夠理解物理世界中的運動,并將其應用于傳統的文本生成圖像AI技術中。例如,輸入“一只泰迪熊在畫肖像”,Make-A-Video 便能生成一個泰迪熊般的角色,在畫板上繪畫的畫面,并表現出細膩的手部動作。同時,Make-A-Video 還允許輸出超現實、寫實、風格化等不同的視頻類型。在此基礎上,Make-A-Video 進一步拓寬了視頻生成的輸入窗口,支持從單圖片、兩張相似圖片、一段視頻素材輸出一段視頻。例如上傳一張靜止的航海油畫,Make-A-Video 會輸出一段正在海浪中前行的帆船視頻;還可以為兩張相似的隕石圖像,補全一段隕石運行變化的視頻;甚至是根據一段玩偶跳舞的視頻,生成多個類似的視頻。Make-A-Video是建立在 Meta 已有的AI圖像生成技術之上,AI 模型 Make-A-Scene。Make-A-Scene用數百萬個示例圖片訓練AI模型學習圖像和文字間的關系,并最終能從輸入的文本生成圖像。
Make-A-Video生成的照片