2022 年 11 月 30 日,OpenAI公司的對話式人工智能應用ChatGPT正式發(fā)布,因其對話能力遠超同類應用而迅速引爆互聯(lián)網(wǎng)。2023年1月份,其月活用戶數(shù)已經(jīng)破億,成為史上發(fā)展最快的應用。2023年3月15日,GPT-4的發(fā)布再次引爆互聯(lián)網(wǎng),原有的自然語言理解、推理和對話能力繼續(xù)增強,更引入了識圖等多模態(tài)識別功能,有研究認為可以將其視為“通用性人工智能”的初步階段。在國內(nèi),百度同類產(chǎn)品“文心一言“的發(fā)布同樣引起了極大關注。
本文旨在分析ChatGPT類生成式人工智能產(chǎn)品及技術對我國網(wǎng)信工作和輿情工作的影響。主要內(nèi)容為:1. 該類產(chǎn)品可能會形成新的、占據(jù)大量用戶使用時間的互聯(lián)網(wǎng)流量入口。2. 技術上短期內(nèi)會呈現(xiàn)OpenAI領跑,其他國內(nèi)外的大型科技公司跟隨的局面。3. 該類產(chǎn)品和技術短期內(nèi)可以提升特定行業(yè)的生產(chǎn)力,并在長期對社會各行各業(yè)都有有利影響。4. 該類產(chǎn)品在提供監(jiān)管和引導的情況下對社會文化發(fā)展有利,但也有部分需要特別關注的問題。5. 應該采取一系列措施,鼓勵該類產(chǎn)品健康發(fā)展,并在形成規(guī)模后配套一系列監(jiān)管措施保證其符合社會倫理。6.具體建議。
1. 產(chǎn)品發(fā)展預測。
該類產(chǎn)品可以分核心產(chǎn)品和衍生產(chǎn)品。
核心產(chǎn)品是類似ChatGPT的對話式聊天工具。該類產(chǎn)品從OpenAI已經(jīng)建立了較為明顯的領先優(yōu)勢。其產(chǎn)品ChatGPT能力明顯領先于競爭對手,甚至在一項之前被人類認為自身獨有的能力創(chuàng)造力評估中,只有9.4%的人可以超過GPT4 (arxiv.org/abs/2303.12003)。谷歌作為其底層技術(transformers)的發(fā)明者,在公司高層非常重視、不缺技術不缺資金的情況下,其同類產(chǎn)品bard在功能、體驗上仍然明顯落后于ChatGPT。在短期內(nèi),仍然會呈現(xiàn)ChatGPT占據(jù)市場主要份額,其他類產(chǎn)品如Bard、Sage、Claude等競爭少量剩余市場份額的局面。國內(nèi)來看,上海秘塔網(wǎng)絡科技有限公司在2023年2月28日推出了“對話寫作貓”類產(chǎn)品,采用秘塔自研MetaLLM大模型,主要聚焦于寫作輔助場景。不過更具影響力的還是3月16日百度發(fā)布的生成式AI產(chǎn)品“文心一言”。
衍生產(chǎn)品國際上以微軟為主導。因為微軟和OpenAI的深度合作關系,微軟率先在自家搜索引擎bing中引入對話機器人而搶占了不少Google的市場份額。同時還在自己的多個產(chǎn)品線如Office、Github、Loop中宣布引入類似的技術。國內(nèi)因發(fā)展較晚,衍生產(chǎn)品還沒有大規(guī)模發(fā)展。
從ChatGPT的發(fā)展來看,該類產(chǎn)品可能會形成新的、占據(jù)大量用戶使用時間的互聯(lián)網(wǎng)流量入口,并逐漸侵入其他垂直領域。
2. 技術發(fā)展預測。
ChatGPT采用的GPT-4語言模型為目前公認的效果最好的語言模型,但其技術細節(jié)OpenAI并沒有公布。Facebook開源了他們的大語言模型LLaMA。國內(nèi)來看,復旦大學在2月份曾打算公開發(fā)布類ChatGPT模型MOSS,但因熱度過大而暫停公開。清華大學在3月14日發(fā)布了ChatGLM-6B開源雙語對話語言模型,其中文對話能力較強。百度的文心一言模型為非開源的自研大語言模型。
值得注意的是,已經(jīng)有多個研究發(fā)現(xiàn)基于一個并不先進的開源大型語言模型 (LLM),結合OpenAI的語言模型或其他先進語料進行微調,即可獲得相似于ChatGPT 的能力。如斯坦福大學開源的Alpaca和databricks的Hello Dolly,都可以利用已發(fā)布的語言模型和較少的訓練資源來達到類似于ChatGPT的能力。
從底層技術上看,大預言模型的訓練都要使用大量的先進GPU。目前該項技術主要為NVIDIA所獨有。我國的GPU技術起步較晚,目前且NVIDIA最先進的產(chǎn)品如Tesla A100已被美國禁運,國內(nèi)只能提供性能差一級的特供版。
綜上來看,技術上短期內(nèi)仍然呈現(xiàn)OpenAI一家獨大的局面,與其深度合作的微軟公司可以共享其技術成果。其他國內(nèi)國外的大型科技公司公司雖然無法達到OpenAI的高度,但也可以在短期內(nèi)擁有一個效果類似于ChatGPT初期的語言模型。對國內(nèi)企業(yè)來說,相對于美國企業(yè)有兩個額外的難點:1. 用于訓練的中文高質量語料不足。2. 先進GPU進口受限。
本章節(jié)主要預測ChatGPT類生成式人工智能產(chǎn)品在發(fā)展到一定程度后的社會影響。
其影響顯然是多方面的,限于能力和篇幅,本文僅嘗試從社會生產(chǎn)力影響、社會文化影響輿論動員能力、互聯(lián)網(wǎng)產(chǎn)業(yè)影響、網(wǎng)絡數(shù)據(jù)安全影響角度做淺析。
1. 社會生產(chǎn)力影響
工作效率方面,該類產(chǎn)品在一些領域可以顯著的提高工作效率。目前來看,ChatGPT類產(chǎn)品和技術在外語翻譯、寫作輔助、編程輔助等領域都體現(xiàn)出了非常好的效果。其對專業(yè)技術文章的快速總結能力也已經(jīng)得到了驗證。在其他一些較為小眾的專業(yè)領域,也可以通過諸如ChatGPT Retrieval Plugin這樣的插件結合專業(yè)文檔來得到一個幫助用戶快速入門和檢索的問答式機器人。OpenAI的研究人員估計 ChatGPT 和使用該程序構建的未來應用可能影響美國大約 19% 的工作崗位,和他們至少 50% 的工作任務(相關論文:arxiv.org/pdf/2303.10130v1.pdf )。
總體來說,該類產(chǎn)品還是會顯著的增加各行各業(yè)的生產(chǎn)力。
2. 社會文化影響和輿論動員能力
該類應用的輿論動員能力主要體現(xiàn)在顯式和隱式兩個方面。
顯式方面,因為該類應用可能會發(fā)展成為新的互聯(lián)網(wǎng)流量入口。其首頁上的推薦信息等會成為新聞門戶,其影響力類似于現(xiàn)有其他類互聯(lián)網(wǎng)門戶。
隱式方面則更為重要。在有大量用戶的前提下,語言模型可以被認為獲得了對世界觀價值觀人生觀的解釋權。語言模型的意識形態(tài)是隱藏在訓練數(shù)據(jù)和訓練過程中的,無法直接通過文字或代碼來檢查驗證。在2022年12月,清華大學·交叉信息研究院·助理教授于洋帶領團隊對GPT-2做了性別歧視水平評估,測試結果發(fā)現(xiàn)其存在一定的歧視行為。2月份 OpenAI 首席執(zhí)行官 Sam Altman 在 2 月初發(fā)推文表示其在偏見方面存在偏見。
雖然語言模型的偏見是不可避免的,但從另一個角度來說,正式上市的語言模型,包括國外的ChatGPT類,整體還是表現(xiàn)出了較高的倫理/道德水準,相對于日常人們接觸到的互聯(lián)網(wǎng)環(huán)境,接觸ChatGPT帶來的影響可能更為正面。對語言模型只需加以監(jiān)管和引導,其益處會明顯大于壞處。非正式上市的語言模型,因可能不做倫理方面的訓練而更容易被用作灰產(chǎn),這類產(chǎn)品可以生成大量的爭議性文章用作引流、在封閉性社群挑逗吸粉等,如果被用作未成年教育可能危害極大。
教育領域,ChatGPT是否可應用于教學,特別是大學生在完成作業(yè)時能否使用ChatGPT也產(chǎn)生了巨大爭議。
除了對話類產(chǎn)品,還應該考慮ChatGPT類技術帶來的影響。ChatGPT類技術可以在短期內(nèi)生成大量的同類但不完全相同的文章,目前已可被用于灰產(chǎn)、批量廣告、SEO技術等。如果和水軍機器人技術結合,可能會產(chǎn)生大量以假亂真的帖子攪亂互聯(lián)網(wǎng)空間。對互聯(lián)網(wǎng)平臺和管理部門而言,如何監(jiān)控人工智能生成的批量數(shù)據(jù)是個新的監(jiān)管難點。
3. 互聯(lián)網(wǎng)產(chǎn)業(yè)的影響
該類應用可能會重塑互聯(lián)網(wǎng)格局。ChatGPT成為最快達到1億月活用戶的互聯(lián)網(wǎng)公司。根據(jù)分析公司Similarweb的數(shù)據(jù),在微軟將OpenAI的AI聊天技術整合到搜索引擎必應(Bing)之后,必應的頁面訪問量較一個月前增長15.8%,而谷歌同期搜索引擎的訪問量下降了近1%。在ChatGPT開放插件體系后,已有預測其將成為一個新的互聯(lián)網(wǎng)門戶。
4. 網(wǎng)絡數(shù)據(jù)安全的影響
OpenAI作為一個已AI研究起家的小公司,其產(chǎn)品能力要明顯弱于其他老牌互聯(lián)網(wǎng)大廠,上線以來已經(jīng)歷過多輪宕機和數(shù)據(jù)丟失現(xiàn)象。3月25日,OpenAI公司披露有1.2% 的 ChatGPT Plus 用戶可能向其他用戶泄露了個人數(shù)據(jù)。
從OpenAI和隱私協(xié)議看,用戶在使用ChatGPT期間的提示和回復等數(shù)據(jù),將被該公司繼續(xù)用于訓練AI算法模型。這也是ChatGPT能力可以持續(xù)提升,保持對其他同類產(chǎn)品競爭力的一個重要原因。
如果國外產(chǎn)品在國內(nèi)提供服務,主管部門需要考慮跨境數(shù)據(jù)的安全問題以及產(chǎn)品本身的安全能力。如果是國內(nèi)產(chǎn)品在國內(nèi)提供服務,也需要考慮其訓練數(shù)據(jù)是否確實剔除了隱私內(nèi)容,特別是有多項業(yè)務的互聯(lián)網(wǎng)大廠,是否會挪用用戶的輸入數(shù)據(jù)用于其他業(yè)務。
這部分嘗試從上文中的分析,對網(wǎng)信等互聯(lián)網(wǎng)主管部門如何引導ChatGPT類產(chǎn)品和技術健康發(fā)展提出初步建議。僅供參考。
1. 鑒于其對社會生產(chǎn)力進步的積極作用,因積極鼓勵互聯(lián)網(wǎng)公司大力發(fā)展同類產(chǎn)品和技術,并在一些具體問題上給予支持。
a) 數(shù)據(jù)問題:可以開放可公開的政務數(shù)據(jù)作為訓練數(shù)據(jù)。這部分數(shù)據(jù)內(nèi)容質量高且符合。在合法、保證隱私的前提下引導各互聯(lián)網(wǎng)平臺數(shù)據(jù)流通。
b) 算力問題:可協(xié)調國家超算為互聯(lián)網(wǎng)公司提供有償服務,彌補算力不足的因素。
c) 對訓練數(shù)據(jù)的使用過程中,法律不明確的地方提供支持。
2. 網(wǎng)信部門可以總結符合我國社會文化發(fā)展需要的語言倫理模型或其他可供參考的條款供互聯(lián)網(wǎng)公司訓練模型時應用。同時,對于用戶數(shù)超過一定數(shù)量級的產(chǎn)品應定期監(jiān)控評估其倫理模型的合理性。
3. 可主動應用該類技術,為群眾提供領域內(nèi)的咨詢服務,如網(wǎng)絡安全、政策法規(guī)問答等。
4. 鑒于對該類技術監(jiān)控存在技術難點,可鼓勵第三方公司開發(fā)評估大語言模型的倫理是否恰當?shù)谋O(jiān)測工具。為AI發(fā)展的監(jiān)管提供技術支撐能力。
5. 鑒于新技術可能帶來的爭議性,應監(jiān)測該項技術在互聯(lián)網(wǎng)上引發(fā)的爭議,對涉及社會公共領域的問題及時回應。
6. 鑒于該類技術可能在短期內(nèi)應用于水軍類黑灰產(chǎn),可要求互聯(lián)網(wǎng)平臺加強在該技術下對水軍的識別,并鼓勵第三方公司提供該類技術下的監(jiān)測能力。
7. 鑒于對該類技術在大量應用后可能會取代部分崗位,可以牽頭評估短期內(nèi)影響較大工作崗位,并提請其他相關部門提前做出應對。
8. 鑒于該類技術存在安全性的心理預期偏差(用戶認為自己面對的是機器人而實際這些數(shù)據(jù)可能被用于其他研究)??商嵝讶罕娮⒅刈陨淼臄?shù)據(jù)安全,詳細了解其使用協(xié)議,并監(jiān)管廠商是否依法依規(guī)使用用戶數(shù)據(jù)。
(部分文字、圖片來自網(wǎng)絡,如涉及侵權,請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權內(nèi)容。電話:4006770986 負責人:張明)