ChatGPT席卷全球已有半年,國(guó)內(nèi)科技圈在這期間爭(zhēng)相發(fā)展大模型業(yè)務(wù),發(fā)展路徑可以簡(jiǎn)單描述為:起初企業(yè)家們從討論“為什么中國(guó)沒(méi)造出ChatGPT”,到開(kāi)始下場(chǎng)做大模型;如今,業(yè)內(nèi)人士已經(jīng)從“國(guó)產(chǎn)大模型何時(shí)能追趕上ChatGPT”轉(zhuǎn)向“冷思考”,即國(guó)內(nèi)大模型在未來(lái)競(jìng)爭(zhēng)中如何形成行業(yè)壁壘、明確差異化優(yōu)勢(shì)。
行業(yè)發(fā)展演變背后,有一個(gè)原因值得被提及,那就是目前國(guó)內(nèi)企業(yè)宣布的大模型數(shù)量已超過(guò)70余家。
“據(jù)不完全統(tǒng)計(jì),中國(guó)10億以上參數(shù)規(guī)模的大模型已經(jīng)發(fā)布了79個(gè),從地區(qū)來(lái)看北京和廣東最多,自然語(yǔ)言處理是大模型研發(fā)最活躍的領(lǐng)域?!痹?月28日舉辦的中關(guān)村論壇人工智能大模型發(fā)展分論壇上,中國(guó)科學(xué)技術(shù)信息研究所所長(zhǎng),科技部新一代人工智能發(fā)展研究中心主任趙志耕披露中國(guó)人工智能大模型的情況時(shí)說(shuō)道。
(資料圖)
期間,多名業(yè)內(nèi)專家在中關(guān)村論壇上提到,在推動(dòng)開(kāi)源開(kāi)放的同時(shí),中國(guó)還需要加強(qiáng)基礎(chǔ)研究,“自主創(chuàng)新是發(fā)展大模型的必經(jīng)之路?!?/p>
已有79個(gè)國(guó)產(chǎn)大模型發(fā)布
趙志耕在會(huì)上表示,從全球已經(jīng)發(fā)布的大模型分布來(lái)看,中國(guó)和美國(guó)超過(guò)全球總數(shù)的80%,美國(guó)在大模型數(shù)量上居全球之首,中國(guó)從2020年進(jìn)入大模型快速發(fā)展期,目前與美國(guó)保持同步增長(zhǎng)態(tài)勢(shì)。據(jù)不完全統(tǒng)計(jì),目前中國(guó)10億參數(shù)規(guī)模以上的大模型已發(fā)布79個(gè),這些大模型主要集中在北京和廣東,其中北京有38個(gè),廣東有20個(gè)。
根據(jù)中關(guān)村論壇上發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》,目前中國(guó)在14個(gè)省市/地區(qū)均有團(tuán)隊(duì)在開(kāi)展大模型研發(fā),北京、廣東兩地最多,地域集中度相對(duì)較高。從領(lǐng)域分布來(lái)看,自然語(yǔ)言處理仍是目前大模型研發(fā)最為活躍的重點(diǎn)領(lǐng)域,其次是多模態(tài)領(lǐng)域,在計(jì)算機(jī)視覺(jué)和智能語(yǔ)音等領(lǐng)域的大模型還較少。國(guó)內(nèi)大學(xué)、科研機(jī)構(gòu)、企業(yè)等不同創(chuàng)新主體都在積極參與大模型研發(fā),學(xué)術(shù)界與產(chǎn)業(yè)界之間的聯(lián)合開(kāi)發(fā)相對(duì)較少。
在發(fā)表相關(guān)論文方面,中國(guó)大模型通過(guò)學(xué)術(shù)論文發(fā)表方式已經(jīng)形成一定學(xué)術(shù)影響力。其中北京、廣東、上海三地?zé)o論是論文發(fā)表量還是引用量都居國(guó)內(nèi)前列,體現(xiàn)出明顯的人才儲(chǔ)備優(yōu)勢(shì),江蘇、廣東、上海也是大模型人才相對(duì)較多的地區(qū)。
上述研究報(bào)告還顯示,開(kāi)源創(chuàng)新生態(tài)方面,目前已經(jīng)有超過(guò)半數(shù)大模型實(shí)現(xiàn)開(kāi)源。北京、廣東、上海三地開(kāi)源數(shù)量和開(kāi)源影響力均居國(guó)內(nèi)前三,這背后主要是高校和機(jī)構(gòu)在推動(dòng),如清華大學(xué)的ChatGLM-6B、復(fù)旦大學(xué)的MOSS以及百度的文心系列大模型開(kāi)源等。
大模型"煉制"工藝待精進(jìn)
國(guó)內(nèi)企業(yè)發(fā)布大模型時(shí),總喜歡對(duì)標(biāo)ChatGPT,有的企業(yè)家公開(kāi)表示自家大模型與前者的差距在數(shù)月間;有的企業(yè)家表示中美大模型差距接近數(shù)年,還有的企業(yè)家稱自家的大模型實(shí)力已經(jīng)追趕上ChatGPT。
不過(guò)最近,據(jù)《第一財(cái)經(jīng)》報(bào)道,在百度內(nèi)部一個(gè)頒獎(jiǎng)活動(dòng)上,百度董事長(zhǎng)李彥宏再次提起與OpenAI差距的時(shí)間問(wèn)題時(shí),他稱自己前段時(shí)間接受采訪時(shí)說(shuō)跟ChatGPT的差距大約是兩個(gè)月,有點(diǎn)斷章取義,因?yàn)樽约汉竺婢o接著說(shuō):“這不是重點(diǎn),重點(diǎn)是這兩個(gè)月的差距我們要用多長(zhǎng)時(shí)間才能趕上,也許很快,也許永遠(yuǎn)也趕不上。”
對(duì)于百度文心一言能否追趕上ChatGPT這個(gè)問(wèn)題,李彥宏表示這取決于百度自身的努力、把握機(jī)會(huì)的能力和執(zhí)行力,“我們的戰(zhàn)略、人才、組織機(jī)制和文化能不能適應(yīng)新的形勢(shì),我們?cè)谛碌沫h(huán)境下能不能持續(xù)創(chuàng)新,生死攸關(guān)。”
中國(guó)大模型如今熱鬧似百家爭(zhēng)鳴、百花齊放,但熱鬧之中也有挑戰(zhàn)。這些挑戰(zhàn)是技術(shù)實(shí)力和技術(shù)差距的挑戰(zhàn)。
在談到當(dāng)前AI大模型面臨的挑戰(zhàn)時(shí),除了提到需要質(zhì)量更高的數(shù)據(jù)、更多的AI工程師與AI科學(xué)家等外,李開(kāi)復(fù)還表示,中國(guó)大模型公司需要有自己的技術(shù)護(hù)城河。
“支持開(kāi)源,但不能過(guò)度依賴開(kāi)源模型”,李開(kāi)復(fù)分析稱,首先,開(kāi)源模型無(wú)法達(dá)到國(guó)外大廠自研模型的性能,開(kāi)源模型的能力會(huì)成為“天花板”;其次,海外大廠的開(kāi)源技術(shù)有關(guān)閉風(fēng)險(xiǎn);此外,由于國(guó)內(nèi)外文化、用戶習(xí)慣和法律法規(guī)不同,將在國(guó)外訓(xùn)練好的模型帶到國(guó)內(nèi)進(jìn)行微調(diào)是存在風(fēng)險(xiǎn)的。
技術(shù)護(hù)城河到底是指什么,國(guó)內(nèi)大模型與國(guó)外相比存在哪些不足?
復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華接受媒體采訪時(shí)表示,與國(guó)際同行相比,模型、數(shù)據(jù)和算力并不是中國(guó)最大的劣勢(shì),真正的短板在于對(duì)大模型"煉制"工藝的掌握,包括數(shù)據(jù)配方、數(shù)據(jù)清洗和參數(shù)設(shè)置等。因?yàn)榇竽P?煉制"工藝從根本上決定了大模型的效果。
數(shù)據(jù)配方,指的是根據(jù)模型的學(xué)習(xí)目標(biāo),確定不同領(lǐng)域、不同類型、不同模態(tài)數(shù)據(jù)的配比;數(shù)據(jù)清洗,指的是對(duì)原始語(yǔ)料進(jìn)行去噪、去重、過(guò)濾、規(guī)范化等操作,提高語(yǔ)料一致性、多樣性與完整性;參數(shù)設(shè)置,是根據(jù)模型的架構(gòu)和規(guī)模,選擇合適的超參數(shù),如學(xué)習(xí)率、批次大小、優(yōu)化器、激活函數(shù)等,這些選擇將影響模型訓(xùn)練的效率和效果;流程設(shè)計(jì),是根據(jù)模型的訓(xùn)練目標(biāo)和資源限制,設(shè)計(jì)各相關(guān)組件之間的流程排布、目標(biāo)設(shè)定、訓(xùn)練策略等,提高模型的泛化能力和適應(yīng)性;質(zhì)量控制,指的是對(duì)模型的訓(xùn)練過(guò)程和結(jié)果進(jìn)行監(jiān)控和評(píng)估,通過(guò)準(zhǔn)確率、困惑度等關(guān)鍵指標(biāo)監(jiān)測(cè),通過(guò)對(duì)比不同模型或版本的表現(xiàn),以保障大模型訓(xùn)練的質(zhì)量和穩(wěn)定性。
肖仰華表示,上述的每一個(gè)具體模塊,國(guó)內(nèi)其實(shí)都知道怎么做,但是將它們整合在一起,總體效果和國(guó)外是存在差距的,“不是能做還是不能做的問(wèn)題,而是做出來(lái)的效果是70分與100分的差別?!毙ぱ鋈A還強(qiáng)調(diào),我們要趕上最后這幾十分,要不斷試錯(cuò)、評(píng)測(cè)和改進(jìn)。
商業(yè)化落地仍需時(shí)間
趙志耕在上述會(huì)議中介紹道,“目前,中國(guó)大模型的產(chǎn)業(yè)化應(yīng)用沿著兩條技術(shù)路線發(fā)展,第一條路線是通用類大模型,正不斷打造跨行業(yè)的通用化人工智能能力平臺(tái),其行業(yè)應(yīng)用正在從辦公、生活、娛樂(lè)等方向向醫(yī)療、工業(yè)、教育等領(lǐng)域加速拓展。另一條路線是針對(duì)垂直領(lǐng)域的專業(yè)類大模型,有大批針對(duì)生物制藥、遙感、氣象等垂直領(lǐng)域的專業(yè)大模型,正發(fā)揮其在領(lǐng)域內(nèi)的縱深應(yīng)用效果。同時(shí),我們也看到許多企業(yè)提供針對(duì)特定業(yè)務(wù)場(chǎng)景的高質(zhì)量專業(yè)化解決方案,不斷擴(kuò)大大模型產(chǎn)業(yè)化應(yīng)用的市場(chǎng)空間和水平?!?/p>
無(wú)論是通用型還是垂直型大模型,場(chǎng)景落地是目前行業(yè)的共識(shí),但有業(yè)內(nèi)人士指出,大模型距離真正落地還有較大差距。
“在過(guò)去的幾個(gè)月,有十幾個(gè)大語(yǔ)言模型的發(fā)布會(huì),這些模型都大同小異,現(xiàn)狀就是,在全球范圍內(nèi)只有OpenAI能夠達(dá)到通用人工智能的商業(yè)化,并且有絕大部分用戶的市場(chǎng)?!痹陂L(zhǎng)三角科技產(chǎn)業(yè)創(chuàng)新論壇上,竹間智能創(chuàng)始人兼CEO簡(jiǎn)仁賢認(rèn)為,幾乎除OpenAI以外的AGI大語(yǔ)言模型都只是發(fā)布會(huì)的階段,沒(méi)有達(dá)到可商用化的程度。從發(fā)布會(huì)到可商用化,中間有很大一段距離,這個(gè)差距還很大。
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS系統(tǒng)負(fù)責(zé)人邱錫鵬在接受媒體采訪時(shí)表示,作為聊天軟件,國(guó)產(chǎn)大模型或許與ChatGPT差別不太大,但作為生產(chǎn)力工具,兩者能力仍然存在代差,這個(gè)代差不是幾個(gè)月就能追上的。
據(jù)了解,按照參數(shù)量和應(yīng)用領(lǐng)域的不同,大模型市場(chǎng)正迅速分化為通用大模型與專業(yè)性大模型兩種路徑。
一個(gè)成功的且可對(duì)外商業(yè)化輸出的通用大模型,要求廠商擁有全棧大模型訓(xùn)練與研發(fā)能力、業(yè)務(wù)場(chǎng)景落地經(jīng)驗(yàn)、AI安全治理舉措、以及生態(tài)開(kāi)放性等核心優(yōu)勢(shì)。所以企業(yè)在布局發(fā)展大模型時(shí),難免會(huì)遇到面臨算力需求大、訓(xùn)練和推理成本高、數(shù)據(jù)質(zhì)量不佳等挑戰(zhàn)。
但訓(xùn)練領(lǐng)域(垂類)模型所需要的代價(jià)和資源遠(yuǎn)遠(yuǎn)小于前者,因?yàn)榇诡惔竽P鸵陨疃冉鉀Q行業(yè)需求為主,即企業(yè)在自己擅長(zhǎng)的領(lǐng)域訓(xùn)練適合自己的“產(chǎn)業(yè)版GPT”。這意味著,相比通用大模型需要高昂的開(kāi)發(fā)訓(xùn)練成本,基于開(kāi)源模型進(jìn)行垂類模型開(kāi)發(fā)可兼顧開(kāi)發(fā)成本和數(shù)據(jù)安全。
“在垂直領(lǐng)域,我們有可能追上,在通用這塊還會(huì)有一段時(shí)間?!闭劶安罹?,深思考創(chuàng)始人、AI算法科學(xué)家楊志明表示,從通用層面來(lái)說(shuō),國(guó)內(nèi)大模型與OpenAI大概有1-2代的代差,這個(gè)代差代表了整個(gè)模型層的技術(shù),包括學(xué)習(xí)的知識(shí)、能力等方面的差距。
關(guān)鍵詞:



















