本文分享自華為云社區(qū)《 》,作者:ModelArts 開發(fā) 。
AIGC是繼PGC(Professional Generated Content,專業(yè)生產(chǎn)內(nèi)容)和UGC(User Generated Content,用戶生產(chǎn)內(nèi)容)之后的一個(gè)新時(shí)代,它帶來了一種新的內(nèi)容生產(chǎn)方式,并且還為內(nèi)容注入了只有人類才具備的“創(chuàng)作”元素,開創(chuàng)了“模型”主導(dǎo)內(nèi)容的時(shí)代。盡管AIGC技術(shù)已經(jīng)有了相當(dāng)大的提升,但仍然存在很多不足之處。
01 ChatGPT(包括GPT4)的諸多問題難以忽視
盡管ChatGPT(包括GPT4)是一個(gè)非常有用的工具,但它仍然存在許多問題。以下是一些經(jīng)常出現(xiàn)的問題:
(相關(guān)資料圖)
1) 強(qiáng)語言,弱知識(shí),“一本正經(jīng)地胡說八道”:在回答問題時(shí),ChatGPT很容易“胡說八道”,因?yàn)樗幕卮鹜ǔJ腔诖罅康奈谋緮?shù)據(jù)而生成的,而不是真正的知識(shí)。比如下面的問題:
Q:紅樓夢中賈寶玉為什么要葬花?
A:據(jù)小說描寫,賈寶玉葬花的原因是因?yàn)樗械绞篱g美好事物的短暫和凋零…
Q:魯迅和周樹人是同一個(gè)人嗎?
A:不是同一個(gè)人,魯迅和周樹人是兩個(gè)不同的人。魯 迅…而周樹人(1895年1月25日-1968年11月6日)也是中 國著名的現(xiàn)代作家和翻譯家,代表作品有《春蠶》、《子夜》等
2) 邏輯推理不靠譜:不論是數(shù)學(xué)邏輯還是專業(yè)邏輯,比如下面的問題:
Q:3個(gè)人3天用3桶水,9個(gè)人9天用幾桶水?
A:根據(jù)題目可知,3個(gè)人在三天內(nèi)用了3桶水,
可以推算出每天每人用水量為:
3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天
因此,在9個(gè)人使用9天內(nèi)需要的總用水量為:
1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶
所以,9個(gè)人在九天內(nèi)需要用 81 桶的水。(正確答案27桶)
3) 實(shí)時(shí)信息自更新慢,新舊知識(shí)難以區(qū)分,比如下面的問題:
Q:現(xiàn)任韓國總統(tǒng)是誰?
A:現(xiàn)任韓國總統(tǒng)是文在寅 。
Q:gpt4是什么時(shí)候發(fā)布的?
A:抱歉,目前還沒有關(guān)于GPT-4的官方發(fā)布計(jì)劃和消息
4) 無法真正為領(lǐng)域類問題提供專業(yè)、靠譜的答案,比如下面的問題:
Q:華為手機(jī)沒電了,請(qǐng)問能否使用蘋果手機(jī)的充電器 充電?
A:可以的,蘋果手機(jī)和華為手機(jī)使用的充電器接口都是標(biāo)準(zhǔn)的USB接口,因此蘋果手機(jī)的充電器也可以用來給華為手機(jī)充電。不過,請(qǐng)注意使用符合標(biāo)準(zhǔn)的充電器。
02 多模態(tài)大模型的跨模態(tài)生成能力尚不完善
雖然AIGC跨模態(tài)生成技術(shù)的視覺效果令人驚嘆,但在實(shí)際應(yīng)用過程中存在一些信息不對(duì)稱的問題。目前,多模態(tài)大模型在跨模態(tài)生成方面仍然存在一些不完善之處,需要進(jìn)一步研究和優(yōu)化。從文本到圖像的生成方向,Stable Diffusion的研究發(fā)現(xiàn)提示詞與輸出之間存在著顯著的組合泛化問題。例如,在輸入“紅草綠花”的情況下,輸出結(jié)果可能會(huì)是相反,這表明AI模型對(duì)于語義的理解存在錯(cuò)誤。
同樣,當(dāng)輸入“一匹馬騎著宇航員的照片”時(shí),輸出結(jié)果可能會(huì)是宇航員騎著馬的照片,這也暴露出模型在語義理解方面的不足之處。為了解決這些問題,需要進(jìn)一步研究和優(yōu)化多模態(tài)大模型,研究方向包括改進(jìn)模型的組合泛化能力、提高模型對(duì)于語義的理解、以及優(yōu)化跨模態(tài)生成結(jié)果的準(zhǔn)確性等,以使得多模態(tài)大模型在實(shí)際應(yīng)用中更加可靠和有效。
(以上文圖生成來自Stable Diffusion)
03 多模態(tài)大模型尚未完全理解多模態(tài)數(shù)據(jù)
GPT4大模型發(fā)布,加速了AIGC多模態(tài)的發(fā)展,當(dāng)然多模態(tài)大模型的發(fā)展在近年來取得了令人矚目的進(jìn)展,但是作為一項(xiàng)前沿技術(shù),仍存在著一系列問題需要解決。其中一個(gè)重要問題就是對(duì)于多模態(tài)數(shù)據(jù)的理解還不夠充分。多模態(tài)數(shù)據(jù)是指來自不同感官或媒介的數(shù)據(jù),如圖像、音頻、文本等。雖然多模態(tài)大模型可以同時(shí)處理多種類型的數(shù)據(jù),但是對(duì)于跨模態(tài)數(shù)據(jù)的融合、對(duì)齊等方面,仍需要進(jìn)一步探索和優(yōu)化。
首先,對(duì)于多模態(tài)數(shù)據(jù)中的事實(shí)知識(shí)的理解不足。在實(shí)際應(yīng)用中,很多跨模態(tài)生成任務(wù)都需要豐富的知識(shí)庫和背景知識(shí)支撐。例如,文本描述和圖像生成任務(wù)需要對(duì)具體事物的特征進(jìn)行深入了解,而涉及到自然語言的任務(wù),則需要對(duì)語言語義的理解更加準(zhǔn)確。因此,建立更為完整準(zhǔn)確的知識(shí)庫是非常重要的。
其次,常識(shí)儲(chǔ)備不足也是多模態(tài)大模型的瓶頸之一。常識(shí)是解決現(xiàn)實(shí)問題的基礎(chǔ),而在跨模態(tài)生成任務(wù)中,常識(shí)更是不可或缺。例如,在利用AIGC中AI作畫的Stable Diffusion 作圖的一個(gè)圖像描述中,描繪出“小狗在路邊玩?!钡那榫掣臃先粘I畹某WR(shí),而非描述為“四條腿的動(dòng)物在道路上移動(dòng)”,這說明常識(shí)缺失直接影響模型的表現(xiàn)效果。
最后,邏輯推理能力也是多模態(tài)大模型需要改進(jìn)的地方。在實(shí)際場景中,有很多跨模態(tài)生成任務(wù),需要通過邏輯推理進(jìn)行相關(guān)內(nèi)容的理解和生成。例如,基于文本的圖像生成任務(wù)需要根據(jù)文本中的描述進(jìn)行相應(yīng)的推理,以便生成一張完整的圖像。而當(dāng)前多模態(tài)大模型的邏輯推理能力仍有待提高,未來的研究應(yīng)該注重邏輯推理技術(shù)的研究和優(yōu)化,以提高模型的綜合表現(xiàn)能力。
總之,多模態(tài)大模型的未來研究應(yīng)該致力于處理多模態(tài)數(shù)據(jù)的全面理解,選取合適的知識(shí)庫和常識(shí)庫,探索邏輯推理技術(shù)等方向,以提高多模態(tài)大模型在跨模態(tài)生成領(lǐng)域的表現(xiàn)效果。
(以上圖來自視覺問答VQA)
04 多模態(tài)大模型PaLM-E離實(shí)用級(jí)還有多遠(yuǎn)?
多模態(tài)大模型PaLM-E的出現(xiàn),標(biāo)志著計(jì)算語言學(xué)作為人工智能領(lǐng)域的重要分支進(jìn)入了一個(gè)新的繁榮期。PaLM-E依賴于如此龐大的參數(shù),初步實(shí)現(xiàn)了對(duì)機(jī)器人的操控,但其在實(shí)用性方面還有待提高。其中,空間范圍、物品種類和任務(wù)規(guī)劃復(fù)雜度等方面的限制是最為突出的。目前展示出來的演示,其空間范圍封閉有限,物品種類數(shù)量有限,規(guī)劃任務(wù)比較簡單,操作任務(wù)也相對(duì)簡單。這些限制的存在,讓人們對(duì)PaLM-E在真實(shí)復(fù)雜場景中的實(shí)用價(jià)值產(chǎn)生了質(zhì)疑。
此外,PaLM-E在使用過程中還存在一些技術(shù)問題,例如需要耗費(fèi)大量的時(shí)間來調(diào)試和訓(xùn)練,同時(shí)還需強(qiáng)大的計(jì)算資源才能支持其正常運(yùn)行。這些問題在實(shí)際應(yīng)用中都會(huì)給使用者帶來極大的不便和成本壓力。因此,需要從技術(shù)上不斷優(yōu)化和改進(jìn)PaLM-E,使它能夠更好地適應(yīng)復(fù)雜的應(yīng)用場景,并且讓成本更低、易用性更高。當(dāng)然,盡管PaLM-E離實(shí)用級(jí)還有一定距離,但是可以相信,隨著技術(shù)的不斷發(fā)展和突破,PaLM-E將結(jié)合各種場景打破技術(shù)限制,真正走進(jìn)人們的生活和工作中,發(fā)揮其巨大的實(shí)用價(jià)值。
(以上圖來自網(wǎng)絡(luò))
05 小結(jié):多模態(tài)大模型的本質(zhì)、前提與不足剖析
相比于傳統(tǒng)的統(tǒng)計(jì)模型,多模態(tài)大模型有很多優(yōu)勢。它能夠利用多種不同的信息源來進(jìn)行學(xué)習(xí)和推理,從而更加全面地捕捉人類的知識(shí)、常識(shí)和邏輯推理能力;它也能夠以較低成本實(shí)現(xiàn)自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別等多項(xiàng)任務(wù),提高了模型的效率和普適性;最后,多模態(tài)大模型還能夠?yàn)槿祟愄峁└又庇^、易懂的交互體驗(yàn),讓人們更加方便地獲取信息和進(jìn)行決策。
然而,多模態(tài)大模型也存在一些不足之處。首先,由于不同模態(tài)數(shù)據(jù)之間的差異性,多模態(tài)大模型的建立和優(yōu)化過程需要消耗大量的計(jì)算資源和時(shí)間。其次,該模型尚存在著一些挑戰(zhàn)和難點(diǎn),例如如何對(duì)不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)進(jìn)行建模以及如何解決數(shù)據(jù)對(duì)齊和逆向推導(dǎo)等問題。此外,多模態(tài)大模型還需要克服數(shù)據(jù)質(zhì)量、隱私保護(hù)和數(shù)據(jù)倫理等方面的挑戰(zhàn),才能更好地應(yīng)用于實(shí)際場景中。
因此,想要在AIGC領(lǐng)域發(fā)揮多模態(tài)大模型的優(yōu)勢,需要在技術(shù)研究、數(shù)據(jù)質(zhì)量管理、隱私保護(hù)和數(shù)據(jù)倫理等方面繼續(xù)深入研究和探索。只有在不斷完善和優(yōu)化多模態(tài)大模型的同時(shí),才能更好地應(yīng)對(duì)現(xiàn)實(shí)世界中的復(fù)雜情境和問題,提高人類社會(huì)的智能化水平。
關(guān)注 點(diǎn)擊下方,第一時(shí)間了解華為云新鮮技術(shù)~
關(guān)鍵詞:

















