本文分享自華為云社區(qū)《》，作者：ModelArts 開發(fā) 。

AIGC是繼PGC（Professional Generated Content，專業(yè)生產(chǎn)內(nèi)容）和UGC（User Generated Content，用戶生產(chǎn)內(nèi)容）之后的一個(gè)新時(shí)代，它帶來了一種新的內(nèi)容生產(chǎn)方式，并且還為內(nèi)容注入了只有人類才具備的“創(chuàng)作”元素，開創(chuàng)了“模型”主導(dǎo)內(nèi)容的時(shí)代。盡管AIGC技術(shù)已經(jīng)有了相當(dāng)大的提升，但仍然存在很多不足之處。

01 ChatGPT（包括GPT4）的諸多問題難以忽視

盡管ChatGPT（包括GPT4）是一個(gè)非常有用的工具，但它仍然存在許多問題。以下是一些經(jīng)常出現(xiàn)的問題：

(相關(guān)資料圖)

1) 強(qiáng)語言，弱知識(shí)，“一本正經(jīng)地胡說八道”：在回答問題時(shí)，ChatGPT很容易“胡說八道”，因?yàn)樗幕卮鹜ǔＪ腔诖罅康奈谋緮?shù)據(jù)而生成的，而不是真正的知識(shí)。比如下面的問題：

Q：紅樓夢中賈寶玉為什么要葬花？

A：據(jù)小說描寫，賈寶玉葬花的原因是因?yàn)樗械绞篱g美好事物的短暫和凋零…

Q：魯迅和周樹人是同一個(gè)人嗎？

A：不是同一個(gè)人，魯迅和周樹人是兩個(gè)不同的人。魯迅…而周樹人(1895年1月25日-1968年11月6日)也是中國著名的現(xiàn)代作家和翻譯家，代表作品有《春蠶》、《子夜》等

2) 邏輯推理不靠譜：不論是數(shù)學(xué)邏輯還是專業(yè)邏輯，比如下面的問題：

Q：3個(gè)人3天用3桶水，9個(gè)人9天用幾桶水？

A：根據(jù)題目可知，3個(gè)人在三天內(nèi)用了3桶水，

可以推算出每天每人用水量為：

3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天

因此，在9個(gè)人使用9天內(nèi)需要的總用水量為：

1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶

所以，9個(gè)人在九天內(nèi)需要用 81 桶的水。(正確答案27桶)

3) 實(shí)時(shí)信息自更新慢，新舊知識(shí)難以區(qū)分，比如下面的問題：

Q：現(xiàn)任韓國總統(tǒng)是誰？

A：現(xiàn)任韓國總統(tǒng)是文在寅。

Q：gpt4是什么時(shí)候發(fā)布的？

A：抱歉，目前還沒有關(guān)于GPT-4的官方發(fā)布計(jì)劃和消息

4) 無法真正為領(lǐng)域類問題提供專業(yè)、靠譜的答案，比如下面的問題：

Q:華為手機(jī)沒電了，請(qǐng)問能否使用蘋果手機(jī)的充電器充電？

A：可以的，蘋果手機(jī)和華為手機(jī)使用的充電器接口都是標(biāo)準(zhǔn)的USB接口，因此蘋果手機(jī)的充電器也可以用來給華為手機(jī)充電。不過，請(qǐng)注意使用符合標(biāo)準(zhǔn)的充電器。

02 多模態(tài)大模型的跨模態(tài)生成能力尚不完善

雖然AIGC跨模態(tài)生成技術(shù)的視覺效果令人驚嘆，但在實(shí)際應(yīng)用過程中存在一些信息不對(duì)稱的問題。目前，多模態(tài)大模型在跨模態(tài)生成方面仍然存在一些不完善之處，需要進(jìn)一步研究和優(yōu)化。從文本到圖像的生成方向，Stable Diffusion的研究發(fā)現(xiàn)提示詞與輸出之間存在著顯著的組合泛化問題。例如，在輸入“紅草綠花”的情況下，輸出結(jié)果可能會(huì)是相反，這表明AI模型對(duì)于語義的理解存在錯(cuò)誤。

同樣，當(dāng)輸入“一匹馬騎著宇航員的照片”時(shí)，輸出結(jié)果可能會(huì)是宇航員騎著馬的照片，這也暴露出模型在語義理解方面的不足之處。為了解決這些問題，需要進(jìn)一步研究和優(yōu)化多模態(tài)大模型，研究方向包括改進(jìn)模型的組合泛化能力、提高模型對(duì)于語義的理解、以及優(yōu)化跨模態(tài)生成結(jié)果的準(zhǔn)確性等，以使得多模態(tài)大模型在實(shí)際應(yīng)用中更加可靠和有效。

（以上文圖生成來自Stable Diffusion）

03 多模態(tài)大模型尚未完全理解多模態(tài)數(shù)據(jù)

GPT4大模型發(fā)布，加速了AIGC多模態(tài)的發(fā)展，當(dāng)然多模態(tài)大模型的發(fā)展在近年來取得了令人矚目的進(jìn)展，但是作為一項(xiàng)前沿技術(shù)，仍存在著一系列問題需要解決。其中一個(gè)重要問題就是對(duì)于多模態(tài)數(shù)據(jù)的理解還不夠充分。多模態(tài)數(shù)據(jù)是指來自不同感官或媒介的數(shù)據(jù)，如圖像、音頻、文本等。雖然多模態(tài)大模型可以同時(shí)處理多種類型的數(shù)據(jù)，但是對(duì)于跨模態(tài)數(shù)據(jù)的融合、對(duì)齊等方面，仍需要進(jìn)一步探索和優(yōu)化。

首先，對(duì)于多模態(tài)數(shù)據(jù)中的事實(shí)知識(shí)的理解不足。在實(shí)際應(yīng)用中，很多跨模態(tài)生成任務(wù)都需要豐富的知識(shí)庫和背景知識(shí)支撐。例如，文本描述和圖像生成任務(wù)需要對(duì)具體事物的特征進(jìn)行深入了解，而涉及到自然語言的任務(wù)，則需要對(duì)語言語義的理解更加準(zhǔn)確。因此，建立更為完整準(zhǔn)確的知識(shí)庫是非常重要的。

其次，常識(shí)儲(chǔ)備不足也是多模態(tài)大模型的瓶頸之一。常識(shí)是解決現(xiàn)實(shí)問題的基礎(chǔ)，而在跨模態(tài)生成任務(wù)中，常識(shí)更是不可或缺。例如，在利用AIGC中AI作畫的Stable Diffusion 作圖的一個(gè)圖像描述中，描繪出“小狗在路邊玩?！钡那榫掣臃先粘Ｉ畹某ＷR(shí)，而非描述為“四條腿的動(dòng)物在道路上移動(dòng)”，這說明常識(shí)缺失直接影響模型的表現(xiàn)效果。

最后，邏輯推理能力也是多模態(tài)大模型需要改進(jìn)的地方。在實(shí)際場景中，有很多跨模態(tài)生成任務(wù)，需要通過邏輯推理進(jìn)行相關(guān)內(nèi)容的理解和生成。例如，基于文本的圖像生成任務(wù)需要根據(jù)文本中的描述進(jìn)行相應(yīng)的推理，以便生成一張完整的圖像。而當(dāng)前多模態(tài)大模型的邏輯推理能力仍有待提高，未來的研究應(yīng)該注重邏輯推理技術(shù)的研究和優(yōu)化，以提高模型的綜合表現(xiàn)能力。

總之，多模態(tài)大模型的未來研究應(yīng)該致力于處理多模態(tài)數(shù)據(jù)的全面理解，選取合適的知識(shí)庫和常識(shí)庫，探索邏輯推理技術(shù)等方向，以提高多模態(tài)大模型在跨模態(tài)生成領(lǐng)域的表現(xiàn)效果。

（以上圖來自視覺問答VQA）

04 多模態(tài)大模型PaLM-E離實(shí)用級(jí)還有多遠(yuǎn)？

多模態(tài)大模型PaLM-E的出現(xiàn)，標(biāo)志著計(jì)算語言學(xué)作為人工智能領(lǐng)域的重要分支進(jìn)入了一個(gè)新的繁榮期。PaLM-E依賴于如此龐大的參數(shù)，初步實(shí)現(xiàn)了對(duì)機(jī)器人的操控，但其在實(shí)用性方面還有待提高。其中，空間范圍、物品種類和任務(wù)規(guī)劃復(fù)雜度等方面的限制是最為突出的。目前展示出來的演示，其空間范圍封閉有限，物品種類數(shù)量有限，規(guī)劃任務(wù)比較簡單，操作任務(wù)也相對(duì)簡單。這些限制的存在，讓人們對(duì)PaLM-E在真實(shí)復(fù)雜場景中的實(shí)用價(jià)值產(chǎn)生了質(zhì)疑。

此外，PaLM-E在使用過程中還存在一些技術(shù)問題，例如需要耗費(fèi)大量的時(shí)間來調(diào)試和訓(xùn)練，同時(shí)還需強(qiáng)大的計(jì)算資源才能支持其正常運(yùn)行。這些問題在實(shí)際應(yīng)用中都會(huì)給使用者帶來極大的不便和成本壓力。因此，需要從技術(shù)上不斷優(yōu)化和改進(jìn)PaLM-E，使它能夠更好地適應(yīng)復(fù)雜的應(yīng)用場景，并且讓成本更低、易用性更高。當(dāng)然，盡管PaLM-E離實(shí)用級(jí)還有一定距離，但是可以相信，隨著技術(shù)的不斷發(fā)展和突破，PaLM-E將結(jié)合各種場景打破技術(shù)限制，真正走進(jìn)人們的生活和工作中，發(fā)揮其巨大的實(shí)用價(jià)值。

（以上圖來自網(wǎng)絡(luò)）

05 小結(jié)：多模態(tài)大模型的本質(zhì)、前提與不足剖析

相比于傳統(tǒng)的統(tǒng)計(jì)模型，多模態(tài)大模型有很多優(yōu)勢。它能夠利用多種不同的信息源來進(jìn)行學(xué)習(xí)和推理，從而更加全面地捕捉人類的知識(shí)、常識(shí)和邏輯推理能力；它也能夠以較低成本實(shí)現(xiàn)自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別等多項(xiàng)任務(wù)，提高了模型的效率和普適性；最后，多模態(tài)大模型還能夠?yàn)槿祟愄峁└又庇^、易懂的交互體驗(yàn)，讓人們更加方便地獲取信息和進(jìn)行決策。

然而，多模態(tài)大模型也存在一些不足之處。首先，由于不同模態(tài)數(shù)據(jù)之間的差異性，多模態(tài)大模型的建立和優(yōu)化過程需要消耗大量的計(jì)算資源和時(shí)間。其次，該模型尚存在著一些挑戰(zhàn)和難點(diǎn)，例如如何對(duì)不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)進(jìn)行建模以及如何解決數(shù)據(jù)對(duì)齊和逆向推導(dǎo)等問題。此外，多模態(tài)大模型還需要克服數(shù)據(jù)質(zhì)量、隱私保護(hù)和數(shù)據(jù)倫理等方面的挑戰(zhàn)，才能更好地應(yīng)用于實(shí)際場景中。

因此，想要在AIGC領(lǐng)域發(fā)揮多模態(tài)大模型的優(yōu)勢，需要在技術(shù)研究、數(shù)據(jù)質(zhì)量管理、隱私保護(hù)和數(shù)據(jù)倫理等方面繼續(xù)深入研究和探索。只有在不斷完善和優(yōu)化多模態(tài)大模型的同時(shí)，才能更好地應(yīng)對(duì)現(xiàn)實(shí)世界中的復(fù)雜情境和問題，提高人類社會(huì)的智能化水平。

關(guān)注點(diǎn)擊下方，第一時(shí)間了解華為云新鮮技術(shù)~

關(guān)鍵詞：

青青草原亚洲精品在线观看,亚洲狠狠婷婷综合日韩高清,ass国产老熟妇pics,久久WWW免费人成看片贰无码,国产精品对白真实在线,青青超最新在线看视频,天天爱天天干天天插,五月婷婷六月婷婷激情网,激情五月激情五月婷婷

環(huán)球聚焦：AIGC的阿克琉斯之踵

01 ChatGPT（包括GPT4）的諸多問題難以忽視

1) 強(qiáng)語言，弱知識(shí)，“一本正經(jīng)地胡說八道”：在回答問題時(shí)，ChatGPT很容易“胡說八道”，因?yàn)樗幕卮鹜ǔＪ腔诖罅康奈谋緮?shù)據(jù)而生成的，而不是真正的知識(shí)。比如下面的問題：

2) 邏輯推理不靠譜：不論是數(shù)學(xué)邏輯還是專業(yè)邏輯，比如下面的問題：

3) 實(shí)時(shí)信息自更新慢，新舊知識(shí)難以區(qū)分，比如下面的問題：

4) 無法真正為領(lǐng)域類問題提供專業(yè)、靠譜的答案，比如下面的問題：

02 多模態(tài)大模型的跨模態(tài)生成能力尚不完善

03 多模態(tài)大模型尚未完全理解多模態(tài)數(shù)據(jù)

04 多模態(tài)大模型PaLM-E離實(shí)用級(jí)還有多遠(yuǎn)？

05 小結(jié)：多模態(tài)大模型的本質(zhì)、前提與不足剖析

推薦閱讀

青青草原亚洲精品在线观看,亚洲狠狠婷婷综合日韩高清,ass国产老熟妇pics,久久WWW免费人成看片贰无码,国产精品对白真实在线,青青超最新在线看视频,天天爱天天干天天插,五月婷婷六月婷婷激情网,激情五月激情五月婷婷

環(huán)球聚焦：AIGC的阿克琉斯之踵

01 ChatGPT（包括GPT4）的諸多問題難以忽視

2) 邏輯推理不靠譜：不論是數(shù)學(xué)邏輯還是專業(yè)邏輯，比如下面的問題：

3) 實(shí)時(shí)信息自更新慢，新舊知識(shí)難以區(qū)分，比如下面的問題：

4) 無法真正為領(lǐng)域類問題提供專業(yè)、靠譜的答案，比如下面的問題：

02 多模態(tài)大模型的跨模態(tài)生成能力尚不完善

03 多模態(tài)大模型尚未完全理解多模態(tài)數(shù)據(jù)

04 多模態(tài)大模型PaLM-E離實(shí)用級(jí)還有多遠(yuǎn)？

05 小結(jié)：多模態(tài)大模型的本質(zhì)、前提與不足剖析

推薦閱讀

2) 邏輯推理不靠譜：不論是數(shù)學(xué)邏輯還是專業(yè)邏輯，比如下面的問題：

3) 實(shí)時(shí)信息自更新慢，新舊知識(shí)難以區(qū)分，比如下面的問題：

4) 無法真正為領(lǐng)域類問題提供專業(yè)、靠譜的答案，比如下面的問題：

04 多模態(tài)大模型PaLM-E離實(shí)用級(jí)還有多遠(yuǎn)？