在全球工業(yè)革命的推動下,傳統(tǒng)制造業(yè)紛紛致力于智能化和數(shù)字化轉(zhuǎn)型,其關(guān)鍵在于將復(fù)雜且需專業(yè)知識的數(shù)據(jù)與機器學(xué)習(xí)結(jié)合,構(gòu)建面向用戶的高效智能系統(tǒng)。在鯤鵬昇騰科教創(chuàng)新卓越中心的算力支持下,中國科學(xué)技術(shù)大學(xué)特任教授宋騏團隊基于昇騰平臺開發(fā)出了領(lǐng)域知識構(gòu)建框架和領(lǐng)域大模型增強推理框架。
該項目在三方面開展了研究,并取得一系列成果。首先在構(gòu)建工業(yè)知識圖譜領(lǐng)域,面對工業(yè)數(shù)據(jù)存在數(shù)據(jù)特征復(fù)雜、多模態(tài)異構(gòu)的問題,團隊通過融合領(lǐng)域小模型與大語言模型的知識增強命名實體識別框架,以提升對知識圖譜實體抽取的準確性與泛化能力。其中昇騰分布式訓(xùn)練加速庫MindSpeed發(fā)揮了重要作用,它支持多維并行策略,兼容多種開源框架,同時可靈活適配多模態(tài)數(shù)據(jù)的異構(gòu)特征。團隊首先利用小模型進行前端精準篩選,將高質(zhì)量的初始結(jié)果輸入至大語言模型,大語言模型通過其強大的語言理解和泛化能力對實體進行進一步的識別與確認。基于此融合框架完成“初始識別-知識抽取-知識引導(dǎo)反思”的三個階段,顯著提升了知識抽取的準確性和泛化能力。
應(yīng)用到智能運維系統(tǒng)開發(fā)中,針對工業(yè)設(shè)備運維領(lǐng)域所面臨的高人工成本、數(shù)據(jù)分析不足及預(yù)測精度不高等問題,團隊提出了基于多模態(tài)知識圖譜的智能運維系統(tǒng)構(gòu)建技術(shù)路線。首先該系統(tǒng)采用ETL(Extract-Transform-Load)架構(gòu)對工業(yè)設(shè)備運維過程中產(chǎn)生的多模態(tài)數(shù)據(jù)進行統(tǒng)一處理,并對數(shù)據(jù)進行清洗后統(tǒng)一貯存。接著,利用深入理解資源描述框架 RDF語義網(wǎng)技術(shù)構(gòu)建工業(yè)設(shè)備運維場景下的知識圖譜,清楚地展示出設(shè)備、狀態(tài)、故障之間的聯(lián)系。依托注意力機制的特征融合模型并結(jié)合Node2Vec和DeepWalk圖嵌入技術(shù),將復(fù)雜的知識融合為能全面反應(yīng)設(shè)備狀態(tài)的綜合特征。同時在設(shè)備運行中會出現(xiàn)異?;蛘吖收希瑘F隊也研發(fā)出故障智能預(yù)測診斷模塊,將異常數(shù)據(jù)特征與知識圖譜中的歷史故障進行同類對比,推理出故障類型、嚴重程度和維修建議,最終實現(xiàn)智能運維的全過程。
與此同時,為解決當前領(lǐng)域知識與大規(guī)模預(yù)訓(xùn)練語言模型(PLM)融合中出現(xiàn)的計算資源消耗大、靈活性差和干擾噪聲知識過多等問題,團隊利用昇騰強大的計算資源管理能力,創(chuàng)新性地提出了知識增強與過濾框架。在實現(xiàn)知識增強環(huán)節(jié),利用PLM嵌入空間的冗余位減低計算負擔(dān);在噪聲過濾環(huán)節(jié),設(shè)計知識增強過濾器,將知識增強網(wǎng)絡(luò)與掩碼訓(xùn)練相結(jié)合,有效避免了噪聲知識的負面影響。在實現(xiàn)極大降低計算成本的同時,有效提高了知識增強的靈活性。
此科研成果構(gòu)建了一套基于昇騰平臺的工業(yè)知識增強大模型技術(shù)體系,不僅顯著提升工業(yè)設(shè)備智能運維的水平和效率,還實現(xiàn)了核心技術(shù)的自主創(chuàng)新適配,融合前沿技術(shù)搭建智能系統(tǒng),為打造安全、高效、智慧的現(xiàn)代工業(yè)體系提供關(guān)鍵技術(shù)支撐。未來,中國科學(xué)技術(shù)大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心將基于昇騰平臺持續(xù)探索和創(chuàng)新,相關(guān)成果有望在更廣泛的工業(yè)場景中實現(xiàn)落地,助力科技創(chuàng)新與實體經(jīng)濟的深度融合。

關(guān)鍵詞:


