本文分享自華為云社區(qū)《MRS大企業(yè)ERP流程實(shí)時(shí)數(shù)據(jù)湖加工最佳實(shí)踐》,作者:晉紅輕 。
(資料圖片僅供參考)
本文將以ERP流程實(shí)踐為例介紹MRS實(shí)時(shí)數(shù)據(jù)湖方案的演進(jìn)
案例實(shí)踐需求解析:
業(yè)務(wù)描述
- AE表:會(huì)計(jì)分錄表,主要記錄財(cái)務(wù)相關(guān)信息,可用于成本核算等業(yè)務(wù)計(jì)算。為業(yè)務(wù)最主要的表,稱驅(qū)動(dòng)表。
- 四通道表:實(shí)際為四個(gè)門店業(yè)務(wù)系統(tǒng),主要記錄銷售記錄信息。為成本核算、科目報(bào)表分析等業(yè)務(wù)提供信息佐證??煞Q為維表。
業(yè)務(wù)痛點(diǎn)
- 科目分析報(bào)表業(yè)務(wù)供數(shù)慢的痛點(diǎn),數(shù)據(jù)時(shí)延高。
- 實(shí)際業(yè)務(wù)數(shù)據(jù)有內(nèi)容更新,保證數(shù)據(jù)嚴(yán)格一致。
- 科目分析報(bào)表查詢僅支持公司、科目、時(shí)段等少量查詢條件。
實(shí)時(shí)數(shù)據(jù)湖方案優(yōu)勢(shì)
- 實(shí)時(shí)數(shù)據(jù)湖方案做增量加工,將傳統(tǒng)供數(shù)壓力卸載到每天、每小時(shí)、每分鐘,100萬數(shù)據(jù)查詢只需要2min。
- 使用Hudi作為數(shù)據(jù)湖天然支持?jǐn)?shù)據(jù)更新。
- 提供所有數(shù)據(jù)歸檔,可隨時(shí)回溯。
- 支持科目、批名、憑證名、合同號(hào)等31個(gè)查詢條件,大幅度減少用戶導(dǎo)出數(shù)據(jù)后篩選過濾時(shí)間。支持用戶基于頁面直接分析。
實(shí)時(shí)數(shù)據(jù)湖方案實(shí)施挑戰(zhàn)
- 流計(jì)算基于內(nèi)存,峰值數(shù)據(jù)量過大會(huì)影響作業(yè)穩(wěn)定性。
- 多流時(shí)延大,數(shù)據(jù)等待耗費(fèi)大量?jī)?nèi)存資源,需考慮業(yè)務(wù)需求與使用資源的平衡。
流加工模型一:
模型一特點(diǎn)
?Hudi表流讀能夠減少整體內(nèi)存開銷,提高作業(yè)穩(wěn)定性。
?以其中一條流為基準(zhǔn)(左表),去比較另一條流(右表)
?會(huì)出現(xiàn)關(guān)聯(lián)缺失的情況,以驅(qū)動(dòng)表(AE表)的視角(新增&更新)
?1)四通道流早到,并且ttl到期后數(shù)據(jù)丟失
?2)四通道流晚到,AE流ttl到期后數(shù)據(jù)丟失
模型一局限:
?目標(biāo)寬表數(shù)據(jù)會(huì)出現(xiàn)不準(zhǔn)的情況
?源端新增因?yàn)殛P(guān)聯(lián)不出有效結(jié)果造成目標(biāo)寬表缺數(shù)->missing
?源端更改因?yàn)殛P(guān)聯(lián)不出有效結(jié)果造成目標(biāo)寬表延時(shí)->delay
流加工模型二:
補(bǔ)償目的:
補(bǔ)償目的:基于業(yè)務(wù)邏輯,對(duì)比源端流表和目的端寬表數(shù)據(jù)內(nèi)容,發(fā)現(xiàn)目標(biāo)寬表缺失數(shù)據(jù)主要字段,關(guān)聯(lián)源表完整內(nèi)容找出缺失數(shù)據(jù),并寫回源端表補(bǔ)償層。
missing&delay補(bǔ)償模擬:
模型二特點(diǎn):比較方案一增加補(bǔ)償機(jī)制,能夠?qū)Ρ仍幢恚ˋE表,四通道表)以及目標(biāo)寬表,找出缺失數(shù)據(jù)missing, delay。
模型二局限:實(shí)際情況雙流之間時(shí)延可能較大、對(duì)齊較難,雖然能夠使用補(bǔ)償機(jī)制找回缺失數(shù)據(jù),但是這樣流加工任務(wù)主要角色會(huì)被弱化,同時(shí)會(huì)對(duì)補(bǔ)償任務(wù)造成更大壓力,數(shù)據(jù)時(shí)延會(huì)變大 。
流加工模型三(最終):
雙寫目的:業(yè)務(wù)系統(tǒng)持續(xù)向Hudi表,HBase表雙寫數(shù)據(jù)。Hudi表流讀,提供主要熱關(guān)聯(lián)數(shù)據(jù),HBase存儲(chǔ)所有歷史數(shù)據(jù),技術(shù)上就是維度表,為熱關(guān)聯(lián)失敗之后進(jìn)行快速點(diǎn)查補(bǔ)數(shù)(lookup join)得到有效關(guān)聯(lián)。提高雙流關(guān)聯(lián)的命中率。減少流加工整體數(shù)據(jù)時(shí)延。
維表選型:
模型總結(jié):
點(diǎn)擊關(guān)注,第一時(shí)間了解華為云新鮮技術(shù)~
關(guān)鍵詞:




















