水務(wù)企業(yè)大數(shù)據(jù)中心建設(shè)之?dāng)?shù)據(jù)入倉
全康環(huán)保:2019年以來,深水集團(tuán)、杭州水務(wù)集團(tuán)、重慶水務(wù)集團(tuán)、蘇州水務(wù)集團(tuán)、鄭州供水等眾多大、中型水務(wù)企業(yè)相繼啟動(dòng)了數(shù)據(jù)治理和大數(shù)據(jù)中心建設(shè)項(xiàng)目,水務(wù)行業(yè)如此密集地開展數(shù)據(jù)治理和數(shù)據(jù)中心建設(shè),智慧水務(wù)的建設(shè)重心逐步發(fā)展變化:由建設(shè)營收、GIS、SCADA等MIS系統(tǒng)為主的業(yè)務(wù)數(shù)據(jù)化,逐步轉(zhuǎn)變至以數(shù)據(jù)治理和大數(shù)據(jù)為主的數(shù)據(jù)業(yè)務(wù)化;由偏向于數(shù)據(jù)的生產(chǎn)轉(zhuǎn)為更注重?cái)?shù)據(jù)資源的管理和數(shù)據(jù)資產(chǎn)化,水務(wù)行業(yè)數(shù)字化轉(zhuǎn)型迎來新的發(fā)展階段。
圖1 數(shù)據(jù)治理及大數(shù)據(jù)中心建設(shè)是熱點(diǎn)
在杭州水務(wù)集團(tuán)、鄭州供水、蘇州水務(wù)集團(tuán)、江蘇中法水務(wù)等多家水務(wù)企業(yè)的數(shù)據(jù)治理及大數(shù)據(jù)中心建設(shè)工作中,數(shù)據(jù)倉庫建模方法論是一致的,但由于水務(wù)行業(yè)特性、業(yè)務(wù)場(chǎng)景的不同,在不同的水務(wù)企業(yè),基于大數(shù)據(jù)的數(shù)據(jù)倉庫建設(shè)無法按照統(tǒng)一的項(xiàng)目流程、開發(fā)模式進(jìn)行,更多的是需要根據(jù)具體的業(yè)務(wù)場(chǎng)景結(jié)合新的技術(shù)體系進(jìn)行靈活調(diào)整,以滿足水務(wù)企業(yè)的實(shí)際情況和具體需求。
圖2 某水務(wù)集團(tuán)數(shù)據(jù)倉庫工作歷程
在實(shí)際數(shù)據(jù)倉庫建設(shè)中,考慮到底層建設(shè)的工作量大,過程時(shí)間長,內(nèi)容比較抽象、不易理解等特點(diǎn),我們先對(duì)水務(wù)企業(yè)現(xiàn)有的數(shù)據(jù)資源進(jìn)行盤點(diǎn)和評(píng)估,科普大數(shù)據(jù)中心建設(shè)知識(shí),梳理各條業(yè)務(wù)線的大數(shù)據(jù)應(yīng)用場(chǎng)景,確定數(shù)據(jù)入倉的范圍,挑選各部門需求程度最高的大數(shù)據(jù)應(yīng)用場(chǎng)景進(jìn)行優(yōu)先建設(shè),一方面能快速看到數(shù)據(jù)倉庫建設(shè)成果,另一方面也可以及時(shí)發(fā)現(xiàn)和調(diào)整建設(shè)過程中出現(xiàn)的問題,總結(jié)經(jīng)驗(yàn),為其他大數(shù)據(jù)應(yīng)用場(chǎng)景建設(shè)打下基礎(chǔ),提高數(shù)據(jù)倉庫建設(shè)效率,降低成本。
在數(shù)據(jù)倉庫建設(shè)過程中,各水務(wù)企業(yè)數(shù)據(jù)倉庫建設(shè)流程也會(huì)有所區(qū)別,但主要流程和重點(diǎn)環(huán)節(jié)基本一致,主要流程和重點(diǎn)環(huán)節(jié)介紹如下:
圖3 數(shù)據(jù)入倉流程圖
一、元數(shù)據(jù)采集:制定出各信息化系統(tǒng)的元數(shù)據(jù)清單
根據(jù)前期的需求調(diào)研,確定本次入倉的信息化系統(tǒng),并向系統(tǒng)維護(hù)人員收集系統(tǒng)操作手冊(cè)、數(shù)據(jù)字典等文檔以及系統(tǒng)數(shù)據(jù)庫相關(guān)信息。通過數(shù)據(jù)采集工具對(duì)各系統(tǒng)數(shù)據(jù)庫的表和字段進(jìn)行采集,結(jié)合各系統(tǒng)文檔,確定數(shù)據(jù)庫中所有表和字段的中文含義及字段的數(shù)據(jù)類型,形成元數(shù)據(jù)清單。
以營銷管理系統(tǒng)數(shù)據(jù)入倉為例,需要明確哪張表是客戶表,哪張是收費(fèi)表,以及表中每個(gè)字段的中文含義。有些系統(tǒng)文檔由于沒有及時(shí)更新,與現(xiàn)有系統(tǒng)數(shù)據(jù)有不一致情況,則需要信息管理部門與系統(tǒng)開發(fā)廠家支持,獲取比較準(zhǔn)確的元數(shù)據(jù)清單。
圖4 數(shù)據(jù)采集范圍
二、數(shù)據(jù)篩選:在元數(shù)據(jù)清單基礎(chǔ)上篩選出需要入倉的數(shù)據(jù),制定入倉清單
針對(duì)元數(shù)據(jù)清單進(jìn)行進(jìn)一步的數(shù)據(jù)篩選,去除臨時(shí)表和空表等無用表,確定核心數(shù)據(jù)表和維度表,提供給信息管理部門進(jìn)行確認(rèn),形成最終入倉的數(shù)據(jù)表清單。
經(jīng)過第一步元數(shù)據(jù)采集,形成元數(shù)據(jù)清單的過程,可以比較容易的識(shí)別出臨時(shí)表和空表,重點(diǎn)放在空表是否確實(shí)為無用表上即可。
三、數(shù)據(jù)入倉:根據(jù)各數(shù)據(jù)表實(shí)際情況,制定出入倉方案,通過專用ETL工具將數(shù)據(jù)抽取至鏡像數(shù)據(jù)倉庫
根據(jù)待入倉的數(shù)據(jù)表清單,以及每張表的實(shí)際情況,制定出源數(shù)據(jù)和鏡像數(shù)據(jù)倉庫表之間的字段的映射關(guān)系,確定出每張表的入倉策略和抽取規(guī)則,是實(shí)時(shí)抽取還是定時(shí)抽取,是全量出抽取還是增量抽取,將規(guī)則配置入ETL工具,執(zhí)行數(shù)據(jù)入倉。
將數(shù)據(jù)匯入鏡像數(shù)據(jù)倉庫時(shí),因?yàn)閿?shù)據(jù)通常來自多個(gè)系統(tǒng)多個(gè)數(shù)據(jù)庫最終進(jìn)入同一倉庫中,鏡像數(shù)據(jù)倉庫對(duì)于數(shù)據(jù)表的命名有專門的原則和規(guī)范,與源數(shù)據(jù)庫的表名會(huì)有所不同,需要將表名之間的映射關(guān)系做好記錄,同時(shí)制定好每張表的同步規(guī)則,如考慮業(yè)務(wù)系統(tǒng)晚上使用較少,數(shù)據(jù)同步時(shí)間一般放在晚上,錯(cuò)峰同步;
以營銷管理系統(tǒng)為例,系統(tǒng)中的組織機(jī)構(gòu)表、客戶表等數(shù)據(jù)不多、變化較小的表可以全量同步,而像抄表數(shù)據(jù)、收費(fèi)數(shù)據(jù)等數(shù)據(jù)量較大的表可以使用增量同步。
四、數(shù)據(jù)質(zhì)量檢查:制定數(shù)據(jù)質(zhì)量檢查規(guī)則,定時(shí)進(jìn)行數(shù)據(jù)質(zhì)量檢核,提升企業(yè)數(shù)據(jù)質(zhì)量
根據(jù)元數(shù)據(jù)清單以及業(yè)務(wù)含義,定義出數(shù)據(jù)質(zhì)量檢查規(guī)范、評(píng)分標(biāo)準(zhǔn)、及每個(gè)字段檢查規(guī)則,如戶號(hào)是否唯一,手機(jī)號(hào)是否為11位數(shù)字,身份證號(hào)是否為國家規(guī)定的15位和18位規(guī)則,抄表讀數(shù)是否為合理的數(shù)字范圍等。
經(jīng)過數(shù)據(jù)質(zhì)量檢核清洗,形成數(shù)據(jù)質(zhì)量報(bào)告,并將報(bào)告結(jié)果和未通過檢核的明細(xì)記錄反饋至源系統(tǒng),形成閉環(huán),PDCA持續(xù)提升源數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量。通過數(shù)據(jù)質(zhì)量檢核的數(shù)據(jù),進(jìn)入標(biāo)準(zhǔn)化數(shù)據(jù)倉庫,供主數(shù)據(jù)管理和數(shù)據(jù)集市使用。
五、建立數(shù)據(jù)集市:從業(yè)務(wù)角度對(duì)入倉數(shù)據(jù)進(jìn)行梳理,制定數(shù)據(jù)資產(chǎn)目錄以及主數(shù)據(jù)和業(yè)務(wù)模型等數(shù)據(jù)標(biāo)準(zhǔn),最終形成數(shù)據(jù)集市
對(duì)數(shù)據(jù)入倉清單進(jìn)行專題數(shù)據(jù)識(shí)別,劃分?jǐn)?shù)據(jù)分類與主題,形成數(shù)據(jù)資產(chǎn)目錄,制定出主數(shù)據(jù)和業(yè)務(wù)模型等相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)。
制定數(shù)據(jù)資產(chǎn)目錄主要是為了讓非技術(shù)人員了解企業(yè)有哪些數(shù)據(jù),因此在制定過程中一般從業(yè)務(wù)角度進(jìn)行分類制定,方便業(yè)務(wù)人員理解。制定數(shù)據(jù)標(biāo)準(zhǔn)時(shí),一方面需要考慮與現(xiàn)有系統(tǒng)的兼容性,另一方面應(yīng)重點(diǎn)考慮未來的擴(kuò)展性和統(tǒng)一性,方便企業(yè)對(duì)數(shù)據(jù)的應(yīng)用,也為新系統(tǒng)建設(shè)提供指導(dǎo)。
六、數(shù)據(jù)應(yīng)用:建設(shè)數(shù)據(jù)倉庫最終是為了更好的應(yīng)用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)在生產(chǎn)運(yùn)營、營銷客服、管理管控中的最大價(jià)值
通過數(shù)據(jù)倉庫,水務(wù)企業(yè)可以拆掉“煙囪”,打破各系統(tǒng)中的數(shù)據(jù)壁壘,實(shí)現(xiàn)真正全面數(shù)據(jù)共享,同時(shí)也讓水務(wù)企業(yè)的分析統(tǒng)計(jì)維度獲得全面的提高,為企業(yè)管理帶來新的視角和手段。
數(shù)據(jù)共享不僅讓水務(wù)企業(yè)內(nèi)部與外部、部門與部門間的數(shù)據(jù)獲取與共享更方便更快速,也讓每一位員工能夠獲取更全面的信息,提高工作效率,如客服人員不再只能查詢營銷管理系統(tǒng)內(nèi)的用戶信息,還能知道用戶所屬的二次加壓泵房的工作狀態(tài)、最近一次水箱清洗的時(shí)間、最近一次水質(zhì)檢查結(jié)果、附近管網(wǎng)情況、是否有搶修停水情況發(fā)生、當(dāng)天附近是否還有其他用戶來電反應(yīng)相同事件、用水由哪幾個(gè)水廠提供、附近是否有工作人員可以快速上門、用水由哪幾個(gè)水廠提供等,真正實(shí)現(xiàn)從水源到龍頭的管理。
同時(shí)通過基于AI算法的客戶畫像功能,可以識(shí)別出更多客戶特征,方便業(yè)務(wù)人員為客戶提供更為精細(xì)化有針對(duì)性的服務(wù),如獨(dú)居老人關(guān)懷、重點(diǎn)用戶識(shí)別、異常用水分析、工作質(zhì)量分析、客戶服務(wù)分析等,支撐精準(zhǔn)服務(wù)、個(gè)性化和主動(dòng)服務(wù),持續(xù)提升客戶體驗(yàn)和獲得感。
隨著《關(guān)于加快推進(jìn)國有企業(yè)數(shù)字化轉(zhuǎn)型工作的通知》、《關(guān)于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》等眾多利好政策的推出,數(shù)據(jù)作為重要的生產(chǎn)要素將逐步成為水務(wù)企業(yè)的經(jīng)營理念――憑數(shù)據(jù)工作、憑數(shù)據(jù)決策、憑數(shù)據(jù)指揮。
聲明:素材來源于網(wǎng)絡(luò)如有侵權(quán)聯(lián)系刪除。