隨著大數據平臺和工業互聯網的興起,平臺需要在大數據架構下為數據資源中心與外部數據系統提供服務,數據中心需要接入更多類型的數據。但在實際應用領域,系統中產生的數據各自存儲、各自定義,無法做到共享交換協同,“數據孤島”現象逐漸顯現,主要原因有以下三點:
1.各部門分工明確,且各部門都會有業務數據產生,需要對這些數據進行存儲和使用,不同部門對數據的定義和使用差異較大,所以數據不能互通。
2.各系統之間無法做到多維數據的碰撞,無法提高數據價值。
3.沒有統一標準,無法做到信息系統建設的統一性。
所以數據治理、讓數據流動起來、提高數據價值密度是未來大數據技術的重要發展趨勢。
一、數據治理的定義
數據治理(Data Govemance)是組織中設計數據使用的一整套管理行為。由企業數據治理部門發起并推行,關于如何制定和實時針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。安防領域的數據治理就是具備數據采集、整合、處理、治理能力,同時統一標準和口徑,給實時性要求較高的業務應用提供數據支撐,并能實現安全防護、運維保障等一系列能力的數據平臺,也就是所謂的數據中臺。中臺早是由阿里在2015年提出的“大中臺、小前臺”戰略中延伸出來的概念,從字面意思上理解,中臺是基于前臺和后臺之間。
二、數據中臺可以解決的問題
由于各用戶之間的需求全然不同,為了積極響應用戶需求的變化,發展新業務、提供新服務,這就給前端業務軟件提出了新的挑戰,必須做到快速響應。業務要想做到類型多樣又靈活,必定需要后臺數據平臺統一標準架構的支撐。前端業務變化無常,后臺為了支撐前臺越來越多的業務,后臺不斷建設,系統不斷龐大,所以后臺系統需要穩定,不能隨意改動,兩者之間必然存在矛盾沖突。
隨著企業規模的擴大,組織架構和層級擴張,各產品線、事業部之間形成部門墻、業務墻、數據墻,使得可以快速提供的業務無法快速拿出方案,耗費大量成本,原本可以共用的接口和服務被不同部門重復實現。安防行業大數據平臺底層架構大同小異,差異也就是開源組件的多寡。而真正使企業具有核心競爭力的是產品和服務形態,也就是為用戶解決了哪些問題,提升了多少工作效率,以及實現數據平臺內部組件之間和周邊系統及業務流程上的聯通。
數據中臺出現之前,大數據平臺提供服務的方式可能是這樣的:比如為了實現數據接入和查詢的基本功能,由于數據接入和查詢方不熟悉HBase提供的API,大數據開發就會在HBase提供的API之上封裝一層SDK接口提供給數據接入和查詢方。為了提升接口調用的安全性可能還會做一些權限管理之類的工作,由此來屏蔽一些高風險的操作。但數據接入和查詢方需要先了解大數據內部HBase的表結構、字段定義等底層信息才能很好地運用這個SDK。再比如要實現一個研判任務,大數據平臺需要提供任務的增刪查接口和研判結果的查詢接口,需要跟前端開發確定好接口的入參和出參。此功能的實現需要耗費很多人力成本。而數據中臺極大程度減少了用戶對底層系統了解的必要性,降低了業務開發的門檻。數據中臺提供了一整套完整的解決方案,把業務流程實現拋給業務軟件去考慮和實現。
三、數據中臺的架構
數據中臺主要包括設施層、服務層、數據層以及應用層。設施層是為感知前端、計算、存儲、網絡資源提供基礎環境支持;服務層的視頻聯網共享服務和數據層的視頻接入、處理等是平臺的核心功能,服務層的視頻圖像分析服務實現了視頻圖像解析系統中信息分析能力的服務化,是視頻圖像智能化建設應用的關鍵服務;數據層的數據接入、數據治理和數據服務是按照公共安全大數據處理的技術要求對視頻圖像信息數據庫功能進行擴展,為視頻圖像智能化建設應用提供視頻圖像數據服務能力;應用層對多平臺應用功能進行了歸納梳理,在充分保護數據安全和個人隱私的前提下,更好地滿足各部門視頻圖像智能化應用的需要。
數據服務平臺主要包括數據服務層、數據開發套件、數據處理層以及數據源層四大板塊。而數據應用軟件也就是前端客戶端的業務呈現。數據平臺給業務軟件開發者提供了離線、實時的開發工具以及任務管理、代碼發布、運維、告警等一系列的集成工具,方便使用,提升其工作效率。
1.數據服務層主要是跟前端業務軟件進行交互,提供多種通用業務接口,包括JDBC、REST以及訂閱/推送,業務軟件可以通過多條復雜的SQL語句實現用戶需求,并且接口的調用要做到負載均衡,保證后臺的穩定性。
2.跟數據服務層并行的是數據開發套件,包括作業編輯、版本控制、業務驗證、數據資產、任務管理以及用戶管理。作業編輯就是業務開發軟件可以通過窗口實現業務需求的工作流(作業);通過版本控制可以保留多個調試版本的工作流(作業);業務驗證提供了即時業務運行驗證的功能,提供運行結果的查看功能;數據資產是指有價值的數據,包括數據地圖、元數據管理、數據血緣、數據生命周期等管理和展示,更加直觀地展現數據資產;任務管理即工作流(作業)的調度管理(Workflow Scheduler),負責底層物理資源的分配管理和作業的啟動時間點,確保工作流(作業)可以按照既定的依賴關系準確及時地執行;用戶管理是保證數據的安全性,防止誤操作,是貫穿整個數據平臺較為核心的部分,主要實現用戶、表、權限的分層管理和全鏈路數據的權限控制。
3.數據處理層是為了提供上層的數據開發套件而依托的開源組件框架和作業調度框架,如oozie、azkaban、chronos、zeus等。離線計算就是實現一些實時性要求不高的研判業務,比如spark、Hive等,而像Flink、Flume、SparkStreaming等可以提供流式計算,實時性要求更高,諸如車輛、人員的布控業務等。SQL分析引擎實現了上層SQL交互式查詢引擎與底層開源框架之間SQL語法的解析與執行。
4.數據源層,即數據存儲層。為了適應上層不同的業務需求,底層數據存儲的開源組件也是豐富多樣的,主要包括MPP數據庫、搜索引擎、NoSQL數據庫(如HBase)、關系型數據庫(RDBMS)、分布式文件存儲以及消息隊列等等,和數據層存在緊密的關系。
數據層包括數據接入、數據治理和數據服務。通過對視頻圖像數據進行智能處理,從中獲取有價值的信息,從而實現視頻圖像數據的生命周期管理,對外提供視頻圖像的數據管理與服務能力。
數據接入根據接入數據種類的不同可以分為視頻流接入、圖像數據接入以及物聯數據接入。視頻流接入是指視頻流的接入,包括實時視頻流接入和歷史視頻錄像接入;圖像數據接入是指人員、車輛、物品以及事件等圖像相關數據的接入,包括圖片、特征值及結構化信息;物聯數據接入是指除視頻流和圖像數據外的其他傳感器接入的數據,如MAC、RFID、IMSI、IMEI等數據的接入。
四、如何進行數據治理
數據治理是指針對接入的各類視頻圖像數據,根據業務需要進行加工處理,從而提升數據的使用價值,滿足用戶的不同需求。數據治理還有助于提升業務的穩定性,進而間接提升數據正確性的服務建設。
數據治理主要包括收集信息、數據清洗、數據關聯、數據回填等功能。收集信息是指對元數據信息的收集及展示。對數據開發平臺來說,元數據主要包括:1.數據的表結構Schema信息。收集表結構信息是從平臺管理和業務需求的角度考慮如何整理和歸納數據,方便系統集成,實現終的業務價值;2.處于安全和運維角度,還需收集數據的統計信息,包括存儲空間、讀寫記錄、權限歸屬等;3.數據血緣關系信息,直白地說就是數據從哪里來到哪里去。收集數據血緣關系信息是為了幫助業務軟件層更好地排查數據鏈路中哪個環節出現了問題。數據清洗是指對視頻圖像數據進行數據過濾、去重、格式轉換、校驗等操作,生成滿足標準及質量要求的視頻圖像數據。數據關聯是指根據視頻圖像數據的關聯規則或算法,將視頻圖像數據和其它數據進行關聯。數據回填是使標準化數據表中空缺字段值通過數據關聯得到正確的值,通過填充對應空缺字段值來提升數據完整度。
數據服務是指基于接入和治理后的數據,為視頻圖像應用提供的數據服務能力,主要包括查詢檢索、比對訂閱、模型分析、數據推送、數據鑒權、數據操作以及數據管理等。
基于以上數據層和服務層的處理,移動端、Web端、客戶端等才能應對多樣的用戶需求,提供豐富的業務應用,比如以圖搜圖、多維碰撞等業務,從而提升各項公共安全工作的能力和水平。
100%; color: rgb(51, 51, 51); font-family: -apple-system, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; font-size: 17px; letter-spacing: 0.544px; text-align: justify; box-sizing: border-box !important; overflow-wrap: break-word !important;">100%; box-sizing: border-box !important; word-wrap: break-word !important; font-size: 14px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">文100%; color: rgb(51, 51, 51); letter-spacing: 0.544px; text-align: justify; font-size: 14px; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; box-sizing: border-box !important; overflow-wrap: break-word !important;"> / 陳培琴 浙江宇視科技有限公司