大數據時代所分析的數據的主要特征是“多源異構”,其分析過程是逐層抽象、降維、概括和解讀的過程。從數據采集的源頭進行劃分,可將大數據時代分析處理的數據對象劃分為以下幾個類別:
(1)各網頁中用戶的瀏覽次數、點擊率,各種社交網站、動態網站網頁內容信息的變化,搜索引擎中關鍵詞的搜索量、網絡實時監控數據等互聯網數據。
(2)可以用于分析用戶行為、對系統的操作、以及系統運行狀態的日志數據。
(3)在通信領域中的各種信號、信令數據,用戶的個人信息以及通話位置、時長等數據。
(4)國民經濟中各領域、各行業的統計分析數據。
對于這些數量龐大的,來自不同源頭的非結構化數據。其分析模式的特點如下:對于互聯網產生的數據,其主要的應用是建立搜索引擎,通過搜索引擎進行數據檢索、處理。
隨著技術的不斷發展,個性化推薦引擎以及大數據分析引擎的問世能夠更加的在海量數據中分析得出更有價值的信息;對于日志數據,可對用戶點擊瀏覽的行為日志和系統運行行為日志進行分析。使得系統能夠根據實際情況產生出更加智能的結果。日志數據與網頁數據的分析處理模式較為類似,都是通過細致分析從而探尋出數據中蘊藏的價值。
這種數據分析處理模式稱為“離線批處理模式”。對于通信領域的數據分析,分析決策人員會對經過細致分析的數據進行統計歸納和查詢,并且在短時間內獲得有價值的信息。
以此來確保系統的交互性并提升用戶體驗。這種數據分析處理模式稱為“查詢式分析”模式;對于互聯網以及國民經濟中重要行業的數據進行實時監控,這種模式稱為“實時數據分析處理“模式。
以上為依據時間特征劃分的數據分析模式。而實現這些分析模式的主要方法有:分類、回歸分析、聚類、關聯規則、神經網絡、WEB數據挖掘等。
要想從急劇增長的數據資源中挖掘分析出有價值的信息,需要*的分析技術作支撐。從宏觀上看,大數據分析技術發展所面臨的問題均包含三個主要特征:
(1)數據量龐大并以驚人的速度增長;
(2)數據種類與結構多樣化,并以半結構化和非結構化的數據為主;
(3)需要具備及時快速的分析速度,即實時分析。這些特征使得傳統的數據分析技術無法滿足要求,更加*的數據分析平臺才是大數據時代更好的選擇。
為了有效應對大數據時代數據分析問題的三個主要特征以及滿足大數據分析的基本需求,當前以及未來一段時期內將主要通過分布式數據庫或者分布式計算集群來對存儲于其內的海量數據進行由淺入深的分析和分類匯總。