數據倉庫(英語:Data Warehouse,簡稱數倉、DW),是一個用于存儲、分析、報告的數據系統。數據倉庫的目的是構建面向分析的集成化數據環境,分析結果為企業提供決策支持(Decision Support)。
數據倉庫本身并不“生產”任何數據,其數據來源于不同外部系統; 同時數據倉庫自身也不需要“消費”任何的數據,其結果開放給各個外部應用使用。
Hadoop數據倉庫的主要特征有面向主題性、集成性、非易失性和時變性,接下來對這四個特性做詳細介紹。
主題是一個抽象的概念,是較高層次上企業信息系統中的數據綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。
傳統OLTP系統對數據的劃分并不適用于決策分析。而基于主題組織的數據則不同,它們被劃分為各自獨立的領域,每個領域有各自的邏輯內涵但互不交叉,在抽象層次上對數據進行完整、一致和準確的描述。
主題相關的數據通常會分布在多個操作型系統中,彼此分散、獨立、異構。因此在數據進入數據倉庫之前,必然要經過統一與綜合,對數據進行抽取、清理、轉換和匯總,這一步是數據倉庫
建設中最關鍵、最復雜的一步,所要完成的工作有: 要統一源數據中所有矛盾之處;如字段的同名異義、異名同義、單位不統一、字長不一致等等。
進行數據綜合和計算。數據倉庫中的數據綜合工作可以在從原有數據庫抽取數據時生成,但許多是在數據倉庫內部生成的,即進入數據倉庫以后進行綜合生成的。
下圖說明了保險公司綜合數據的簡單處理過程,其中數據倉庫中與“承保”主題有關的數據來自于多個不同的操作 型系統。
這些系統內部數據的命名可能不同,數據格式也可能不同。把不同來源的數據存儲到數據倉庫之前,需要去除這些不一致。
數據倉庫是分析數據的平臺,而不是創造數據的平臺。我們是通過數倉去分析數據中的規律,而不是去創造修改其中的規律。因此數據進入數據倉庫后,它便穩定且不會改變。
數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容,數據倉庫的用戶對數據的操作大多是數據查詢或比較復雜的挖掘,一旦數據進入數據倉庫以后,一般情況下被較長時間保留。
數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少。
數據倉庫包含各種粒度的歷史數據,數據可能與某個特定日期、星期、月份、季度或者年份有關。當業務變化后會失去時效性。因此數據倉庫的數據需要隨著時間更新,以適應決策的需要。
從這個角度講,數據倉庫建設是一個項目,更是一個過程。
Copyright ? 2013-2021 河南云和數據信息技術有限公司 豫ICP備14003305號 ISP經營許可證:豫B-20160281