米利唐_后腰_乌克兰足球超级联赛_中国竞彩欧赔 - 足球竞彩分析

集團官網(wǎng)
  • 國家級全民數(shù)字素養(yǎng)與技能培訓(xùn)基地
  • 河南省第一批產(chǎn)教融合型企業(yè)建設(shè)培育單位
  • 鄭州市數(shù)字技能人才(碼農(nóng))培養(yǎng)評價聯(lián)盟

Hadoop數(shù)據(jù)倉庫的主要特征有哪些?

編輯:云和數(shù)據(jù) 日期:2023-06-01 10:25

數(shù)據(jù)倉庫(英語:Data Warehouse,簡稱數(shù)倉、DW),是一個用于存儲、分析、報告的數(shù)據(jù)系統(tǒng)。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,分析結(jié)果為企業(yè)提供決策支持(Decision Support)。

數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),其數(shù)據(jù)來源于不同外部系統(tǒng); 同時數(shù)據(jù)倉庫自身也不需要“消費”任何的數(shù)據(jù),其結(jié)果開放給各個外部應(yīng)用使用。

Hadoop數(shù)據(jù)倉庫的主要特征有面向主題性、集成性、非易失性和時變性,接下來對這四個特性做詳細(xì)介紹。

面向主題性(Subject-Oriented)

主題是一個抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。

傳統(tǒng)OLTP系統(tǒng)對數(shù)據(jù)的劃分并不適用于決策分析。而基于主題組織的數(shù)據(jù)則不同,它們被劃分為各自獨立的領(lǐng)域,每個領(lǐng)域有各自的邏輯內(nèi)涵但互不交叉,在抽象層次上對數(shù)據(jù)進行完整、一致和準(zhǔn)確的描述。

1672394027869_保險性.png

集成性(Integrated)

主題相關(guān)的數(shù)據(jù)通常會分布在多個操作型系統(tǒng)中,彼此分散、獨立、異構(gòu)。因此在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,對數(shù)據(jù)進行抽取、清理、轉(zhuǎn)換和匯總,這一步是數(shù)據(jù)倉庫

建設(shè)中最關(guān)鍵、最復(fù)雜的一步,所要完成的工作有: 要統(tǒng)一源數(shù)據(jù)中所有矛盾之處;如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等等。

進行數(shù)據(jù)綜合和計算。數(shù)據(jù)倉庫中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫抽取數(shù)據(jù)時生成,但許多是在數(shù)據(jù)倉庫內(nèi)部生成的,即進入數(shù)據(jù)倉庫以后進行綜合生成的。

下圖說明了保險公司綜合數(shù)據(jù)的簡單處理過程,其中數(shù)據(jù)倉庫中與“承?!敝黝}有關(guān)的數(shù)據(jù)來自于多個不同的操作 型系統(tǒng)。

這些系統(tǒng)內(nèi)部數(shù)據(jù)的命名可能不同,數(shù)據(jù)格式也可能不同。把不同來源的數(shù)據(jù)存儲到數(shù)據(jù)倉庫之前,需要去除這些不一致。

1672394310574_集成性.png

非易失性、非異變性(Non-Volatile)

數(shù)據(jù)倉庫是分析數(shù)據(jù)的平臺,而不是創(chuàng)造數(shù)據(jù)的平臺。我們是通過數(shù)倉去分析數(shù)據(jù)中的規(guī)律,而不是去創(chuàng)造修改其中的規(guī)律。因此數(shù)據(jù)進入數(shù)據(jù)倉庫后,它便穩(wěn)定且不會改變。

數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當(dāng)長的時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,數(shù)據(jù)倉庫的用戶對數(shù)據(jù)的操作大多是數(shù)據(jù)查詢或比較復(fù)雜的挖掘,一旦數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下被較長時間保留。

數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少。

時變性(Time-Variant)

數(shù)據(jù)倉庫包含各種粒度的歷史數(shù)據(jù),數(shù)據(jù)可能與某個特定日期、星期、月份、季度或者年份有關(guān)。當(dāng)業(yè)務(wù)變化后會失去時效性。因此數(shù)據(jù)倉庫的數(shù)據(jù)需要隨著時間更新,以適應(yīng)決策的需要。

從這個角度講,數(shù)據(jù)倉庫建設(shè)是一個項目,更是一個過程。

相關(guān)內(nèi)容

搶先一步 鴻蒙(HarmonyOS)應(yīng)用開發(fā)者高級認(rèn)證 免費考! 適合人群計算機相關(guān)專業(yè)在校生(技師、中職、高職、本科、研究生)對鴻蒙(HarmonyOS)有興趣的非計算機相關(guān)專業(yè)在校生目前正在從事移動應(yīng)用的開發(fā)者目前正在從事計算機行業(yè)相關(guān)的人計算機專業(yè)高校老師所有對鴻蒙(HarmonyOS)有興趣的人 培訓(xùn)方案掌握鴻蒙的核心概念和端云一體化開發(fā)、... 什么是Java的多態(tài)性(polymorphism)?它有哪些不同的形式? 多態(tài)性是Java面向?qū)ο缶幊痰囊粋€重要概念,它允許不同的對象以一致的方式響應(yīng)同一個方法調(diào)用,具體表現(xiàn)為對象在運行時可以表現(xiàn)出多個不同的形態(tài)。多態(tài)性主要有兩種不同的形式:編譯時多態(tài)性(靜態(tài)多態(tài)性)和運行時多態(tài)性(動態(tài)多態(tài)性)。1. 編譯時多態(tài)性(靜態(tài)多態(tài)性):   ... 如何學(xué)習(xí)和搭建Hadoop開發(fā)環(huán)境? Hadoop是大數(shù)據(jù)處理領(lǐng)域的重要平臺,能夠處理和分析大量數(shù)據(jù)。為了有效地利用Hadoop,我們需要學(xué)習(xí)其基礎(chǔ)知識,并正確搭建開發(fā)環(huán)境。下面是詳細(xì)的學(xué)習(xí)和搭建指南。一、學(xué)習(xí)Hadoop基礎(chǔ)掌握基礎(chǔ)概念和原理Hadoop主要由HDFS和MapReduce兩部分組成。HDFS是分布式文件系統(tǒng),Ma... UI 設(shè)計學(xué)習(xí)如何進階成為高手 我總結(jié)了六種方法,幫助你走出舒適區(qū),提高技能,成長為自信且經(jīng)驗豐富的UI設(shè)計高手一位經(jīng)驗豐富的 UI 設(shè)計師,往往十分看中應(yīng)用程序界面的吸引力和視覺刺激,確保滿足用戶期望和需求。但是,如果你已經(jīng)在 UI 設(shè)計圈摸爬滾打多年,仍然沒有出色的作品,那你極有可能是因為陷入了一個舒適圈,UI技能一直原... 在Java中Executor和Executors的區(qū)別? 在Java中,Executor和Executors都與線程池和并發(fā)執(zhí)行有關(guān),但它們是不同的概念和類。1.ExecutorExecutor是一個接口,位于java.util.concurrent包中,用于表示一個執(zhí)行任務(wù)的執(zhí)行器。它只定義了一個方法:void execute(Runnable c... String類型的常見命令有哪些? String類型,也就是字符串類型,是Redis中最簡單的存儲類型。其value是字符串,不過根據(jù)字符串的格式不同,又可以分為3類:string是普通字符串,int整數(shù)類型,可以做自增、自減操作,float浮點類型,可以做自增、自減操作。String的常見命令有:SET:添加或者修改已經(jīng)存在的...