隨著大數(shù)據(jù)技術(shù)的不斷更新和迭代,數(shù)據(jù)管理工具得到了飛速的發(fā)展,相關(guān)概念如雨后春筍一般應(yīng)運(yùn)而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)等,這些概念特別容易混淆,下面我們將圍繞BI、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的區(qū)別進(jìn)行介紹。
商業(yè)智能(BI)
商業(yè)BI是一套完整的解決方案,用來將企業(yè)中現(xiàn)有的數(shù)據(jù)進(jìn)行有效的整合,快速準(zhǔn)確的提供報(bào)表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策。一般包括數(shù)據(jù)倉庫、報(bào)表查詢、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等部分。
首先從業(yè)務(wù)系統(tǒng)數(shù)據(jù)中提取有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取、轉(zhuǎn)換和裝載,合并到數(shù)據(jù)倉庫,得到企業(yè)數(shù)據(jù)全局視圖,再利用合適工具等對(duì)其進(jìn)行分析和處理,最后將知識(shí)呈現(xiàn)給管理者,為管理者的決策過程提供支持。
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse),也稱為企業(yè)數(shù)據(jù)倉庫,它是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的包含多種數(shù)據(jù)的存儲(chǔ)庫,并且是高度建模的數(shù)據(jù)集合存儲(chǔ)系統(tǒng)。它將來自不同業(yè)務(wù)、系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)聚合起來,幫助公司把運(yùn)營(yíng)數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持,幫助建構(gòu)商業(yè)智能(BI)。
數(shù)據(jù)湖
數(shù)據(jù)湖(Data Lake)是一個(gè)存儲(chǔ)企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖是以其自然格式存儲(chǔ)的數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫,通常是對(duì)象Blob或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,XML,JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像,音頻,視頻)。
數(shù)據(jù)倉庫與數(shù)據(jù)湖差異
1、在儲(chǔ)存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲(chǔ)所有數(shù)據(jù),并且僅在分析時(shí)再進(jìn)行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。
2、在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會(huì)對(duì)數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。
3、數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會(huì)用具有預(yù)測(cè)建模和統(tǒng)計(jì)分析等功能的高級(jí)分析工具。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于月度報(bào)告等操作用途,因?yàn)樗哂懈叨冉Y(jié)構(gòu)化。
4、在架構(gòu)中數(shù)據(jù)湖通常,在存儲(chǔ)數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉庫中存儲(chǔ)數(shù)據(jù)之前定義架構(gòu)。
數(shù)據(jù)中臺(tái)
數(shù)據(jù)中臺(tái)是指通過企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對(duì)內(nèi)優(yōu)化管理提高業(yè)務(wù),對(duì)外可以數(shù)據(jù)合作價(jià)值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺(tái)建立后,會(huì)形成數(shù)據(jù)API,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺(tái)整體技術(shù)架構(gòu)上采用云計(jì)算架構(gòu)模式,將數(shù)據(jù)資源、計(jì)算資源、存儲(chǔ)資源充分云化,并通過多租戶技術(shù)進(jìn)行資源打包整合,并進(jìn)行開放,為用戶提供“一站式”數(shù)據(jù)服務(wù)。利用大數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)一采集、計(jì)算、存儲(chǔ),并使用統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行管理,將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標(biāo)準(zhǔn)化數(shù)據(jù),挖掘出對(duì)企業(yè)最有價(jià)值的數(shù)據(jù),構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫,提供一致的、高質(zhì)量的大數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺(tái)不是一套軟件,也不是一個(gè)信息系統(tǒng),而是一系列數(shù)據(jù)組件的集合,企業(yè)基于自身的信息化建設(shè)基礎(chǔ)、數(shù)據(jù)基礎(chǔ)以及業(yè)務(wù)特點(diǎn)對(duì)數(shù)據(jù)中臺(tái)的能力進(jìn)行定義,基于能力定義利用數(shù)據(jù)組件搭建自己的數(shù)據(jù)中臺(tái)。
數(shù)據(jù)倉庫與數(shù)據(jù)中臺(tái)的差異
計(jì)算存儲(chǔ)上
傳統(tǒng)的數(shù)據(jù)倉庫基于OLAP類型的數(shù)據(jù)庫,后續(xù)發(fā)展為MPP、Hadoop、GreenPlum混合架構(gòu)。數(shù)據(jù)中臺(tái)從一誕生起,就使用Hadoop、MPP、RDS、Flink等混合架構(gòu),隨需搭配,滿足各類數(shù)據(jù)計(jì)算的要求。
應(yīng)用場(chǎng)景和價(jià)值體系
數(shù)據(jù)中臺(tái)的應(yīng)用場(chǎng)景比傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用場(chǎng)景廣泛得多。傳統(tǒng)的數(shù)倉只是滿足領(lǐng)導(dǎo)和業(yè)務(wù)人員數(shù)據(jù)決策的需要,因此更多的體現(xiàn)在報(bào)表輸出,使用者以小部分的業(yè)務(wù)人員和決策層為主,新需求的開發(fā)周期以月甚至到年為計(jì)。而數(shù)據(jù)中臺(tái)由于起家于互聯(lián)網(wǎng)企業(yè),其使用對(duì)象擴(kuò)大到一線服務(wù)人員和商家企業(yè),其業(yè)務(wù)需求更繁雜,包含商品推薦、精準(zhǔn)廣告展示、客戶滿意度評(píng)價(jià)等等諸多不確定性的應(yīng)用場(chǎng)景,很難用傳統(tǒng)的報(bào)表系統(tǒng)滿足需求,因此必須要使用隨需應(yīng)變的數(shù)據(jù)服務(wù)來快速滿足不斷變化的業(yè)務(wù)需求。
體系架構(gòu)
數(shù)據(jù)中臺(tái)是由多個(gè)組件構(gòu)成,除了計(jì)算平臺(tái)外,其方案由多個(gè)分布式服務(wù)系統(tǒng)提供,滿足不同業(yè)務(wù)需求和高并發(fā)和系統(tǒng)自動(dòng)擴(kuò)容需求,除了大數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)外,還包含數(shù)倉建設(shè)、數(shù)據(jù)開發(fā)IDE、任務(wù)調(diào)度、數(shù)據(jù)同步服務(wù)、數(shù)據(jù)治理、對(duì)外統(tǒng)一數(shù)據(jù)服務(wù)、資產(chǎn)管理系統(tǒng)、實(shí)時(shí)流計(jì)算平臺(tái)和開發(fā)平臺(tái),敏捷BI報(bào)表開發(fā)等多個(gè)組件,通過多個(gè)組件組成一整套方案。這一點(diǎn)傳統(tǒng)的數(shù)據(jù)倉庫是遠(yuǎn)遠(yuǎn)達(dá)不到的。
數(shù)據(jù)倉庫與BI差異
商業(yè)智能BI相比于數(shù)據(jù)倉庫,它是一個(gè)更大的概念。商業(yè)智能可以說是基于數(shù)據(jù)倉庫,經(jīng)過了數(shù)據(jù)挖掘后,得到了商業(yè)價(jià)值的過程。所以說數(shù)據(jù)倉庫是個(gè)金礦,數(shù)據(jù)挖掘是煉金術(shù),而商業(yè)報(bào)告則是黃金。數(shù)據(jù)倉庫就像是 BI 這個(gè)房子的地基,搭建好 DW 這個(gè)地基之后,才能進(jìn)行分析使用,最后產(chǎn)生價(jià)值。
BI工具推薦
億信華辰作為中國(guó)專業(yè)的商業(yè)智能BI和數(shù)據(jù)治理軟件提供商,一直致力于為政企用戶提供從數(shù)據(jù)采集、存儲(chǔ)、治理、分析到智能應(yīng)用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)智能,已積累了8000多家用戶的服務(wù)和客戶成功經(jīng)驗(yàn),為客戶提供數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)治理系統(tǒng)搭建等專業(yè)的產(chǎn)品咨詢、實(shí)施和技術(shù)支持服務(wù)。其在2021中國(guó)數(shù)據(jù)智能/ 數(shù)據(jù)中臺(tái)生態(tài)圖譜的商業(yè)智能領(lǐng)域榜上有名。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)