人類(lèi)每天都在吃飯、睡覺(jué)、工作和玩耍,這個(gè)過(guò)程就產(chǎn)生了數(shù)據(jù)——非常非常多的數(shù)據(jù)。據(jù)IBM公布的消息顯示,人類(lèi)每天產(chǎn)生2.5垓(一京是一億億,一萬(wàn)京為一垓)字節(jié)的數(shù)據(jù)。該數(shù)量相當(dāng)于從地球堆疊到月球又返回來(lái)的所有DVD碟片所能存儲(chǔ)的數(shù)據(jù)總量,其中包括了我們發(fā)送的文本、我們上傳的照片,以及工業(yè)傳感器的數(shù)據(jù),還有機(jī)器間通信的所有數(shù)據(jù)。
正因?yàn)閿?shù)據(jù)如此龐大,所以我們的時(shí)代人人都在談數(shù)據(jù)。這也是為什么“大數(shù)據(jù)”現(xiàn)如今如此流行的主要原因。簡(jiǎn)單地說(shuō),當(dāng)人們談?wù)摯髷?shù)據(jù)時(shí),他們指的是能夠獲得大量的數(shù)據(jù)、分析數(shù)據(jù),并將其變成有用的東西。那么數(shù)據(jù)分析和大數(shù)據(jù)分析有什么區(qū)別呢?什么樣的數(shù)據(jù)才能叫做大數(shù)據(jù)呢?
億信ABI今天想和大家聊聊這些。
一、概念
1、什么是大數(shù)據(jù)?
要了解一個(gè)事物,我們首先要從概念入手。那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間。大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。第二,數(shù)據(jù)類(lèi)型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。
一般來(lái)說(shuō),大數(shù)據(jù)概念可以分解成三個(gè)層面:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
2、什么是數(shù)據(jù)分析?
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,未提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。數(shù)據(jù)分析包含“數(shù)據(jù)”和“分析”兩個(gè)方面,一方面包括收集、加工和整理數(shù)據(jù),另一方面也包括分析數(shù)據(jù),從中提取有價(jià)值的信息并形成對(duì)業(yè)務(wù)有幫助的結(jié)論。數(shù)據(jù)分析的成果通常以分析報(bào)告的形式呈現(xiàn)。對(duì)于數(shù)據(jù)分析報(bào)告,分析就是論點(diǎn),數(shù)據(jù)就是論據(jù),兩者缺一不可。
數(shù)據(jù)分析需要掌握數(shù)學(xué)知識(shí)和分析工具,數(shù)學(xué)知識(shí)包含統(tǒng)計(jì)學(xué)、概率論和數(shù)理統(tǒng)計(jì)、多元統(tǒng)計(jì)分析、時(shí)間序列、數(shù)據(jù)挖掘;工具一般應(yīng)該掌握Excel、SQL、R、Python等。需要學(xué)習(xí)掌握基本數(shù)據(jù)處理及分析方法,掌握高級(jí)數(shù)據(jù)分析及數(shù)據(jù)挖掘方法(多元線性回歸法,貝葉斯,神經(jīng)網(wǎng)絡(luò),決策樹(shù),聚類(lèi)分析法,關(guān)聯(lián)規(guī)則,時(shí)間序列,支持向量機(jī),集成學(xué)習(xí)等)和可視化技術(shù)。
3、什么是大數(shù)據(jù)分析?
大數(shù)據(jù)分析是指分析無(wú)法使用現(xiàn)有的傳統(tǒng)應(yīng)用程序有效處理的龐大數(shù)據(jù)量的技術(shù)。大數(shù)據(jù)的處理始于未聚合的原始數(shù)據(jù),通常是不可能將其存儲(chǔ)在單臺(tái)計(jì)算機(jī)的內(nèi)存中的。
大數(shù)據(jù)分析是是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
二、數(shù)據(jù)分析和大數(shù)據(jù)分析的區(qū)別
1、分析方法
就分析方法而言,兩者并無(wú)本質(zhì)區(qū)別。數(shù)據(jù)分析的核心工作是對(duì)數(shù)據(jù)指標(biāo)的分析,思考和解釋。人腦可以攜帶的數(shù)據(jù)量極為有限。因此,無(wú)論是“傳統(tǒng)數(shù)據(jù)分析”還是“大數(shù)據(jù)分析”,都需要根據(jù)分析思路對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理,以獲得匯總統(tǒng)計(jì)結(jié)果供人為分析。兩者在此過(guò)程中相似,不同之處僅在于處理方法是由原始數(shù)據(jù)的大小引起的。
2、統(tǒng)計(jì)知識(shí)應(yīng)用
第二,兩者在使用統(tǒng)計(jì)知識(shí)方面有很大的不同?!皞鹘y(tǒng)數(shù)據(jù)分析”中使用的知識(shí)主要圍繞“可以通過(guò)少量采樣數(shù)據(jù)來(lái)猜測(cè)現(xiàn)實(shí)世界”這一主題?!按髷?shù)據(jù)分析”主要是使用各種類(lèi)型的全量數(shù)據(jù)(非采樣數(shù)據(jù))設(shè)計(jì)統(tǒng)計(jì)程序并獲得詳細(xì)而有把握的統(tǒng)計(jì)結(jié)論。
3、機(jī)器學(xué)習(xí)模型
兩者之間在機(jī)器學(xué)習(xí)模型方面存在根本差異?!皞鹘y(tǒng)數(shù)據(jù)分析”大多數(shù)時(shí)候,知識(shí)使用機(jī)器學(xué)習(xí)模型作為黑匣子工具來(lái)協(xié)助分析數(shù)據(jù)?!按髷?shù)據(jù)分析”通常是兩者的緊密結(jié)合。大數(shù)據(jù)分析不僅會(huì)產(chǎn)生分析效果評(píng)估,而且還會(huì)基于此進(jìn)行產(chǎn)品升級(jí)。在大數(shù)據(jù)分析的背景下,數(shù)據(jù)分析通常是數(shù)據(jù)上墨的序幕,而數(shù)據(jù)建模是數(shù)據(jù)分析的結(jié)果。
4、結(jié)果展現(xiàn)
數(shù)據(jù)分析報(bào)告體現(xiàn)數(shù)據(jù)挖掘的整體流程,層層闡述信息的收集、模型的構(gòu)建、結(jié)果的驗(yàn)證和解讀,對(duì)行業(yè)進(jìn)行評(píng)估,優(yōu)化和決策。大數(shù)據(jù)報(bào)告要求報(bào)告能體現(xiàn)大數(shù)據(jù)分析的優(yōu)勢(shì),能清楚地闡述數(shù)據(jù)采集、大數(shù)據(jù)處理過(guò)程及最終結(jié)果的解讀,同時(shí)提出模型的優(yōu)化和改進(jìn)之處,以利于提升大數(shù)據(jù)分析的商業(yè)價(jià)值。
三、數(shù)據(jù)分析和大數(shù)據(jù)分析不同的應(yīng)用場(chǎng)景
(1)
大數(shù)據(jù)分析應(yīng)用場(chǎng)景
1、購(gòu)物營(yíng)銷(xiāo)
當(dāng)我們打開(kāi)淘寶,京東等購(gòu)物APP時(shí),總是會(huì)發(fā)現(xiàn),這些APP比我們自己還懂自己,能夠未卜先知的知道我們最近需要什么。商家通過(guò)手機(jī)瀏覽的數(shù)據(jù)分析,知道我們近期的需求,之后精準(zhǔn)的向我們進(jìn)行推銷(xiāo)。如今人們網(wǎng)絡(luò)購(gòu)物的行為越來(lái)越頻繁,網(wǎng)絡(luò)購(gòu)物的體驗(yàn)也越來(lái)越好。而影響網(wǎng)絡(luò)購(gòu)物體驗(yàn)的一個(gè)最重要的方面就是物流的速度。雙十一時(shí),很多物品能保證晚上下單,第二天就送達(dá),即使購(gòu)買(mǎi)的是新疆的葡萄干,也能在24小時(shí)到貨。速度提升的背后,離不開(kāi)大數(shù)據(jù)的賦能。物流倉(cāng)儲(chǔ)與購(gòu)物平臺(tái)合作,通過(guò)分析用戶的瀏覽數(shù)據(jù),購(gòu)物車(chē),下定金情況,預(yù)知某一地區(qū)的購(gòu)買(mǎi)量,進(jìn)行提前備貨。通過(guò)大數(shù)據(jù)中心的調(diào)控,物流分揀系統(tǒng)能最科學(xué)合理的進(jìn)行裝車(chē)。在智慧系統(tǒng)的指引下,快遞員也能按照最優(yōu)的線路進(jìn)行高效的配送。
2、交通出行
如今百度地圖、高德地圖已經(jīng)成了我們出行必不可少的工具。沒(méi)了地圖,很多時(shí)候我們將寸步難行。手機(jī)地圖能夠做到精準(zhǔn)的導(dǎo)航和實(shí)時(shí)的路況預(yù)測(cè)得益于大數(shù)據(jù)的分析。一是地圖公司有自己數(shù)據(jù)采集車(chē),前期采集了海量的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。二是每一個(gè)使用地圖的用戶,都共享了自己的位置,貢獻(xiàn)了自己的數(shù)據(jù)。通過(guò)對(duì)同一時(shí)間段同一路段用戶的使用情況進(jìn)行分享,地圖很容易就能得知哪里堵車(chē),哪里暢通,提前告知使用者。
3、政務(wù)處理
大數(shù)據(jù)在助力政府的政務(wù)處理方面同樣發(fā)揮著重要的作用。近年來(lái)精準(zhǔn)扶貧是各級(jí)政府的首要工程,扶貧如何做到精準(zhǔn),考驗(yàn)著政府的執(zhí)政能力。這里我們以億信華辰的數(shù)據(jù)治理平臺(tái)睿治為例,給大家講解。
睿治智能數(shù)據(jù)治理平臺(tái)由億信華辰自主研發(fā),是一款融合數(shù)據(jù)治理十大產(chǎn)品模塊,覆蓋數(shù)據(jù)全生命周期管理的應(yīng)用平臺(tái),也是目前國(guó)內(nèi)功能齊全的數(shù)據(jù)治理工具,助力數(shù)據(jù)標(biāo)準(zhǔn)落地,提升數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)融合?;诖耍瑑|信華辰幫助廣州市荔灣政數(shù)局建設(shè)了政務(wù)大數(shù)據(jù)平臺(tái)。
睿治平臺(tái)依托四標(biāo)四實(shí)基礎(chǔ)數(shù)據(jù),整合荔灣區(qū)政務(wù)數(shù)據(jù)資源,搭建全區(qū)統(tǒng)一的四標(biāo)四實(shí)數(shù)據(jù)平臺(tái),提供多源數(shù)據(jù)采集、數(shù)據(jù)管控、數(shù)據(jù)共享交換、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)服務(wù)等核心能力,推進(jìn)全區(qū)政務(wù)數(shù)據(jù)資源的共享利用,探索政府?dāng)?shù)據(jù)與社會(huì)數(shù)據(jù)的整合利用。
(2)數(shù)據(jù)分析應(yīng)用場(chǎng)景
1、趨勢(shì)預(yù)測(cè)和熱點(diǎn)營(yíng)銷(xiāo)
社區(qū)中熱點(diǎn)和熱門(mén)是數(shù)據(jù)分析的結(jié)果。在社區(qū)中熱門(mén)話題、在搜索引擎中熱點(diǎn)分析,通常具有先兆性的特征,能夠成為一種流行趨勢(shì)的預(yù)測(cè)。比如,蘋(píng)果的土豪金讓土豪色成為一種流行。同時(shí)由于社區(qū)傳播的廣泛、快捷性,也能夠幫助企業(yè)通過(guò)病毒式營(yíng)銷(xiāo)獲得更多關(guān)注,比如小米的病毒式營(yíng)銷(xiāo)的策劃。
2、產(chǎn)品定價(jià)
產(chǎn)品定價(jià)的合理性需要進(jìn)行數(shù)據(jù)試驗(yàn)和分析,主要研究客戶對(duì)產(chǎn)品定價(jià)的敏感度,將客戶按照敏感度進(jìn)行分類(lèi),測(cè)量不同價(jià)格敏感度的客戶群對(duì)產(chǎn)品價(jià)格變化的直接反應(yīng)和容忍度。通過(guò)這些數(shù)據(jù)試驗(yàn),為產(chǎn)品定價(jià)提供決策參考。
3、戶流失預(yù)測(cè)
客戶數(shù)據(jù)分析中發(fā)現(xiàn)客戶的投訴增多,客戶評(píng)價(jià)出現(xiàn)負(fù)面情緒,客戶購(gòu)買(mǎi)量明顯減少等現(xiàn)象,根據(jù)客戶行為模型,預(yù)測(cè)客戶流失的可能性,并采取針對(duì)性措施。
4、基于環(huán)境數(shù)據(jù)的外部形勢(shì)分析
從市場(chǎng)競(jìng)爭(zhēng)者的產(chǎn)品、促銷(xiāo)等數(shù)據(jù),從外部環(huán)境的數(shù)據(jù),例如天氣(如霧霾)、重大節(jié)日(如雙十一)、國(guó)家大事(十八大)、熱門(mén)話題(如中國(guó)好聲音)、社交媒體上人們的情緒(快樂(lè))等中找到對(duì)外部形勢(shì)演變的先導(dǎo)性的預(yù)測(cè),幫助企業(yè)應(yīng)對(duì)環(huán)境變化。
5、基于物聯(lián)網(wǎng)數(shù)據(jù)分析的產(chǎn)品生命周期管理
條形碼、二維碼、RFID等能夠唯一標(biāo)識(shí)產(chǎn)品,傳感器、可穿戴設(shè)備、智能感知、視頻采集、增強(qiáng)現(xiàn)實(shí)等技術(shù)能將產(chǎn)品生命周期的信息進(jìn)行實(shí)時(shí)采集和分析,這些數(shù)據(jù)能夠幫助企業(yè)在供應(yīng)鏈的各個(gè)環(huán)節(jié)跟蹤產(chǎn)品,收集產(chǎn)品使用信息,從而實(shí)現(xiàn)產(chǎn)品生命周期的管理。
四、小結(jié)
隨著大數(shù)據(jù)的快速發(fā)展,就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)逐漸可能成為新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等相關(guān)技術(shù),有可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破。所以數(shù)據(jù)分析和大數(shù)據(jù)分析在未來(lái)區(qū)別并不重要,重要的是二者如何結(jié)合在大數(shù)據(jù)時(shí)代發(fā)揮更大的作用。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)