婷婷激情丁香六月开心五月,最新欧美精品一区二区三区,最新国产精品精品视频 视频,亚洲国产成人爱av网站,中文字幕av无码一区二区三区电影

首頁>> 大數(shù)據(jù)與云計算>>新聞詳情

五分鐘解讀“大數(shù)據(jù)”

2022-02-10 23:22  《4PS呼叫中心國際標(biāo)準(zhǔn)研究中心》  咨詢電話:17317241681(微信同號)  


我們來聊聊大數(shù)據(jù)

這些年,大數(shù)據(jù)作為一個時髦概念,出現(xiàn)頻率很高,關(guān)注度也很高。

對于很多人來說,當(dāng)他第一次聽到“大數(shù)據(jù)”這個詞,會自然而然從字面上去理解——認(rèn)為大數(shù)據(jù)就是大量的數(shù)據(jù),大數(shù)據(jù)技術(shù)就是大量數(shù)據(jù)的存儲技術(shù)。

但是,事實并非如此。

大數(shù)據(jù)比想象中復(fù)雜。它不只是一項數(shù)據(jù)存儲技術(shù),而是一系列和海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù),是一個龐大的框架系統(tǒng)。

更進(jìn)一步來說,大數(shù)據(jù)是一種全新的思維方式和商業(yè)模式。

圖片來自網(wǎng)絡(luò)

今天這篇文章,就讓我們花五分鐘的時間,來深入了解一下,到底什么是大數(shù)據(jù)。

大數(shù)據(jù)的定義

首先,還是要重新審視大數(shù)據(jù)的定義。

行業(yè)里對大數(shù)據(jù)的定義有很多,有廣義的定義,也有狹義的定義。

廣義的定義,有點哲學(xué)味道——大數(shù)據(jù),是指物理世界到數(shù)字世界的映射和提煉。通過發(fā)現(xiàn)其中的數(shù)據(jù)特征,從而做出提升效率的決策行為。

狹義的定義,是技術(shù)工程師給的——大數(shù)據(jù),是通過獲取、存儲、分析,從大容量數(shù)據(jù)中挖掘價值的一種全新的技術(shù)架構(gòu)。

相比較而言,我還是喜歡技術(shù)定義,哈哈。

大家注意,關(guān)鍵詞我都在上面原句加粗了哈!

要做什么?——獲取數(shù)據(jù)、存儲數(shù)據(jù)、分析數(shù)據(jù)

對誰做?——大容量數(shù)據(jù)

目的是什么?——挖掘價值

獲取數(shù)據(jù)、存儲數(shù)據(jù)、分析數(shù)據(jù),這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在干這個事。

例如,每月的月初,考勤管理員會獲取每個員工的考勤信息,錄入Excel表格,然后存在電腦里,統(tǒng)計分析有多少人遲到、缺勤,然后扣TA工資。

但是,同樣的行為,放在大數(shù)據(jù)身上,就行不通了。換言之,傳統(tǒng)個人電腦,傳統(tǒng)常規(guī)軟件,無力應(yīng)對的數(shù)據(jù)級別,才叫“大數(shù)據(jù)”。

大數(shù)據(jù),到底有多大?

我們傳統(tǒng)的個人電腦,處理的數(shù)據(jù),是GB/TB級別。例如,我們的硬盤,現(xiàn)在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的關(guān)系,大家應(yīng)該都很熟悉了:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大數(shù)據(jù)是什么級別呢?PB/EB級別。

大部分人都沒聽過。其實也就是繼續(xù)翻1024倍:

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。

1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是671部《紅樓夢》小說。

普通硬盤

1PB,需要大約2個機(jī)柜的存儲設(shè)備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年。。。

2個機(jī)柜

1EB,需要大約2000個機(jī)柜的存儲設(shè)備。如果并排放這些機(jī)柜,可以連綿1.2公里那么長。如果擺放在機(jī)房里,需要21個標(biāo)準(zhǔn)籃球場那么大的機(jī)房,才能放得下。

21個籃球場

阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,數(shù)據(jù)量據(jù)說已經(jīng)接近EB級。

阿里數(shù)據(jù)中心內(nèi)景

EB還不是最大的。目前全人類的數(shù)據(jù)量,是ZB級。

1 ZB = 1024 EB (ZB - zettabyte)

2011年,全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量是1.8ZB。

而到2020年,全球電子設(shè)備存儲的數(shù)據(jù),將達(dá)到35ZB。如果建一個機(jī)房來存儲這些數(shù)據(jù),那么,這個機(jī)房的面積將比42個鳥巢體育場還大。

數(shù)據(jù)量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。

目前的大數(shù)據(jù)應(yīng)用,還沒有達(dá)到ZB級,主要集中在PB/EB級別。

大數(shù)據(jù)的級別定位

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)

數(shù)據(jù)的來源

數(shù)據(jù)的增長,為什么會如此之快?

說到這里,就要回顧一下人類社會數(shù)據(jù)產(chǎn)生的幾個重要階段。

大致來說,是三個重要的階段。

第一個階段,就是計算機(jī)被發(fā)明之后的階段。尤其是數(shù)據(jù)庫被發(fā)明之后,使得數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開始產(chǎn)生了數(shù)據(jù),從而被記錄在數(shù)據(jù)庫中。這時的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主(待會解釋什么是“結(jié)構(gòu)化數(shù)據(jù)”)。數(shù)據(jù)的產(chǎn)生方式,也是被動的。

世界上第一臺通用計算機(jī)-ENIAC

第二個階段,是伴隨著互聯(lián)網(wǎng)2.0時代出現(xiàn)的。互聯(lián)網(wǎng)2.0的最重要標(biāo)志,就是用戶原創(chuàng)內(nèi)容。隨著互聯(lián)網(wǎng)和移動通信設(shè)備的普及,人們開始使用博客、facebook、youtube這樣的社交網(wǎng)絡(luò),從而主動產(chǎn)生了大量的數(shù)據(jù)。

第三個階段,是感知式系統(tǒng)階段。隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點開始自動產(chǎn)生大量的數(shù)據(jù),例如遍布世界各個角落的傳感器、攝像頭。

經(jīng)過了“被動-主動-自動”這三個階段的發(fā)展,最終導(dǎo)致了人類數(shù)據(jù)總量的極速膨脹。

大數(shù)據(jù)的4Vs

行業(yè)里對大數(shù)據(jù)的特點,概括為4個V。前面所說的龐大數(shù)據(jù)體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。

我們一個一個來介紹。

Variety(多樣化)

數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù)。

數(shù)據(jù)又分為結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)。

從名字可以看出,結(jié)構(gòu)化數(shù)據(jù),是指可以用預(yù)先定義的數(shù)據(jù)模型表述,或者,可以存入關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)

例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結(jié)構(gòu)化數(shù)據(jù)。

而網(wǎng)頁文章、郵件內(nèi)容、圖像、音頻、視頻等,都屬于非結(jié)構(gòu)話數(shù)據(jù)。

在互聯(lián)網(wǎng)領(lǐng)域里,非結(jié)構(gòu)化數(shù)據(jù)的占比已經(jīng)超過整個數(shù)據(jù)量的80%。

大數(shù)據(jù),就符合這樣的特點:數(shù)據(jù)形式多樣化,且非結(jié)構(gòu)化數(shù)據(jù)占比高。

Velocity(時效性)

大數(shù)據(jù)還有一個特點,那就是時效性。從數(shù)據(jù)的生成到消耗,時間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現(xiàn)在的按秒甚至毫秒變化。

我們還是用數(shù)字來說話:

就在剛剛過去的這一分鐘,數(shù)據(jù)世界里發(fā)生了什么?

Email:2.04億封被發(fā)出

Google:200萬次搜索請求被提交

Youtube:2880分鐘的視頻被上傳

Facebook:69.5萬條狀態(tài)被更新

Twitter:98000條推送被發(fā)出

12306:1840張車票被賣出

……

怎么樣?是不是瞬息萬變?

Value(價值密度)

最后一個特點,就是價值密度。

大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價值密度很低,數(shù)據(jù)中真正有價值的,只是其中的很少一部分。

例如通過監(jiān)控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價值的,只有幾秒鐘。

2014年美國波士頓爆炸案,現(xiàn)場調(diào)取了10TB的監(jiān)控數(shù)據(jù)(包括移動基站的通訊記錄,附近商店、加油站、報攤的監(jiān)控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。

大數(shù)據(jù)的價值

共0條評論網(wǎng)友評論
  • 全部評論
共0條記錄(共頁)
向您推薦

新聞 按行業(yè)分類

廠商 按產(chǎn)品分類


        
總機(jī):021-51601170 直線:021-58307717,17317241681(微信同號) 電子郵件:cct@51callcenter.com  瀘ICP備10026114號-4  行業(yè)交流俱樂部QQ:2919157212
地址:上海市浦東新區(qū)牡丹路60號東辰大廈810室  郵編:201204 上海趨天網(wǎng)絡(luò)技術(shù)服務(wù)有限公司 版權(quán)所有(2002-2018)