婷婷激情丁香六月开心五月,最新欧美精品一区二区三区,最新国产精品精品视频 视频,亚洲国产成人爱av网站,中文字幕av无码一区二区三区电影

首頁>> 大數(shù)據(jù)與云計算>>新聞詳情

大數(shù)據(jù)十問:人人都在說的大數(shù)據(jù),到底怎么用?

2022-12-09 19:02  《4PS呼叫中心國際標準研究中心》  咨詢電話:17317241681(微信同號)  


說起大數(shù)據(jù),很多朋友都聽說過。但大數(shù)據(jù)具體是什么東西,它對我們究竟有哪些意義,可能很多人并不是特別知道。

帶著這些問題,我和戴金權老師進行了深入溝通。他是英特爾的院士、大數(shù)據(jù)技術全球 CTO,也是大數(shù)據(jù)領域的國際知名專家。通過這次對談,讓我對大數(shù)據(jù)的發(fā)展和落地有了新的認識。

我把我們的對話進行了整理和采編,以饗讀者,希望大家也能從中獲益。

在開始這場 " 大數(shù)據(jù)知識 " 盛宴之前,我們還精剪了一個 3 分鐘的短視頻,以快問快答形式,讓您能對本次訪談的重要片段先睹為快。

注:以下的 " 我 ",指的都是戴金權老師。

1、大數(shù)據(jù)究竟是什么?

顧名思義,大數(shù)據(jù)的關鍵核心,就是大量的數(shù)據(jù)。但同樣重要的是產(chǎn)生大量數(shù)據(jù)以后,對數(shù)據(jù)的存儲、分析處理、計算建模、人工智能等等一系列應用,都可以算在大數(shù)據(jù)的范疇里。

大數(shù)據(jù)的 " 大 ",首先指數(shù)據(jù)量比較大,最簡單也最有挑戰(zhàn)的問題是:當我有這么大的數(shù)據(jù),怎樣進行存儲?除了數(shù)據(jù)量大,對數(shù)據(jù)處理和計算的要求其實也是非常大的。這些都代表了大數(shù)據(jù)的大。

2、人工智能與大數(shù)據(jù):

先有雞還是先有蛋?

人工智能本身不是一個新概念。最近一次人工智能從某種意義上的復興,可能就是在 2010 年前后開始,以深度學習為代表的一系列的算法,能夠在很多原來做不到的應用上帶來非常好的效果。其中一個很大的促進作用,就是今天有了大量的數(shù)據(jù),在大量數(shù)據(jù)的基礎上去學習非常大的深度學習的模型,可以提高模型的準確率,從而使得模型從原來的可能不能用,到今天可以被用了,它的準確率達到一定的程度,這樣就推動了人工智能的發(fā)展。

3、AI 與大數(shù)據(jù):落地更重要?

老石:之前人工智能更關注性能,但最近人們更關注它的落地。對于大數(shù)據(jù),是否也存在類似的思維方式的轉變?

如何把人工智能技術從實驗室應用到真實生產(chǎn)生活環(huán)境中,意味著兩點:

第一,它需要能夠和整個端到端的數(shù)據(jù)流很好的結合在一起,這樣才能真正對現(xiàn)實的生產(chǎn)生活產(chǎn)生影響;

第二,性能并不是孤立的,而要考慮整個端到端的性能,因為很多時候你的瓶頸在你的端到端數(shù)據(jù)流里面的不同的地方,怎樣把整個端到端的性能進行優(yōu)化,這是很關鍵的。

舉個例子,我們和韓國 SK 電訊有個合作,他們要對通訊網(wǎng)絡進行分析,了解網(wǎng)絡質量如何,并用人工智能的模型來進行判斷。他們可能在一個很大的城市里有幾十萬個基站,基站設備每秒鐘會產(chǎn)生非常多的網(wǎng)絡數(shù)據(jù)。這些數(shù)據(jù)在產(chǎn)生之后,要從分散在城市中的各個基站進入到數(shù)據(jù)中心的大數(shù)據(jù)平臺里,然后進行數(shù)據(jù)整理、分析、特征處理,然后去建模、訓練,再根據(jù)模型去進行推理,推理之后根據(jù)出來的結果,可能會得出某個地方的網(wǎng)絡質量有問題等等。

在這里," 端到端 " 是從開始到結束,而且它是動態(tài)的、每秒都會產(chǎn)生,并不是產(chǎn)生一次就結束了。

4、英特爾 BigDL 的作用及開發(fā)難點?

老石:您在行業(yè)的代表性工作,就是關于大數(shù)據(jù)的平臺 BigDL。能否請您簡單介紹一下 BigDL 到底是什么?

用一句話來說,BigDL 是英特爾開源的一個 " 端到端 " 的大數(shù)據(jù)到 AI 的平臺、或者流水線。如我剛才所說,人工智能真正成功的重點,是怎樣把實驗室的算法、模型真正應用到生產(chǎn)環(huán)境中。這就需要一個 " 端到端 " 的軟硬件平臺,能夠讓用戶很方便地做這件事情,這是做 BigDL 的目的。

開發(fā)這樣一個 " 端到端 " 大數(shù)據(jù) AI 平臺,當然也遇到了一些重要的挑戰(zhàn)。

第一,需要把 AI 和現(xiàn)有的大數(shù)據(jù)生態(tài)系統(tǒng)進行無縫連接。傳統(tǒng)上,用戶很多時候要從大數(shù)據(jù)平臺里進行數(shù)據(jù)拷貝,然后移到另外一個深度學習的集群上,但這樣其實非常不高效。因此需要 AI 和大數(shù)據(jù)平臺的無縫連接。

第二,如何從單機的環(huán)境轉到分布式的計算環(huán)境。大規(guī)模的分布式計算是支撐 AI 或大數(shù)據(jù)的關鍵,但這對于一般的數(shù)據(jù)科學家是一個非常大的挑戰(zhàn)。

通常來說,數(shù)據(jù)科學家寫完代碼,要把代碼扔過一堵無形的 " 墻 ",墻那邊可能有個產(chǎn)品團隊或工程團隊,根據(jù)實際場景進行代碼重寫。

而我們希望做到代碼不用重寫,原來能在筆記本上運行的代碼,只需改一兩行代碼就能無縫地在大規(guī)模分布式的環(huán)境中進行運行,而實現(xiàn)這種方式有著極大的挑戰(zhàn)。

5、什么是開發(fā)與部署中間的 " 墻 "?

大多數(shù)情況下,數(shù)據(jù)科學家或者 AI 研究人員所使用的編程的模式和硬件環(huán)境,與大規(guī)模部署的現(xiàn)實環(huán)境是并不一致的。作為數(shù)據(jù)科學家或 AI 研究者,我喜歡在自己的電腦上面把數(shù)據(jù)拷過來,然后在上面跑,并且在單機上把它的性能跑到最好、模型調得最好,這些是我關心的問題。

但在生產(chǎn)環(huán)境中,數(shù)據(jù)來源非常多,可能有不同的數(shù)據(jù)系統(tǒng)接入進來,形成大數(shù)據(jù)流水線。然而,模型怎樣應用到大數(shù)據(jù)流水線上,并不是研究人員關心的問題。

比如我有一個大規(guī)模的至強集群,我的數(shù)據(jù)、數(shù)據(jù)處理都在其中,此時怎樣把 AI 接入到這上面,很多時候研究人員是不關心的。這就導致了原型開發(fā)和最終生產(chǎn)部署環(huán)節(jié)的脫節(jié),因此對開發(fā)人員非常不友好、非常不高效。

大多數(shù)情況下,我們在公司里會有一些數(shù)據(jù)科學家或 AI 研究人員是專注于研究先進的算法;還有團隊負責生產(chǎn)系統(tǒng)。這個生產(chǎn)系統(tǒng)包括軟硬件,很大程度上還是軟件應用、大數(shù)據(jù)系統(tǒng)或 APP,整個應用要非常高效、非常穩(wěn)定、非常可擴展,大規(guī)模地部署。

研發(fā)和部署很多時候一開始注的點并不一樣,有很多厲害的 AI 研究人員,他們做了非常多的 AI 模型。但在下一步把模型運行在生產(chǎn)系統(tǒng)或生產(chǎn)數(shù)據(jù)上看效果的時候,突然發(fā)現(xiàn)并沒有辦法很好的去對接生產(chǎn)系統(tǒng),于是這時候他就開始關心這件事情了。所以,這個問題對兩邊都存在。

目前,還沒有一個特別好的軟件平臺,能夠把這兩邊整個的需求統(tǒng)一在端到端的流水線上。

6、芯片公司,為何要做開源平臺?

英特爾在開源的社區(qū)和開源的研發(fā)方面都有長久的投入,從操作系統(tǒng) Linux,再到虛擬化,再到大數(shù)據(jù)、AI,其實英特爾在開源方面做了非常大的工作。

開源的目的是,一個健康活躍的開源生態(tài)系統(tǒng),對整個的技術發(fā)展有非常大的推動。BigDL 的目的也是這樣,我們希望能夠幫大數(shù)據(jù)和 AI 的生態(tài)系統(tǒng)做一個橋梁,幫助用戶更好地將大數(shù)據(jù)和 AI 的技術運用在軟硬件平臺上。

今天來說,構建這樣一個基礎軟件生態(tài)系統(tǒng),最好的方式是通過開源,大家在里面可以有非常多創(chuàng)新和溝通交流。從 BigDL 的角度來說,我們作為一個開源的項目,也是希望能夠把大數(shù)據(jù)生態(tài)系統(tǒng)和深度學習的生態(tài)系統(tǒng)做一個連接。

7、大數(shù)據(jù)、AI 與超異構

老石:異構計算目前非常火熱,您覺得底層計算平臺應該具備哪些特點、并且如何支撐大數(shù)據(jù)的處理呢?

這個問題我覺得可以從兩方面來回答。

第一,BigDL 希望做的是把大數(shù)據(jù)生態(tài)系統(tǒng)和 AI 人工智能生態(tài)進行結合。我們針對分布式的至強 CPU 服務器集群來進行大數(shù)據(jù) AI 平臺的構建,并在硬件上其實有非常多的優(yōu)化。

雖然英特爾的至強 CPU 是一個通用處理器,但是里面其實有非常多的硬件指令是針對 AI 優(yōu)化的,比如在低精度 INT8 上的 VNNI 或者 DL Boost,在下一代至強可擴展處理器中的 AMX 的矩陣加速硬件。當它成為通用 CPU 計算的一部分之后,用戶可以利用軟件進行加速,從某種意義上獲得免費的加速能力。從一些實踐中可以看到,這種軟硬件的結合,可以幫助用戶免費得到十倍甚至更高的性能提升。

另外一方面,我們看到一個很重要的趨勢——異構,事實上我們認為這是一個 " 超異構 " 的趨勢,因為有著非常多的芯片類型,從 FPGA 到 GPU 再到 ASIC 加速器到 IPU 等等。所以怎樣通過一個非常好的軟件的抽象(比如英特爾的 oneAPI 就開放了標準的軟件抽象),能夠將不同 XPU 硬件加速和計算集成在統(tǒng)一的界面下,也讓上層軟件開發(fā)更高效。這兩方面的工作我們都在進行中。

8、BigDL 的演進

BigDL 的開源是在 2016 年 12 月 30 日,在過去五六年的時間里,我們和社區(qū)里的很多用戶、合作伙伴做了非常多的合作。比如大規(guī)模的推薦系統(tǒng),大規(guī)模的時序分析的應用,當然也有很多計算機視覺、自然語言處理等等方面的應用。

舉一個和萬事達卡的合作案例,他們有差不多 20 億的用戶和交易數(shù)據(jù),在大數(shù)據(jù)平臺上可能有幾千億的交易的記錄。當他們使用非常大規(guī)模的 CPU 至強集群構建大數(shù)據(jù)平臺之后,他們希望能夠在這些數(shù)據(jù)上構建 AI 應用,并對他們的交易數(shù)據(jù)進行挖掘,產(chǎn)生各種各樣的模型等等。

利用 BigDL,萬事達卡的工程師得以在其大規(guī)模的企業(yè)數(shù)據(jù)倉庫上構建了非常多 " 端到端 " 的 AI 應用,從數(shù)據(jù)倉庫端對數(shù)據(jù)進行分析、抓取、特征處理、建模、訓練,最大的應用在幾百臺至強服務器上進行大規(guī)模分布式的訓練,差不多在 5 小時內訓練出一個大規(guī)模的 AI 模型,并提高他們各種 AI 的能力。

那么,英特爾 BigDL 是否只能運行在英特爾平臺上呢,答案是否定的。嚴格來說,BigDL 并不是只運行在英特爾平臺上,而是運行在大數(shù)據(jù)的生態(tài)系統(tǒng)上。但大數(shù)據(jù)生態(tài)系統(tǒng)基本上都是運行在 X86 的平臺上。當然 BigDL 會為英特爾的至強服務器等做更多的優(yōu)化,來提高它的執(zhí)行效率。

9、大數(shù)據(jù)的發(fā)展愿景

從計算加速角度來說,面對硬件加速器,我們或許低估了軟件優(yōu)化的能力。很多軟件優(yōu)化的技術,包括像低精度、多核多線程計算、量化方式等等,能夠很好地對 AI 整個計算效率帶來非常大的提升。

其實我們今天也做了很多工作,我們甚至愿意把他們稱之為軟件的 AI 加速器,這個 " 免費加速器 " 如何與 BigDL 這種大規(guī)模分布式的環(huán)境相結合,不只是很好地做 scale out 水平擴展,還可以很好地提升每個節(jié)點的計算效率,這是我們正在進行中的大部分的工作。這件事情是非常重要的:一個生態(tài)系統(tǒng),必須要將各種技術能夠有機統(tǒng)一在一起,然后最終的目標是給用戶帶來最大的價值。

我們有一個愿景叫 AI Everywhere ,就是 AI 無所不在。在將來的很多生活應用中,都會使用大數(shù)據(jù)和 AI 來進行分析,從而提升體驗和生產(chǎn)效率。

從數(shù)據(jù)的角度來說,深度學習較大的局限在于進行大量的監(jiān)督學習。很多人說:人工智能,有多少人工就有多少智能 —— 因為要對大量數(shù)據(jù)進行標簽、清洗。

逐漸的大家意識到這個問題,于是大量向自監(jiān)督學習、弱監(jiān)督學習、或者說元學習這樣的方式進行轉移,并研究這些新的學習范式,怎樣提高數(shù)據(jù)的效率、減少人工干預。

在算法本身,一方面大模型是明顯的趨勢,超大參數(shù)的模型能夠得到更好的效果;但是另一方面,這也會給計算帶來非常大的挑戰(zhàn)。當模型變大以后,計算的整個效率其實是降低了。我覺得非常重要的點是如何利用遷移學習、或者利用新的學習范式,來把這種非超大規(guī)模的模型更好地利用到下游的任務上去,從而減少計算量并提高效率。

除了剛才提到的計算、數(shù)據(jù)和算法之外,還有一個很多人會忽視的關鍵地方,那就是開發(fā)效率。不只是計算效率或數(shù)據(jù)效率,而是作為一個數(shù)據(jù)科學家、機器學習工程師或大數(shù)據(jù)工程師,他們的效率也是非常重要的,因為很多時候到最后人比機器更貴。

怎樣提高開發(fā)人員的開發(fā)效率,不管是今天所謂的低代碼、無代碼的開發(fā)方式,都值得探索。我可能更感興趣的是,作為一個寫代碼的人,怎樣能夠有非常好的開發(fā)環(huán)境。我們在 BigDL 做的工作可以說是初步的嘗試,怎樣更好地讓今天的數(shù)據(jù)科學家和工程師在大規(guī)模的、非常復雜的算法、非常復雜的數(shù)據(jù)的這樣一個環(huán)境中非常高效地進行開發(fā),這也是非常重要的對人工智能大數(shù)據(jù)推動的一個方向。

10、大數(shù)據(jù)技能是否會成為未來程序員的標配?

我覺得大數(shù)據(jù)處理今天已經(jīng)是程序員的標配了,基本上大多數(shù)開發(fā)者、特別是在云端進行應用開發(fā)的人,都會接觸到怎樣對數(shù)據(jù)進行處理。只是怎樣把整個技術平臺和軟件平臺做得更加易用,這是一個難點。

另外一個難點就是說今天的數(shù)據(jù)計算、人工智能、機器學習的算法,很多會成為標準化或者大家都需要使用的工具,但是新的技術的發(fā)展還是剛需。雖然人工智能、大數(shù)據(jù)很有用,但是還有很多缺陷,怎樣在新的技術方向上進行突破,仍然是非常重要的一點。

彩蛋:英特爾院士對大數(shù)據(jù)學習的建議

大數(shù)據(jù)、人工智能是一個非常復雜的系統(tǒng),其實有很多不同的技術方向。給大家的建議來說有三條。

第一,Linux 創(chuàng)始人林納斯的一句話,"Talk   is cheap,show me   the   code"。很多時候當你看到一個感興趣的方向,第一步應該考慮怎樣能夠真正扎實地做點東西出來。哪怕去復現(xiàn)一個算法,在上面進行一些改動,進行一些改進,做一些新的東西,這些都可以。作為第一步,就是真的能夠扎實的把這個東西做出來。

第二,當你做了好幾個項目之后,需要思考如何把這些工作展現(xiàn)給別人。要思考工作的體系是什么,整個趨勢是什么,能不能把我做的事情說清楚,我做了什么,為什么做這個,我解決什么問題 —— 這些思考很重要

第三,有一句話和大家共勉:我們通常會來高估自己一年能做什么,但低估自己十年能夠完成什么。很多人就會覺得,我認認真真做了一年、做了好幾個月,但并沒有太大進展。其實只要你能夠按照這個方向真正堅持做下去,過了五年,過了十年,你會發(fā)現(xiàn)你有非常大的收獲。



共0條評論網(wǎng)友評論
  • 全部評論
共0條記錄(共頁)
向您推薦

新聞 按行業(yè)分類

廠商 按產(chǎn)品分類


        
總機:021-51601170 直線:021-58307717,17317241681(微信同號) 電子郵件:cct@51callcenter.com  瀘ICP備10026114號-4  行業(yè)交流俱樂部QQ:2919157212
地址:上海市浦東新區(qū)牡丹路60號東辰大廈810室  郵編:201204 上海趨天網(wǎng)絡技術服務有限公司 版權所有(2002-2018)