婷婷激情丁香六月开心五月,最新欧美精品一区二区三区,最新国产精品精品视频视频,亚洲国产成人爱av网站,中文字幕av无码一区二区三区电影

<table id="zfan3"><strong id="zfan3"></strong></table>

17317241681(微信同號)

首頁>> 大數(shù)據(jù)與云計算>>新聞詳情

大數(shù)據(jù)十問：人人都在說的大數(shù)據(jù)，到底怎么用？

2022-12-09 19:02 《4PS呼叫中心國際標準研究中心》咨詢電話：17317241681(微信同號)

說起大數(shù)據(jù)，很多朋友都聽說過。但大數(shù)據(jù)具體是什么東西，它對我們究竟有哪些意義，可能很多人并不是特別知道。

帶著這些問題，我和戴金權老師進行了深入溝通。他是英特爾的院士、大數(shù)據(jù)技術全球 CTO，也是大數(shù)據(jù)領域的國際知名專家。通過這次對談，讓我對大數(shù)據(jù)的發(fā)展和落地有了新的認識。

我把我們的對話進行了整理和采編，以饗讀者，希望大家也能從中獲益。

在開始這場 " 大數(shù)據(jù)知識 " 盛宴之前，我們還精剪了一個 3 分鐘的短視頻，以快問快答形式，讓您能對本次訪談的重要片段先睹為快。

注：以下的 " 我 "，指的都是戴金權老師。

1、大數(shù)據(jù)究竟是什么？

顧名思義，大數(shù)據(jù)的關鍵核心，就是大量的數(shù)據(jù)。但同樣重要的是產(chǎn)生大量數(shù)據(jù)以后，對數(shù)據(jù)的存儲、分析處理、計算建模、人工智能等等一系列應用，都可以算在大數(shù)據(jù)的范疇里。

大數(shù)據(jù)的 " 大 "，首先指數(shù)據(jù)量比較大，最簡單也最有挑戰(zhàn)的問題是：當我有這么大的數(shù)據(jù)，怎樣進行存儲？除了數(shù)據(jù)量大，對數(shù)據(jù)處理和計算的要求其實也是非常大的。這些都代表了大數(shù)據(jù)的大。

2、人工智能與大數(shù)據(jù)：

先有雞還是先有蛋？

人工智能本身不是一個新概念。最近一次人工智能從某種意義上的復興，可能就是在 2010 年前后開始，以深度學習為代表的一系列的算法，能夠在很多原來做不到的應用上帶來非常好的效果。其中一個很大的促進作用，就是今天有了大量的數(shù)據(jù)，在大量數(shù)據(jù)的基礎上去學習非常大的深度學習的模型，可以提高模型的準確率，從而使得模型從原來的可能不能用，到今天可以被用了，它的準確率達到一定的程度，這樣就推動了人工智能的發(fā)展。

3、AI 與大數(shù)據(jù)：落地更重要？

老石：之前人工智能更關注性能，但最近人們更關注它的落地。對于大數(shù)據(jù)，是否也存在類似的思維方式的轉變？

如何把人工智能技術從實驗室應用到真實生產(chǎn)生活環(huán)境中，意味著兩點：

第一，它需要能夠和整個端到端的數(shù)據(jù)流很好的結合在一起，這樣才能真正對現(xiàn)實的生產(chǎn)生活產(chǎn)生影響；

第二，性能并不是孤立的，而要考慮整個端到端的性能，因為很多時候你的瓶頸在你的端到端數(shù)據(jù)流里面的不同的地方，怎樣把整個端到端的性能進行優(yōu)化，這是很關鍵的。

舉個例子，我們和韓國 SK 電訊有個合作，他們要對通訊網(wǎng)絡進行分析，了解網(wǎng)絡質量如何，并用人工智能的模型來進行判斷。他們可能在一個很大的城市里有幾十萬個基站，基站設備每秒鐘會產(chǎn)生非常多的網(wǎng)絡數(shù)據(jù)。這些數(shù)據(jù)在產(chǎn)生之后，要從分散在城市中的各個基站進入到數(shù)據(jù)中心的大數(shù)據(jù)平臺里，然后進行數(shù)據(jù)整理、分析、特征處理，然后去建模、訓練，再根據(jù)模型去進行推理，推理之后根據(jù)出來的結果，可能會得出某個地方的網(wǎng)絡質量有問題等等。

在這里，" 端到端 " 是從開始到結束，而且它是動態(tài)的、每秒都會產(chǎn)生，并不是產(chǎn)生一次就結束了。

4、英特爾 BigDL 的作用及開發(fā)難點？

老石：您在行業(yè)的代表性工作，就是關于大數(shù)據(jù)的平臺 BigDL。能否請您簡單介紹一下 BigDL 到底是什么？

用一句話來說，BigDL 是英特爾開源的一個 " 端到端 " 的大數(shù)據(jù)到 AI 的平臺、或者流水線。如我剛才所說，人工智能真正成功的重點，是怎樣把實驗室的算法、模型真正應用到生產(chǎn)環(huán)境中。這就需要一個 " 端到端 " 的軟硬件平臺，能夠讓用戶很方便地做這件事情，這是做 BigDL 的目的。

開發(fā)這樣一個 " 端到端 " 大數(shù)據(jù) AI 平臺，當然也遇到了一些重要的挑戰(zhàn)。

第一，需要把 AI 和現(xiàn)有的大數(shù)據(jù)生態(tài)系統(tǒng)進行無縫連接。傳統(tǒng)上，用戶很多時候要從大數(shù)據(jù)平臺里進行數(shù)據(jù)拷貝，然后移到另外一個深度學習的集群上，但這樣其實非常不高效。因此需要 AI 和大數(shù)據(jù)平臺的無縫連接。

第二，如何從單機的環(huán)境轉到分布式的計算環(huán)境。大規(guī)模的分布式計算是支撐 AI 或大數(shù)據(jù)的關鍵，但這對于一般的數(shù)據(jù)科學家是一個非常大的挑戰(zhàn)。

通常來說，數(shù)據(jù)科學家寫完代碼，要把代碼扔過一堵無形的 " 墻 "，墻那邊可能有個產(chǎn)品團隊或工程團隊，根據(jù)實際場景進行代碼重寫。

而我們希望做到代碼不用重寫，原來能在筆記本上運行的代碼，只需改一兩行代碼就能無縫地在大規(guī)模分布式的環(huán)境中進行運行，而實現(xiàn)這種方式有著極大的挑戰(zhàn)。

5、什么是開發(fā)與部署中間的 " 墻 "？

大多數(shù)情況下，數(shù)據(jù)科學家或者 AI 研究人員所使用的編程的模式和硬件環(huán)境，與大規(guī)模部署的現(xiàn)實環(huán)境是并不一致的。作為數(shù)據(jù)科學家或 AI 研究者，我喜歡在自己的電腦上面把數(shù)據(jù)拷過來，然后在上面跑，并且在單機上把它的性能跑到最好、模型調得最好，這些是我關心的問題。

但在生產(chǎn)環(huán)境中，數(shù)據(jù)來源非常多，可能有不同的數(shù)據(jù)系統(tǒng)接入進來，形成大數(shù)據(jù)流水線。然而，模型怎樣應用到大數(shù)據(jù)流水線上，并不是研究人員關心的問題。

比如我有一個大規(guī)模的至強集群，我的數(shù)據(jù)、數(shù)據(jù)處理都在其中，此時怎樣把 AI 接入到這上面，很多時候研究人員是不關心的。這就導致了原型開發(fā)和最終生產(chǎn)部署環(huán)節(jié)的脫節(jié)，因此對開發(fā)人員非常不友好、非常不高效。

大多數(shù)情況下，我們在公司里會有一些數(shù)據(jù)科學家或 AI 研究人員是專注于研究先進的算法；還有團隊負責生產(chǎn)系統(tǒng)。這個生產(chǎn)系統(tǒng)包括軟硬件，很大程度上還是軟件應用、大數(shù)據(jù)系統(tǒng)或 APP，整個應用要非常高效、非常穩(wěn)定、非常可擴展，大規(guī)模地部署。

研發(fā)和部署很多時候一開始注的點并不一樣，有很多厲害的 AI 研究人員，他們做了非常多的 AI 模型。但在下一步把模型運行在生產(chǎn)系統(tǒng)或生產(chǎn)數(shù)據(jù)上看效果的時候，突然發(fā)現(xiàn)并沒有辦法很好的去對接生產(chǎn)系統(tǒng)，于是這時候他就開始關心這件事情了。所以，這個問題對兩邊都存在。

目前，還沒有一個特別好的軟件平臺，能夠把這兩邊整個的需求統(tǒng)一在端到端的流水線上。

6、芯片公司，為何要做開源平臺？

英特爾在開源的社區(qū)和開源的研發(fā)方面都有長久的投入，從操作系統(tǒng) Linux，再到虛擬化，再到大數(shù)據(jù)、AI，其實英特爾在開源方面做了非常大的工作。

開源的目的是，一個健康活躍的開源生態(tài)系統(tǒng)，對整個的技術發(fā)展有非常大的推動。BigDL 的目的也是這樣，我們希望能夠幫大數(shù)據(jù)和 AI 的生態(tài)系統(tǒng)做一個橋梁，幫助用戶更好地將大數(shù)據(jù)和 AI 的技術運用在軟硬件平臺上。

今天來說，構建這樣一個基礎軟件生態(tài)系統(tǒng)，最好的方式是通過開源，大家在里面可以有非常多創(chuàng)新和溝通交流。從 BigDL 的角度來說，我們作為一個開源的項目，也是希望能夠把大數(shù)據(jù)生態(tài)系統(tǒng)和深度學習的生態(tài)系統(tǒng)做一個連接。

7、大數(shù)據(jù)、AI 與超異構

老石：異構計算目前非常火熱，您覺得底層計算平臺應該具備哪些特點、并且如何支撐大數(shù)據(jù)的處理呢？

這個問題我覺得可以從兩方面來回答。

第一，BigDL 希望做的是把大數(shù)據(jù)生態(tài)系統(tǒng)和 AI 人工智能生態(tài)進行結合。我們針對分布式的至強 CPU 服務器集群來進行大數(shù)據(jù) AI 平臺的構建，并在硬件上其實有非常多的優(yōu)化。

雖然英特爾的至強 CPU 是一個通用處理器，但是里面其實有非常多的硬件指令是針對 AI 優(yōu)化的，比如在低精度 INT8 上的 VNNI 或者 DL Boost，在下一代至強可擴展處理器中的 AMX 的矩陣加速硬件。當它成為通用 CPU 計算的一部分之后，用戶可以利用軟件進行加速，從某種意義上獲得免費的加速能力。從一些實踐中可以看到，這種軟硬件的結合，可以幫助用戶免費得到十倍甚至更高的性能提升。

另外一方面，我們看到一個很重要的趨勢——異構，事實上我們認為這是一個 " 超異構 " 的趨勢，因為有著非常多的芯片類型，從 FPGA 到 GPU 再到 ASIC 加速器到 IPU 等等。所以怎樣通過一個非常好的軟件的抽象（比如英特爾的 oneAPI 就開放了標準的軟件抽象），能夠將不同 XPU 硬件加速和計算集成在統(tǒng)一的界面下，也讓上層軟件開發(fā)更高效。這兩方面的工作我們都在進行中。

8、BigDL 的演進

BigDL 的開源是在 2016 年 12 月 30 日，在過去五六年的時間里，我們和社區(qū)里的很多用戶、合作伙伴做了非常多的合作。比如大規(guī)模的推薦系統(tǒng)，大規(guī)模的時序分析的應用，當然也有很多計算機視覺、自然語言處理等等方面的應用。

舉一個和萬事達卡的合作案例，他們有差不多 20 億的用戶和交易數(shù)據(jù)，在大數(shù)據(jù)平臺上可能有幾千億的交易的記錄。當他們使用非常大規(guī)模的 CPU 至強集群構建大數(shù)據(jù)平臺之后，他們希望能夠在這些數(shù)據(jù)上構建 AI 應用，并對他們的交易數(shù)據(jù)進行挖掘，產(chǎn)生各種各樣的模型等等。

利用 BigDL，萬事達卡的工程師得以在其大規(guī)模的企業(yè)數(shù)據(jù)倉庫上構建了非常多 " 端到端 " 的 AI 應用，從數(shù)據(jù)倉庫端對數(shù)據(jù)進行分析、抓取、特征處理、建模、訓練，最大的應用在幾百臺至強服務器上進行大規(guī)模分布式的訓練，差不多在 5 小時內訓練出一個大規(guī)模的 AI 模型，并提高他們各種 AI 的能力。

那么，英特爾 BigDL 是否只能運行在英特爾平臺上呢，答案是否定的。嚴格來說，BigDL 并不是只運行在英特爾平臺上，而是運行在大數(shù)據(jù)的生態(tài)系統(tǒng)上。但大數(shù)據(jù)生態(tài)系統(tǒng)基本上都是運行在 X86 的平臺上。當然 BigDL 會為英特爾的至強服務器等做更多的優(yōu)化，來提高它的執(zhí)行效率。

9、大數(shù)據(jù)的發(fā)展愿景

從計算加速角度來說，面對硬件加速器，我們或許低估了軟件優(yōu)化的能力。很多軟件優(yōu)化的技術，包括像低精度、多核多線程計算、量化方式等等，能夠很好地對 AI 整個計算效率帶來非常大的提升。

其實我們今天也做了很多工作，我們甚至愿意把他們稱之為軟件的 AI 加速器，這個 " 免費加速器 " 如何與 BigDL 這種大規(guī)模分布式的環(huán)境相結合，不只是很好地做 scale out 水平擴展，還可以很好地提升每個節(jié)點的計算效率，這是我們正在進行中的大部分的工作。這件事情是非常重要的：一個生態(tài)系統(tǒng)，必須要將各種技術能夠有機統(tǒng)一在一起，然后最終的目標是給用戶帶來最大的價值。

我們有一個愿景叫 AI Everywhere ，就是 AI 無所不在。在將來的很多生活應用中，都會使用大數(shù)據(jù)和 AI 來進行分析，從而提升體驗和生產(chǎn)效率。

從數(shù)據(jù)的角度來說，深度學習較大的局限在于進行大量的監(jiān)督學習。很多人說：人工智能，有多少人工就有多少智能 —— 因為要對大量數(shù)據(jù)進行標簽、清洗。

逐漸的大家意識到這個問題，于是大量向自監(jiān)督學習、弱監(jiān)督學習、或者說元學習這樣的方式進行轉移，并研究這些新的學習范式，怎樣提高數(shù)據(jù)的效率、減少人工干預。

在算法本身，一方面大模型是明顯的趨勢，超大參數(shù)的模型能夠得到更好的效果；但是另一方面，這也會給計算帶來非常大的挑戰(zhàn)。當模型變大以后，計算的整個效率其實是降低了。我覺得非常重要的點是如何利用遷移學習、或者利用新的學習范式，來把這種非超大規(guī)模的模型更好地利用到下游的任務上去，從而減少計算量并提高效率。

除了剛才提到的計算、數(shù)據(jù)和算法之外，還有一個很多人會忽視的關鍵地方，那就是開發(fā)效率。不只是計算效率或數(shù)據(jù)效率，而是作為一個數(shù)據(jù)科學家、機器學習工程師或大數(shù)據(jù)工程師，他們的效率也是非常重要的，因為很多時候到最后人比機器更貴。

怎樣提高開發(fā)人員的開發(fā)效率，不管是今天所謂的低代碼、無代碼的開發(fā)方式，都值得探索。我可能更感興趣的是，作為一個寫代碼的人，怎樣能夠有非常好的開發(fā)環(huán)境。我們在 BigDL 做的工作可以說是初步的嘗試，怎樣更好地讓今天的數(shù)據(jù)科學家和工程師在大規(guī)模的、非常復雜的算法、非常復雜的數(shù)據(jù)的這樣一個環(huán)境中非常高效地進行開發(fā)，這也是非常重要的對人工智能大數(shù)據(jù)推動的一個方向。

10、大數(shù)據(jù)技能是否會成為未來程序員的標配？

我覺得大數(shù)據(jù)處理今天已經(jīng)是程序員的標配了，基本上大多數(shù)開發(fā)者、特別是在云端進行應用開發(fā)的人，都會接觸到怎樣對數(shù)據(jù)進行處理。只是怎樣把整個技術平臺和軟件平臺做得更加易用，這是一個難點。

另外一個難點就是說今天的數(shù)據(jù)計算、人工智能、機器學習的算法，很多會成為標準化或者大家都需要使用的工具，但是新的技術的發(fā)展還是剛需。雖然人工智能、大數(shù)據(jù)很有用，但是還有很多缺陷，怎樣在新的技術方向上進行突破，仍然是非常重要的一點。

彩蛋：英特爾院士對大數(shù)據(jù)學習的建議

大數(shù)據(jù)、人工智能是一個非常復雜的系統(tǒng)，其實有很多不同的技術方向。給大家的建議來說有三條。

第一，Linux 創(chuàng)始人林納斯的一句話，"Talk is cheap，show me the code"。很多時候當你看到一個感興趣的方向，第一步應該考慮怎樣能夠真正扎實地做點東西出來。哪怕去復現(xiàn)一個算法，在上面進行一些改動，進行一些改進，做一些新的東西，這些都可以。作為第一步，就是真的能夠扎實的把這個東西做出來。

第二，當你做了好幾個項目之后，需要思考如何把這些工作展現(xiàn)給別人。要思考工作的體系是什么，整個趨勢是什么，能不能把我做的事情說清楚，我做了什么，為什么做這個，我解決什么問題 —— 這些思考很重要

第三，有一句話和大家共勉：我們通常會來高估自己一年能做什么，但低估自己十年能夠完成什么。很多人就會覺得，我認認真真做了一年、做了好幾個月，但并沒有太大進展。其實只要你能夠按照這個方向真正堅持做下去，過了五年，過了十年，你會發(fā)現(xiàn)你有非常大的收獲。

共0條評論網(wǎng)友評論

全部評論

共0條記錄（共頁）

向您推薦

免費加入呼叫中心俱樂部企業(yè)
QQ：1780135810

新聞按行業(yè)分類

廠商按產(chǎn)品分類

總機：021-51601170 直線：021-58307717，17317241681（微信同號）電子郵件：cct@51callcenter.com 瀘ICP備10026114號-4 行業(yè)交流俱樂部QQ：2919157212
地址：上海市浦東新區(qū)牡丹路60號東辰大廈810室郵編：201204 上海趨天網(wǎng)絡技術服務有限公司版權所有（2002-2018）

^{<ruby id="w9ups"></ruby>}