“在未來,為什么說大數(shù)據(jù)非常非常重要,因為所有的公司都是數(shù)據(jù)公司,太武斷或者太絕對?回想50年前,說今天計算機(jī)無所不在,也沒有人信。”6月27日,《浪潮之巔》作者、Google科學(xué)家、硅谷風(fēng)險投資人吳軍在顛覆式創(chuàng)新研習(xí)社的精彩分享,帶來他在大數(shù)據(jù)時代的前沿思考。以下是吳軍演講實錄!
大數(shù)據(jù)會在30年徹底改變世界
50年前,英特爾創(chuàng)始人之一戈登·摩爾提出來摩爾定律:當(dāng)價格不變時,集成電路上可容納的元器件的數(shù)目,約每隔18-24個月便會增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。
這一定律揭示了信息技術(shù)進(jìn)步的速度,開啟了IT非常快速發(fā)展的50年。
摩爾定律帶來的結(jié)果是:所有的硬件公司,每18個月必須實現(xiàn)產(chǎn)品更新。而且,以前我們說,社會需求帶動科技發(fā)展,現(xiàn)在不是了,一個東西出來之后會產(chǎn)生新的社會需求。各個公司都要針對開發(fā)未來的市場。
為什么說今年是一個轉(zhuǎn)折點呢?因為有了大數(shù)據(jù),雖然他今天沒有產(chǎn)生那么大的GDP,但以后30年內(nèi)會徹底改變這個世界,而且改變我們的思維方式。
把摩爾定律反過來看,你如果不能18個月把性能翻一番,你就被這個行業(yè)淘汰了。或者我干脆不跟你玩了,我去從事一個遠(yuǎn)離18個月翻一番的行業(yè),就出現(xiàn)什么呢?轉(zhuǎn)型,就是IBM。他說與其我做硬件利潤越來越薄,不如我賣給聯(lián)想去玩,我做IT服務(wù)。
于是我們有了很多的服務(wù)業(yè),過去,我們理解的服務(wù)業(yè)是什么呢?旅游?家政?今天不是,是IT服務(wù),光在美國這個市場差不多是一萬億美元。
所以創(chuàng)業(yè)時有一個選擇,你到底是做什么? IT產(chǎn)業(yè)第一代基本上就是做硬件,都是在摩爾定律出來之前誕生的,估值很低。摩爾定律出來以后,誕生了一流的軟件公司,比如說微軟公司、甲骨文。所以不同的時代要做不同的事情,而不在于說你的專長在那兒。
未來30年的趨勢是什么?
未來三十年是什么樣的呢?大概分成三部分,一是云計算和移動互聯(lián)網(wǎng)。二是大數(shù)據(jù)和機(jī)器智能。三是生物醫(yī)療,它的核心是大數(shù)據(jù)。
大數(shù)據(jù)為什么如此重要?它有三個很明顯的特征,并不僅僅是數(shù)據(jù)量大,因為它帶來了機(jī)器智能,而這個機(jī)器智能非常可怕。
什么是機(jī)器智能?計算機(jī)老祖宗阿蘭圖靈提出來判定機(jī)器是否跟人有樣智能的方式,叫做圖靈測試,這個圖靈測試怎么說的呢?大屏幕背后放上一臺計算機(jī),再坐上一個人,你問他一個問題,答案你無法判斷到底是機(jī)器給出來的,還是人給出來的,這時候我們就認(rèn)為機(jī)器和人有同等的智能。
解決這個問題要幾個東西,首先要大量的數(shù)據(jù),并且開始產(chǎn)生數(shù)據(jù)驅(qū)動。當(dāng)時沒有互聯(lián)網(wǎng)數(shù)據(jù),但是IBM因為有很多的商業(yè)客戶電傳數(shù)據(jù)。利用這些數(shù)據(jù),IBM實現(xiàn)了語音識別系統(tǒng),當(dāng)時能識別大概100多個英文單詞,識別的錯誤率30%,這不可用,更何況只能識別100多個字。
而數(shù)據(jù)驅(qū)動能識別2.2萬字,這是差別。錯誤率從30%降到10%,這是劃時代的事。大家會發(fā)現(xiàn)原來看上去很復(fù)雜的機(jī)器智能問題,好象還有另外一條路可以走,不是來模擬人,是用數(shù)據(jù)驅(qū)動的方法。
什么是大數(shù)據(jù)呢?大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,它常常是雜亂無章的多維度的。
舉一個例子,大概兩年前百度公布了一個很簡單報告,他從百度知道里面做了一些大數(shù)據(jù)的分析,然后得出一些中國各個地方飲食習(xí)慣的調(diào)查。這里面有多少呢?大概有7700萬條跟吃有關(guān)的問題,他根據(jù)IP知道你是什么地方人,問什么問題。他不是做問卷調(diào)查,你到百度知道去看數(shù)據(jù)雜亂無章的很,你通過IP地址看你問什么問題,他實際上很多數(shù)據(jù)不公布,公布以后會發(fā)現(xiàn)你的隱私被拿走了。而這個7700萬條數(shù)據(jù)還是歷史上不同時期收集來的,維度非常多。
還有一條,大數(shù)據(jù)必須具備完備性,才是有意義的。
綜上,大數(shù)據(jù)這三條要注意,一個是數(shù)據(jù)量足夠大,一個是多維度,還有一個是數(shù)據(jù)的完備性。在結(jié)束之前,再講一個很重要的,大數(shù)據(jù)為叫BIG DATA,不叫l(wèi)arge,這其實還是有細(xì)微的差別,這不僅僅是強(qiáng)調(diào)數(shù)據(jù)量本身大,他是強(qiáng)調(diào)說這是一個思維方式的改變,所以BIG DATA本身有這樣一個深層的含義。
這件事本身很可怕,可怕在那兒呢?我們回到IBM深藍(lán)和國際象棋世界冠軍卡斯帕羅夫下象棋贏了的例子。IBM不僅把卡斯帕羅夫下所有象棋的結(jié)果搜集起來了,他還把世界上好多好多的象棋高手當(dāng)時對弈結(jié)果搜集起來了,以至于說在每一步棋的時候,就像做預(yù)測的時候有一個數(shù)據(jù)的完備性,你每走一步,他實際上根據(jù)歷史結(jié)果,他對你有一個預(yù)測。當(dāng)時還沒有大數(shù)據(jù)的概念,某種程度上是變成了一個大數(shù)據(jù)的問題。
大數(shù)據(jù)發(fā)展很好的一個機(jī)遇是移動互聯(lián)網(wǎng),PC互聯(lián)網(wǎng)是機(jī)器和機(jī)器聯(lián)網(wǎng),在移動互聯(lián)網(wǎng)時代,是人的連網(wǎng),以前我們說手機(jī)可以讓你利用碎片時間,現(xiàn)在是說你根本就沒有整的時間,時間全變成碎片時間。你如果有可穿戴設(shè)備,你一天24小時某種程度上都掛在互聯(lián)網(wǎng)上,這也使得數(shù)據(jù)的完備性成為可能。
還有一個傳感器的技術(shù), RFID,這是什么東西呢?大概瓶子蓋這么大的東西,零售價四美分,芯片帶一個天線,當(dāng)你走過他讀寫器的時候,把里面數(shù)據(jù)傳到讀寫器上了。舉一個例子,我們買礦泉水需要排隊掃碼,然后支付。有了這個RFID傳感器以后,你把購物車推出去就完了,然后選擇移動支付,根本不用那么麻煩,因為傳感器會記錄你買下的所有東西。
所以我們給出今天的第一個結(jié)論,就是說我們今天是一個從摩爾定律到數(shù)據(jù)為王的年代。而這件事并不是說僅僅是增加幾億,幾十億或者多少億的市場或者說這么一個產(chǎn)業(yè)問題。這整個是幾萬億,幾十萬億的故事,未來的世界,在現(xiàn)有的公司中什么公司占比較有利的位置,已經(jīng)擁有這些大數(shù)據(jù)和有能力處理大數(shù)據(jù)的,這是兩個不同的概念。
擁有大數(shù)據(jù)和已經(jīng)有能力處理大數(shù)據(jù)的公司,他們會變得非常強(qiáng)大。傳統(tǒng)的數(shù)據(jù)公司,因為思維方式的變化,他固定的模式使得他可能反而落伍。
在未來,為什么說大數(shù)據(jù)是非常非常重要的,因為所有的公司都是數(shù)據(jù)公司,有人說是不是下得太武斷或者太絕對的。你如果今天回想50年前,說計算機(jī)無所不在,這個也沒有人信。
大數(shù)據(jù)不是IT界專利,傳統(tǒng)行業(yè)也需要
舉三個例子,這是一個中國公司例子,風(fēng)能發(fā)電設(shè)備的上市公司。風(fēng)力發(fā)電機(jī)有一個葉片,能用十到十五年,為什么是10到15年,這是從平均值得到的。因為你沒有辦法知道某一個具體的點具體的產(chǎn)品實際情況。
但是,這家公司裝了一些傳感器,就能監(jiān)控到每一個地方葉片情況,有一些地方風(fēng)大,風(fēng)又不均,葉片老化快,可能要八年。過去這家公司光制造這個利潤并不高,為了競爭壓價很厲害。現(xiàn)在有了大數(shù)據(jù)以后,他可以通過一些無線的聯(lián)網(wǎng),把這些東西送回來,每一臺發(fā)電機(jī)具體運行情況知道,賣到什么地方,這個地方風(fēng)力是大是小,一年四季哪天有風(fēng)哪天沒有風(fēng)都知道。
其實到以后,每一個產(chǎn)品,以后可以從貼一個RFID,你從出廠到運輸,每經(jīng)過一個地方,最后到了誰手里,你都可以知道。也就是說在過去想都不敢想的事,在大數(shù)據(jù)時代,我們可以精細(xì)到每一件產(chǎn)品。
第二個例子,prada。我跟chanel聊過怎么設(shè)計專賣店,他說擺放很有講究,怎么擺放好,根據(jù)老板的經(jīng)驗確定。
prada做了一個什么事呢?很簡單,他把衣服加了一個芯片,在試衣間加了一個傳感器,這個東西從貨架上拿下來,你試了多少次就知道了。他不能解決所有問題,但是至少解決一個問題,如果這個衣服大家不斷試就是不買,你肯定知道不是第一眼看上去不舒服,可能穿在模特身上好看,在我身上不好看。
第三個例子,TARGET是美國第二大百貨連鎖店,他有一次找來一個學(xué)統(tǒng)計的碩士到百貨店,干什么呢?他通過收集每個人的購物清單,分析用戶習(xí)慣。你光知道賣了多少貨還不行,還要知道誰在買。
之后碩士生做一些研究發(fā)現(xiàn)人買東西有一些規(guī)律,比如說孕婦在不同的階段買東西是不一樣的,大家基本上按照這個規(guī)律來,你買不同階段預(yù)測你下面買什么給你送優(yōu)惠卷。
突然有一天接到了一個非常憤怒的爸爸打來電話說,我女兒才14歲,你們就給他寄嬰兒的用品廣告,這個經(jīng)理一想數(shù)據(jù)好象也會出錯,大概一個星期回訪,他又打電話問這個父親,這個父親說對不起上次是我搞錯了,我女兒真懷孕了。
說明什么呢?大數(shù)據(jù)時代,有可能這些店家,這些商家比你更了解你自己的需求,淘寶可能比你更知道你下面要買什么東西。或者說為什么我講說,未來所有的公司可能都是大數(shù)據(jù)公司。我剛才講的這三個例子和我們傳統(tǒng)講的IT沒有關(guān)系。
面對大數(shù)據(jù),我們能做什么?
我們能做什么,或者需要做什么呢?第一個是數(shù)據(jù)的搜集,谷歌兩年前買了一個公司NEST30億美元,才100萬的用戶量,為什么呢?這是一個號稱智能空調(diào)的,在你房頂上裝一些東西,會提供家里WIFI功能,平時什么生活習(xí)慣知道,谷歌買了它,不是真正為了省那點電,他通過這個為了采集數(shù)據(jù)。
第二,數(shù)據(jù)的存儲,別小看這個。以前我們處理數(shù)據(jù),想象的數(shù)據(jù),文本的數(shù)據(jù),圖象的數(shù)據(jù),視頻的數(shù)據(jù),其實相對來講都是還算是小的。你數(shù)據(jù)量大了以后怎么辦,怎么檢索,怎么存儲,都是一個挑戰(zhàn)。
當(dāng)然還有一個很關(guān)鍵的,剛才我已經(jīng)反復(fù)講了隱私性,還有一個數(shù)據(jù)的安全。數(shù)據(jù)安全又有兩個概念,第一個概念就是說數(shù)據(jù)最好不要泄露。你不能丟,我們將來說大數(shù)據(jù),我們存在百度云盤上,這個丟了怎么辦或者說損壞了還能不能恢復(fù),這些都是挑戰(zhàn)。
機(jī)器智能的三足鼎立
下面我們要講機(jī)器智能,產(chǎn)生機(jī)器智能三個要素第一個是摩爾定律,計算機(jī)多快,存儲量多大。大數(shù)據(jù),我們思維方式變了。還有一個要有數(shù)學(xué)模型。因為計算機(jī)解決智能的方法和人不一樣,他不是思考,他是算,要算要有數(shù)學(xué)模型,機(jī)器智能將來是三足鼎立,你做其中任何一個,你可能將來在今后20年里都會是一個不錯的立足點。
比如說谷歌大腦,其實和人腦一毛錢關(guān)系沒有,這就是一個人工神經(jīng)網(wǎng)絡(luò),以前人工神經(jīng)網(wǎng)絡(luò)在一臺機(jī)器上實現(xiàn)可能幾百個節(jié)點不錯了,現(xiàn)在一百萬臺機(jī)器上實現(xiàn)可以有幾萬個節(jié)點。把這個模型訓(xùn)練的更加準(zhǔn)確,計算機(jī)顯得比以前聰明了。
這個像語音識別的錯誤,大概從15%-16%,大概能夠降到12-13%,沒有改變方法,沒有改變數(shù)據(jù)量,只是機(jī)器學(xué)習(xí)這個東西做了一個改變,就有了提高。
有了這些東西,我們回頭看一開始我提出的圖靈測試的問題,讓計算機(jī)回答問題。這個事解決了,計算機(jī)跟人類同等智能了。2012年的時候我從騰訊回谷歌,我的老板,管整個谷歌搜索的高級副總裁,說你做什么事隨你,只有一個要求,這個事做完了以后,讓微軟要花五年時間來追趕我們。
后來我想了想這個事好象能做,這個事過去歷史上還沒有人做成功,讓計算機(jī)回答問題。比如天為什么是藍(lán)的?我們做了一年半,給出一個結(jié)果,你可以讀一下。這實際上是一個數(shù)據(jù)的完備性的問題。其實很多時候,這個答案在類似于某個網(wǎng)頁里面,我們只是做了什么事呢?把互聯(lián)網(wǎng)上所有的網(wǎng)頁,不是說跟我們問題有關(guān)的,而是所有的網(wǎng)頁都拿下來做語法的分析,這個計算量很大,這必須在谷歌才能完成。
之后拼湊答案,還有一些數(shù)學(xué)模型,保證拼出來的句子讀起來像英文句子。就是這樣幾件事,把一個所謂智能問題變成一個大數(shù)據(jù)的問題,這是一個很重要的一點,并不是說我們比別人聰明,而是完全換了一個思維方式。你不再按照人的方式要求他去解決這個智能問題,而是讓機(jī)器的方式來解決智能問題。
第二個例子,谷歌自動駕駛汽車,你可以看成是一個機(jī)器人,跑了將近20萬公里,沒有出一次交通事故。實際上不是當(dāng)成一個智能問題,他是當(dāng)成一個大數(shù)據(jù)問題,這個項目是谷歌街景項目一個延伸,這個車能去的地方是谷歌掃過街的地方。他實際上把開車問題,變成了大數(shù)據(jù)問題。
講到這里引發(fā)一個問題,智能的機(jī)器無所不在的,未來的世界是人在主宰還是機(jī)器來主宰,大家可能會有這樣一個問題。舉兩個例子,一是富士康有很多裝配工人,郭臺銘已經(jīng)講了,不當(dāng)血汗工廠,要研制機(jī)器人,讓機(jī)器替代人。
可能有人會說,反正我們不是生產(chǎn)線裝配工人,波及不到我們,我們就講兩個高大上職業(yè)。第一個是放射科醫(yī)生,這在美國是非常高大上職業(yè),但未來放射科醫(yī)生可能是一個機(jī)器。比如說識別癌細(xì)胞的機(jī)器,準(zhǔn)確率在很多地方已經(jīng)超過醫(yī)生,而且他有一個非常大得好處,識別水平非常穩(wěn)定。
未來的社會,由于機(jī)器智能和大數(shù)據(jù),不僅僅是郭臺銘的生態(tài)線工人受影響,我們所有高大上職業(yè)也受影響。
未來的世界是什么樣的世界呢?第一條,機(jī)器其實是不會控制人類的,制造智能機(jī)器的公司和這些人,他們實際上是通過機(jī)器在控制人。這些人可能占人口很少數(shù)量,他們實際上是機(jī)器智能時代的受益者,其他人怎么辦呢?要不加入他們,要不然你成為98%,被2%的人控制。沒有選擇,你必須站在這個行業(yè),而且你的思維方式一定是有變化的。
大數(shù)據(jù)思維——全面性+互聯(lián)互通
總結(jié)一下大數(shù)據(jù)的思維。大數(shù)據(jù)思維第一點,一個是全面性,他將來可以在大數(shù)據(jù)時代做任何事可以細(xì)到每一個人,每一個商品,每一筆交易。
這畫了一個酒吧臺,這是一個創(chuàng)業(yè)公司。他把前一家公司賣掉以后,花了兩年時間走訪了美國100多家酒吧,他就做這個調(diào)查,他發(fā)現(xiàn)了一個很有意思的事,這個酒吧的酒有24%是被偷喝掉了,什么意思呢?比如說研習(xí)社汪洋是我的朋友,他來找我,我說小子今天沒有事,來給你來兩杯酒不算你錢,倒了兩杯喝了。
他做了什么事呢?他把酒架子改造了,每一個酒瓶子下面貼一個特殊的傳感器,傳感器本身三毛錢,然后每一次倒出來,倒多少盎司,什么時候倒的,和移動互聯(lián)網(wǎng)是連著的,老板躺在家里看手機(jī)都知道什么交易。這就是大數(shù)據(jù)思維。
我們對比講過去的互聯(lián)網(wǎng)思維,這個很重要的是什么呢?實際上是一個互聯(lián)互通,不是簡單的把電子商務(wù),說把商品原來在實體店,現(xiàn)在放到網(wǎng)上去。原來賣硬件的,也開始賣服務(wù),事實上小米今天賣小配件掙的利潤比他賣手機(jī)要高的多,這是一個大數(shù)據(jù)思維,要把整個的商業(yè)模式都改過來。
版權(quán)聲明