“在未來,為什么說大數據非常非常重要,因為所有的公司都是數據公司,太武斷或者太絕對?回想50年前,說今天計算機無所不在,也沒有人信。”6月27日,《浪潮之巔》作者、Google科學家、硅谷風險投資人吳軍在顛覆式創新研習社的精彩分享,帶來他在大數據時代的前沿思考。以下是吳軍演講實錄!
大數據會在30年徹底改變世界
50年前,英特爾創始人之一戈登·摩爾提出來摩爾定律:當價格不變時,集成電路上可容納的元器件的數目,約每隔18-24個月便會增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。
這一定律揭示了信息技術進步的速度,開啟了IT非??焖侔l展的50年。
摩爾定律帶來的結果是:所有的硬件公司,每18個月必須實現產品更新。而且,以前我們說,社會需求帶動科技發展,現在不是了,一個東西出來之后會產生新的社會需求。各個公司都要針對開發未來的市場。
為什么說今年是一個轉折點呢?因為有了大數據,雖然他今天沒有產生那么大的GDP,但以后30年內會徹底改變這個世界,而且改變我們的思維方式。
把摩爾定律反過來看,你如果不能18個月把性能翻一番,你就被這個行業淘汰了?;蛘呶腋纱嗖桓阃媪耍胰氖乱粋€遠離18個月翻一番的行業,就出現什么呢?轉型,就是IBM。他說與其我做硬件利潤越來越薄,不如我賣給聯想去玩,我做IT服務。
于是我們有了很多的服務業,過去,我們理解的服務業是什么呢?旅游?家政?今天不是,是IT服務,光在美國這個市場差不多是一萬億美元。
所以創業時有一個選擇,你到底是做什么? IT產業第一代基本上就是做硬件,都是在摩爾定律出來之前誕生的,估值很低。摩爾定律出來以后,誕生了一流的軟件公司,比如說微軟公司、甲骨文。所以不同的時代要做不同的事情,而不在于說你的專長在那兒。
未來30年的趨勢是什么?
未來三十年是什么樣的呢?大概分成三部分,一是云計算和移動互聯網。二是大數據和機器智能。三是生物醫療,它的核心是大數據。
大數據為什么如此重要?它有三個很明顯的特征,并不僅僅是數據量大,因為它帶來了機器智能,而這個機器智能非??膳隆?br />
什么是機器智能?計算機老祖宗阿蘭圖靈提出來判定機器是否跟人有樣智能的方式,叫做圖靈測試,這個圖靈測試怎么說的呢?大屏幕背后放上一臺計算機,再坐上一個人,你問他一個問題,答案你無法判斷到底是機器給出來的,還是人給出來的,這時候我們就認為機器和人有同等的智能。
解決這個問題要幾個東西,首先要大量的數據,并且開始產生數據驅動。當時沒有互聯網數據,但是IBM因為有很多的商業客戶電傳數據。利用這些數據,IBM實現了語音識別系統,當時能識別大概100多個英文單詞,識別的錯誤率30%,這不可用,更何況只能識別100多個字。
而數據驅動能識別2.2萬字,這是差別。錯誤率從30%降到10%,這是劃時代的事。大家會發現原來看上去很復雜的機器智能問題,好象還有另外一條路可以走,不是來模擬人,是用數據驅動的方法。
什么是大數據呢?大數據不僅僅是數據量大,它常常是雜亂無章的多維度的。
舉一個例子,大概兩年前百度公布了一個很簡單報告,他從百度知道里面做了一些大數據的分析,然后得出一些中國各個地方飲食習慣的調查。這里面有多少呢?大概有7700萬條跟吃有關的問題,他根據IP知道你是什么地方人,問什么問題。他不是做問卷調查,你到百度知道去看數據雜亂無章的很,你通過IP地址看你問什么問題,他實際上很多數據不公布,公布以后會發現你的隱私被拿走了。而這個7700萬條數據還是歷史上不同時期收集來的,維度非常多。
還有一條,大數據必須具備完備性,才是有意義的。
綜上,大數據這三條要注意,一個是數據量足夠大,一個是多維度,還有一個是數據的完備性。在結束之前,再講一個很重要的,大數據為叫BIG DATA,不叫large,這其實還是有細微的差別,這不僅僅是強調數據量本身大,他是強調說這是一個思維方式的改變,所以BIG DATA本身有這樣一個深層的含義。
這件事本身很可怕,可怕在那兒呢?我們回到IBM深藍和國際象棋世界冠軍卡斯帕羅夫下象棋贏了的例子。IBM不僅把卡斯帕羅夫下所有象棋的結果搜集起來了,他還把世界上好多好多的象棋高手當時對弈結果搜集起來了,以至于說在每一步棋的時候,就像做預測的時候有一個數據的完備性,你每走一步,他實際上根據歷史結果,他對你有一個預測。當時還沒有大數據的概念,某種程度上是變成了一個大數據的問題。
大數據發展很好的一個機遇是移動互聯網,PC互聯網是機器和機器聯網,在移動互聯網時代,是人的連網,以前我們說手機可以讓你利用碎片時間,現在是說你根本就沒有整的時間,時間全變成碎片時間。你如果有可穿戴設備,你一天24小時某種程度上都掛在互聯網上,這也使得數據的完備性成為可能。
還有一個傳感器的技術, RFID,這是什么東西呢?大概瓶子蓋這么大的東西,零售價四美分,芯片帶一個天線,當你走過他讀寫器的時候,把里面數據傳到讀寫器上了。舉一個例子,我們買礦泉水需要排隊掃碼,然后支付。有了這個RFID傳感器以后,你把購物車推出去就完了,然后選擇移動支付,根本不用那么麻煩,因為傳感器會記錄你買下的所有東西。
所以我們給出今天的第一個結論,就是說我們今天是一個從摩爾定律到數據為王的年代。而這件事并不是說僅僅是增加幾億,幾十億或者多少億的市場或者說這么一個產業問題。這整個是幾萬億,幾十萬億的故事,未來的世界,在現有的公司中什么公司占比較有利的位置,已經擁有這些大數據和有能力處理大數據的,這是兩個不同的概念。
擁有大數據和已經有能力處理大數據的公司,他們會變得非常強大。傳統的數據公司,因為思維方式的變化,他固定的模式使得他可能反而落伍。
在未來,為什么說大數據是非常非常重要的,因為所有的公司都是數據公司,有人說是不是下得太武斷或者太絕對的。你如果今天回想50年前,說計算機無所不在,這個也沒有人信。
大數據不是IT界專利,傳統行業也需要
舉三個例子,這是一個中國公司例子,風能發電設備的上市公司。風力發電機有一個葉片,能用十到十五年,為什么是10到15年,這是從平均值得到的。因為你沒有辦法知道某一個具體的點具體的產品實際情況。
但是,這家公司裝了一些傳感器,就能監控到每一個地方葉片情況,有一些地方風大,風又不均,葉片老化快,可能要八年。過去這家公司光制造這個利潤并不高,為了競爭壓價很厲害?,F在有了大數據以后,他可以通過一些無線的聯網,把這些東西送回來,每一臺發電機具體運行情況知道,賣到什么地方,這個地方風力是大是小,一年四季哪天有風哪天沒有風都知道。
其實到以后,每一個產品,以后可以從貼一個RFID,你從出廠到運輸,每經過一個地方,最后到了誰手里,你都可以知道。也就是說在過去想都不敢想的事,在大數據時代,我們可以精細到每一件產品。
第二個例子,prada。我跟chanel聊過怎么設計專賣店,他說擺放很有講究,怎么擺放好,根據老板的經驗確定。
prada做了一個什么事呢?很簡單,他把衣服加了一個芯片,在試衣間加了一個傳感器,這個東西從貨架上拿下來,你試了多少次就知道了。他不能解決所有問題,但是至少解決一個問題,如果這個衣服大家不斷試就是不買,你肯定知道不是第一眼看上去不舒服,可能穿在模特身上好看,在我身上不好看。
第三個例子,TARGET是美國第二大百貨連鎖店,他有一次找來一個學統計的碩士到百貨店,干什么呢?他通過收集每個人的購物清單,分析用戶習慣。你光知道賣了多少貨還不行,還要知道誰在買。
之后碩士生做一些研究發現人買東西有一些規律,比如說孕婦在不同的階段買東西是不一樣的,大家基本上按照這個規律來,你買不同階段預測你下面買什么給你送優惠卷。
突然有一天接到了一個非常憤怒的爸爸打來電話說,我女兒才14歲,你們就給他寄嬰兒的用品廣告,這個經理一想數據好象也會出錯,大概一個星期回訪,他又打電話問這個父親,這個父親說對不起上次是我搞錯了,我女兒真懷孕了。
說明什么呢?大數據時代,有可能這些店家,這些商家比你更了解你自己的需求,淘寶可能比你更知道你下面要買什么東西?;蛘哒f為什么我講說,未來所有的公司可能都是大數據公司。我剛才講的這三個例子和我們傳統講的IT沒有關系。
面對大數據,我們能做什么?
我們能做什么,或者需要做什么呢?第一個是數據的搜集,谷歌兩年前買了一個公司NEST30億美元,才100萬的用戶量,為什么呢?這是一個號稱智能空調的,在你房頂上裝一些東西,會提供家里WIFI功能,平時什么生活習慣知道,谷歌買了它,不是真正為了省那點電,他通過這個為了采集數據。
第二,數據的存儲,別小看這個。以前我們處理數據,想象的數據,文本的數據,圖象的數據,視頻的數據,其實相對來講都是還算是小的。你數據量大了以后怎么辦,怎么檢索,怎么存儲,都是一個挑戰。
當然還有一個很關鍵的,剛才我已經反復講了隱私性,還有一個數據的安全。數據安全又有兩個概念,第一個概念就是說數據最好不要泄露。你不能丟,我們將來說大數據,我們存在百度云盤上,這個丟了怎么辦或者說損壞了還能不能恢復,這些都是挑戰。
機器智能的三足鼎立
下面我們要講機器智能,產生機器智能三個要素第一個是摩爾定律,計算機多快,存儲量多大。大數據,我們思維方式變了。還有一個要有數學模型。因為計算機解決智能的方法和人不一樣,他不是思考,他是算,要算要有數學模型,機器智能將來是三足鼎立,你做其中任何一個,你可能將來在今后20年里都會是一個不錯的立足點。
比如說谷歌大腦,其實和人腦一毛錢關系沒有,這就是一個人工神經網絡,以前人工神經網絡在一臺機器上實現可能幾百個節點不錯了,現在一百萬臺機器上實現可以有幾萬個節點。把這個模型訓練的更加準確,計算機顯得比以前聰明了。
這個像語音識別的錯誤,大概從15%-16%,大概能夠降到12-13%,沒有改變方法,沒有改變數據量,只是機器學習這個東西做了一個改變,就有了提高。
有了這些東西,我們回頭看一開始我提出的圖靈測試的問題,讓計算機回答問題。這個事解決了,計算機跟人類同等智能了。2012年的時候我從騰訊回谷歌,我的老板,管整個谷歌搜索的高級副總裁,說你做什么事隨你,只有一個要求,這個事做完了以后,讓微軟要花五年時間來追趕我們。
后來我想了想這個事好象能做,這個事過去歷史上還沒有人做成功,讓計算機回答問題。比如天為什么是藍的?我們做了一年半,給出一個結果,你可以讀一下。這實際上是一個數據的完備性的問題。其實很多時候,這個答案在類似于某個網頁里面,我們只是做了什么事呢?把互聯網上所有的網頁,不是說跟我們問題有關的,而是所有的網頁都拿下來做語法的分析,這個計算量很大,這必須在谷歌才能完成。
之后拼湊答案,還有一些數學模型,保證拼出來的句子讀起來像英文句子。就是這樣幾件事,把一個所謂智能問題變成一個大數據的問題,這是一個很重要的一點,并不是說我們比別人聰明,而是完全換了一個思維方式。你不再按照人的方式要求他去解決這個智能問題,而是讓機器的方式來解決智能問題。
第二個例子,谷歌自動駕駛汽車,你可以看成是一個機器人,跑了將近20萬公里,沒有出一次交通事故。實際上不是當成一個智能問題,他是當成一個大數據問題,這個項目是谷歌街景項目一個延伸,這個車能去的地方是谷歌掃過街的地方。他實際上把開車問題,變成了大數據問題。
講到這里引發一個問題,智能的機器無所不在的,未來的世界是人在主宰還是機器來主宰,大家可能會有這樣一個問題。舉兩個例子,一是富士康有很多裝配工人,郭臺銘已經講了,不當血汗工廠,要研制機器人,讓機器替代人。
可能有人會說,反正我們不是生產線裝配工人,波及不到我們,我們就講兩個高大上職業。第一個是放射科醫生,這在美國是非常高大上職業,但未來放射科醫生可能是一個機器。比如說識別癌細胞的機器,準確率在很多地方已經超過醫生,而且他有一個非常大得好處,識別水平非常穩定。
未來的社會,由于機器智能和大數據,不僅僅是郭臺銘的生態線工人受影響,我們所有高大上職業也受影響。
未來的世界是什么樣的世界呢?第一條,機器其實是不會控制人類的,制造智能機器的公司和這些人,他們實際上是通過機器在控制人。這些人可能占人口很少數量,他們實際上是機器智能時代的受益者,其他人怎么辦呢?要不加入他們,要不然你成為98%,被2%的人控制。沒有選擇,你必須站在這個行業,而且你的思維方式一定是有變化的。
大數據思維——全面性+互聯互通
總結一下大數據的思維。大數據思維第一點,一個是全面性,他將來可以在大數據時代做任何事可以細到每一個人,每一個商品,每一筆交易。
這畫了一個酒吧臺,這是一個創業公司。他把前一家公司賣掉以后,花了兩年時間走訪了美國100多家酒吧,他就做這個調查,他發現了一個很有意思的事,這個酒吧的酒有24%是被偷喝掉了,什么意思呢?比如說研習社汪洋是我的朋友,他來找我,我說小子今天沒有事,來給你來兩杯酒不算你錢,倒了兩杯喝了。
他做了什么事呢?他把酒架子改造了,每一個酒瓶子下面貼一個特殊的傳感器,傳感器本身三毛錢,然后每一次倒出來,倒多少盎司,什么時候倒的,和移動互聯網是連著的,老板躺在家里看手機都知道什么交易。這就是大數據思維。
我們對比講過去的互聯網思維,這個很重要的是什么呢?實際上是一個互聯互通,不是簡單的把電子商務,說把商品原來在實體店,現在放到網上去。原來賣硬件的,也開始賣服務,事實上小米今天賣小配件掙的利潤比他賣手機要高的多,這是一個大數據思維,要把整個的商業模式都改過來。
版權聲明