一年一度的IDC DX Summit 數(shù)字化轉(zhuǎn)型大會聚焦 “數(shù)字競技,轉(zhuǎn)戰(zhàn)新常態(tài)”,邀請各行業(yè)領(lǐng)域頭部企業(yè)創(chuàng)始人和高管發(fā)表新見解,九章云極DataCanvas董事長方磊博士站在行業(yè)前沿視角,在會上發(fā)表精彩演講:數(shù)據(jù)科學(xué)賦能組織實(shí)現(xiàn)未來智能。
演講實(shí)錄:
大家好,我是九章云極DataCanvas董事長方磊,很高興能夠來到IDC DX Summit 跟大家一起分享今天的話題:數(shù)據(jù)科學(xué)賦能組織實(shí)現(xiàn)未來智能。今天我的話題主要分為四個(gè)部分,第一部分是未來智能化組織是什么樣的,第二部分是關(guān)于數(shù)據(jù)科學(xué)平臺本身的發(fā)展,第三部分是數(shù)據(jù)科學(xué)平臺如何提升工作效能,和最后一部分AI著重解決的三大要素。
一、 未來智能化組織是什么樣的
那么未來的智能化組織會是什么樣的一個(gè)情況?我們看到了三大特征趨勢。
第一趨勢是IT+DT+業(yè)務(wù)的融合 。在過去的40年里,以IT為代表的整個(gè)流程的自動化,其實(shí)在很多的組織,特別是大型組織已經(jīng)有很高的滲透率了。以最近10年為代表的DT也就是數(shù)字技術(shù)的進(jìn)展,在很多的大型企業(yè)也有了很好的開端。最近我們看到對于智能化的組織未來10年、20年的發(fā)展趨勢,是IT、DT和業(yè)務(wù)的界限會相對的變得模糊:IT部門同樣要對業(yè)務(wù)的指標(biāo)負(fù)責(zé),而業(yè)務(wù)部門也要對IT、DT的技術(shù)直接使用和提供支撐。
第二個(gè)趨勢是關(guān)于創(chuàng)新方式的變化 。以往的創(chuàng)新方式有很多是由上而下的,有些甚至是以主要領(lǐng)導(dǎo)為驅(qū)動的一種戰(zhàn)役型的方式來推進(jìn)。但現(xiàn)在我們看到的一個(gè)趨勢是很多創(chuàng)新方式是bottom up而不是top down的方式,它們自發(fā)地出現(xiàn)在很多業(yè)務(wù)的點(diǎn)上,用小步快跑的方式,通過在一些業(yè)務(wù)點(diǎn)上使用新的技術(shù)、新的理念來實(shí)現(xiàn)業(yè)務(wù)的增長。這樣一種“星星之火,可以燎原”的創(chuàng)新方式,正在成為智能化組織的一個(gè)顯著特征,這樣的方式也更加靈活、更加敏捷。
第三個(gè)趨勢是基礎(chǔ)設(shè)施的變化,主要來自于兩個(gè)方面 。一個(gè)方面是技術(shù)本身的進(jìn)展,從10年前開始,整個(gè)云從公有云到混合云,發(fā)展到今天的容器化(cloud native云原生);同時(shí)大數(shù)據(jù)基礎(chǔ)架構(gòu)的技術(shù)從早期的Hadoop數(shù)據(jù)湖到今天大量的AI智能化算法的演進(jìn)……技術(shù)本身帶來了基礎(chǔ)設(shè)施的很多變量。
另一方面,基礎(chǔ)設(shè)施在技術(shù)進(jìn)展的主線之下,還有一個(gè)驅(qū)動力來自于前面提到的兩種趨勢(IT、DT和業(yè)務(wù)融合以及創(chuàng)新方式的變化),這兩種趨勢要求基礎(chǔ)設(shè)施更加敏捷、更加accessible,來支撐所有創(chuàng)新的嘗試和融合。為了創(chuàng)新而直接去改變IT數(shù)據(jù)中心的某些服務(wù),這是一個(gè)業(yè)務(wù)部門在以前很難想象的,但是在今天隨著整個(gè)基礎(chǔ)設(shè)施的升級,云原生技術(shù)、微服務(wù)技術(shù)以及大量的智能建模的技術(shù),都可以讓業(yè)務(wù)和DT部門一起直接在數(shù)據(jù)中心進(jìn)行業(yè)務(wù)的服務(wù)升級。
不管是技術(shù)的進(jìn)展,流程的升級,還是創(chuàng)新方式的變化,“人”都是最重要的核心的生產(chǎn)因素。所以當(dāng)一個(gè)組織變成一個(gè)智能化組織的時(shí)候,“人”一樣還是最重要的需要升級的生產(chǎn)因素。
那么對于一個(gè)智能化組織來說,它對于將來的員工、將來的核心資產(chǎn)有什么樣的期望或者伴隨出現(xiàn)的需求是怎么樣的呢?第一點(diǎn)是所謂的復(fù)合型技能 。在今天一個(gè)創(chuàng)新的、智能化的組織里面,對人的要求可能是多方面的,剛才提到的IT、DT和業(yè)務(wù)的融合,其實(shí)也體現(xiàn)了這一點(diǎn),你不但要懂?dāng)?shù)據(jù),同時(shí)還要懂業(yè)務(wù),可能還需要懂一些編程,擁有這種復(fù)合的技能才能讓你在創(chuàng)新涌動的環(huán)境里去成為智能化組織的一部分。
第二點(diǎn)隨之而來的是工具的運(yùn)用 。當(dāng)對一個(gè)人的要求如此之高,我們知道單一技能是相對比較容易的,如果需要你去開車你可以學(xué)開車,但同時(shí)需要你開車、開飛機(jī)甚至去作畫,一般人是有一點(diǎn)望而卻步的。那么在這種復(fù)合技能的需求下,專業(yè)工具的空間就應(yīng)運(yùn)而生了。每一個(gè)職業(yè)的技能其實(shí)代表著一整套的方法論和具體操作要求,專業(yè)的工具本質(zhì)上是在沉淀方法論的同時(shí),讓你的技能可以更有效率地發(fā)揮出來。所以越需要復(fù)合技能人才的智能型組織,它對專業(yè)工具的依賴也是大大加深的。
第三點(diǎn),“協(xié)作”成為一個(gè)普適性的需求 。Collaboration,我們稱之為一個(gè)核心需求,是fundamental的。我們知道從Slack為代表的協(xié)同辦公軟件開始到今天,各行各業(yè)都在廣泛地讓協(xié)同協(xié)作成為一個(gè)基礎(chǔ)性的需求。這是因?yàn)榧热晃覀兌加袕?fù)合型的技能,既然我們要有各種廣泛的創(chuàng)新,而且每個(gè)人都使用自己的專業(yè)工具,那么他們怎么形成一個(gè)合力,就變成了一個(gè)很有挑戰(zhàn)的問題。所以專業(yè)工具的協(xié)同性功能的提供,甚至跨領(lǐng)域不同行業(yè)的協(xié)同功能的提供,其實(shí)是一個(gè)非常核心的需求。這就是我們看到的對于智能組織里面“人”成為最重要的生產(chǎn)因素以后,有這三個(gè)方面的需求。
二、 數(shù)據(jù)科學(xué)平臺的發(fā)展
第二部分我想談一下數(shù)據(jù)科學(xué)平臺本身的發(fā)展。大概在2012年數(shù)據(jù)科學(xué)被稱為最性感的詞匯,到2015年中國有了第一所高校設(shè)立數(shù)據(jù)科學(xué)專業(yè),再到2018年超過200所高校設(shè)立數(shù)據(jù)科學(xué)專業(yè)以來,數(shù)據(jù)科學(xué)其實(shí)經(jīng)歷了一個(gè)比較完整的從實(shí)驗(yàn)室到生產(chǎn)化的過程,數(shù)據(jù)科學(xué)在企業(yè)中的應(yīng)用也是follow了相同的邏輯。
早期的時(shí)候,數(shù)據(jù)科學(xué)家可能還是一個(gè)高高在上的頭銜,但現(xiàn)在門檻已經(jīng)越來越低。很多小朋友通過參加Python的培訓(xùn)班,各個(gè)年齡段的學(xué)生通過在校學(xué)習(xí),都掌握了或多或少的數(shù)據(jù)科學(xué)的一些技能;包括已經(jīng)在職場的社會人士,他們也會參加一些新的培訓(xùn),讓自己掌握數(shù)據(jù)科學(xué)相應(yīng)的技能。有一個(gè)看法說除了你的智商,你的情商,將來還有一個(gè)“數(shù)商”——你對數(shù)據(jù)的敏感度,對數(shù)據(jù)科學(xué)一些技能的掌握情況。
數(shù)據(jù)科學(xué)在企業(yè)里面最開始還是從數(shù)據(jù)科學(xué)家工作臺的方式滲入的。當(dāng)企業(yè)面臨一個(gè)業(yè)務(wù)挑戰(zhàn),比如想挽回流失的客戶,想向已有客群推薦更多的金融產(chǎn)品,就會面臨著我們稱為AI建模 的工作。當(dāng)進(jìn)行AI建模工作的時(shí)候,需要做大量的AI數(shù)據(jù)準(zhǔn)備,這些工作基本都是在數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師或者算法人員的工作范圍內(nèi)進(jìn)行的,他們會使用專業(yè)的工具來完成這個(gè)過程,這個(gè)專業(yè)工具的類別就叫做數(shù)據(jù)科學(xué)家工作臺。簡而言之,這是一個(gè)相對來說在一個(gè)比較實(shí)驗(yàn)室的、一個(gè)開發(fā)的環(huán)境里完成的。
那么初期的一些創(chuàng)新往往圍繞著工作臺的方式來進(jìn)行,但是一個(gè)智能化的組織不會局限于創(chuàng)新的嘗試或者在實(shí)驗(yàn)室做一些創(chuàng)新,它要全面地完整地使用創(chuàng)新能力,就一定要讓生產(chǎn)系統(tǒng)完成智能化改造 。比如你的營銷名單能夠進(jìn)入生產(chǎn)系統(tǒng),實(shí)時(shí)地被APP調(diào)用,那么你的客戶就可以實(shí)時(shí)接收個(gè)性化的推薦;再比如你完成了一個(gè)反洗錢的系統(tǒng),在你的交易系統(tǒng)里每一筆交易發(fā)生時(shí),系統(tǒng)能夠?qū)崟r(shí)地調(diào)用模型來判斷這筆交易是不是一筆盜刷,是不是一筆黑錢,是不是一個(gè)要攔截的行為。我們從今天AI模型的進(jìn)展看到,數(shù)據(jù)科學(xué)家的工作已經(jīng)從實(shí)驗(yàn)室一些比較創(chuàng)新的點(diǎn)變成了一個(gè)普遍的生產(chǎn)化的系統(tǒng),這一點(diǎn)是有重大意義的。
我們有一個(gè)簡單的小結(jié),在過去40年,軟件核心系統(tǒng)完成的是“流程自動化”,那么在接下來的20年甚至更長的時(shí)間里,軟件系統(tǒng)會完成“決策自動化”,決策自動化集中體現(xiàn)的就是數(shù)據(jù)科學(xué)在企業(yè)中的應(yīng)用,也就是從實(shí)驗(yàn)室到生產(chǎn)系統(tǒng)當(dāng)中去。
那么在全面地把數(shù)據(jù)科學(xué)落實(shí)到生產(chǎn)系統(tǒng)來改善業(yè)務(wù)的同時(shí),一定會碰到一些挑戰(zhàn)。其中一個(gè)非常突出的挑戰(zhàn)——不是技術(shù)的挑戰(zhàn),而是業(yè)務(wù)的挑戰(zhàn)——我們稱之為知識融合 。
我們都知道在每個(gè)行業(yè)、每一個(gè)生產(chǎn)環(huán)境、每一個(gè)業(yè)務(wù)環(huán)境當(dāng)中,都存有知識。知識的存在其實(shí)是業(yè)務(wù)經(jīng)驗(yàn)的總結(jié),以及“人”在過去實(shí)踐中的經(jīng)驗(yàn)總結(jié)。舉一個(gè)很簡單的例子,比如說我們“人”都知道,當(dāng)一個(gè)交易發(fā)生在夜間,或者在一個(gè)不上班的時(shí)間發(fā)生高頻轉(zhuǎn)賬交易,往往是一些異常的信號,這個(gè)里面其實(shí)就牽涉到一個(gè)知識。這個(gè)知識是如此的顯而易見,以至于很多人都忽視了。我們可以想象一下,一個(gè)只有算法大腦的外星人,看到我們的交易時(shí)間,他只能知道這是一個(gè)時(shí)間,這在宇宙當(dāng)中是普適的,但他不知道的是地球上是要放假的,我們?nèi)耸且X的。所以這樣一個(gè)非常淺顯的常識,對于算法的事件來說它是認(rèn)識不到的。
世界上有很多這樣的知識、常識,比如地球是有重力的,比如我們是需要休息的,比如在很多金融交易當(dāng)中跨境結(jié)算是需要時(shí)間的,如此等等大量的知識,這就構(gòu)成了當(dāng)你使用機(jī)器學(xué)習(xí)等人工智能算法去解決業(yè)務(wù)問題的時(shí)候,你需要融合這些知識,這就是知識融合。
剛才提到了數(shù)據(jù)科學(xué)平臺自動化的技術(shù),其實(shí)自動化技術(shù)的核心,就是如何大幅度降低人對知識和技術(shù)的依賴。在“人”在智能組織的核心作用的部分我提到過很重要的一點(diǎn),就是復(fù)合型人才需要依賴工具,那么依賴工具其實(shí)就降低了他對某些知識和培訓(xùn)以及反復(fù)工作的依賴。我們的DataCanvas數(shù)據(jù)科學(xué)平臺產(chǎn)品通過自主研發(fā)的“四庫”——特征倉庫、算子倉庫、場景倉庫和AutoML倉 庫 ,可以在各個(gè)維度上降低數(shù)據(jù)科學(xué)團(tuán)隊(duì)對于特定知識和技術(shù)的依賴。
比如對于一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的成員,他可能要懂技術(shù)、要懂?dāng)?shù)據(jù)、要懂業(yè)務(wù)、要懂機(jī)器學(xué)習(xí),還要懂編碼,所有這些知識都是非常復(fù)雜和專業(yè)的,那么對于團(tuán)隊(duì)當(dāng)中不同的角色,數(shù)據(jù)科學(xué)家、平民數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)工程人員,以及算法運(yùn)維(Machine Learning OPS)人員,他們對不同維度的知識都有不同的需求,數(shù)據(jù)科學(xué)平臺發(fā)展到現(xiàn)在,不論是它的協(xié)作特性,還是自動化特性,都可以極大地降低團(tuán)隊(duì)對特定知識的依賴,提升他們的效率。
三、 數(shù)據(jù)科學(xué)平臺如何提升工作效能
當(dāng)我們團(tuán)隊(duì)的成員都通過先進(jìn)的自動化技術(shù),在經(jīng)歷了數(shù)據(jù)科學(xué)團(tuán)隊(duì)的四個(gè)階段(上圖)以后,達(dá)到了大規(guī)模落地,我們能看到它帶來什么樣的效果。
數(shù)據(jù)科學(xué)是圍繞數(shù)據(jù)利用AI算法進(jìn)行場景落地的一門科學(xué),在這個(gè)過程中它通過團(tuán)隊(duì)內(nèi)和團(tuán)隊(duì)間的協(xié)作,特別是數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)的協(xié)作,建立了人和人的關(guān)系;通過數(shù)據(jù)模型構(gòu)建和算法,建立了數(shù)據(jù)和模型的關(guān)系;最后通過開放性的接口,讓AI能力最終融入到業(yè)務(wù)系統(tǒng)當(dāng)中,建立了模型和軟件的關(guān)系??偨Y(jié)來說就是協(xié)作特性建立了人和人的關(guān)系,訓(xùn)練能力和算法建立了數(shù)據(jù)和模型的關(guān)系,開放性接口建立了模型和軟件的關(guān)系 。所以數(shù)據(jù)科學(xué)平臺在將來整個(gè)IT和DT的大地圖當(dāng)中,處于一個(gè)非常核心的位置。它通過開放、協(xié)作等特性,讓數(shù)據(jù)、模型和軟件建立一個(gè)有機(jī)的組合。
四、 智能化組織著重解決的三大要素
朝未來的方向去看,數(shù)據(jù)科學(xué)著重解決的AI問題會有三個(gè)重要的要素:數(shù)據(jù),算力和算法。
對于數(shù)據(jù) 來說,我們知道一個(gè)組織有大量的數(shù)據(jù)積累,數(shù)據(jù)事實(shí)上是企業(yè)的生命線。對于算法,先進(jìn)的算法可以讓我們在數(shù)據(jù)上完成各種以前不可能的任務(wù),來促進(jìn)業(yè)務(wù)的增長。第三個(gè)要素是算力,代表了今天在先進(jìn)算法之下所需要的大量的計(jì)算消耗,它來自于硬件的供應(yīng),很多來自于CPU、GPU、FPGA和各種各樣專門的ASIC芯片。我們可以理解為,當(dāng)我們有了新的計(jì)算pattern以后,全世界的硬件生產(chǎn)出來就是要被軟件所消耗,所以硬件是提供算力的,但這些算力要適配這些軟件所做的工作。我們相信,數(shù)據(jù)科學(xué)團(tuán)隊(duì)在未來將會消耗這個(gè)世界上絕大多數(shù)被產(chǎn)生出來的算力,所以它處于未來企業(yè)作為智能化組織轉(zhuǎn)型的一個(gè)核心地位。
在數(shù)據(jù)方面我們看到將來的一個(gè)趨勢,我們稱為安全計(jì)算或者聯(lián)邦學(xué)習(xí) 的特性,簡單來說就是數(shù)據(jù)在多方可以產(chǎn)生一些協(xié)作。
在今天,國家對于數(shù)據(jù)的隱私保護(hù)是非常嚴(yán)格的,你不能非法買賣數(shù)據(jù),但在現(xiàn)實(shí)中我們也知道數(shù)據(jù)的價(jià)值在于流通、在于鏈接,那么怎么解決這個(gè)問題?數(shù)據(jù)是不可以互相看見的,那能不能在不看見對方數(shù)據(jù)的前提下,利用算法和一些先進(jìn)的技術(shù)聯(lián)合來建立模型,這些聯(lián)合建立的模型對于數(shù)據(jù)方和需求方都能夠產(chǎn)生價(jià)值。舉一個(gè)非常適合于多方數(shù)據(jù)聯(lián)合建模的場景例子,當(dāng)銀行對一些小微企業(yè)進(jìn)行放貸的時(shí)候,如果能知道小微企業(yè)在業(yè)務(wù)上、進(jìn)出口上,甚至在一些法律風(fēng)險(xiǎn)上,有沒有一些數(shù)據(jù)的輸入會直接決定風(fēng)險(xiǎn)模型的精準(zhǔn)度,以及整個(gè)放貸過程中對風(fēng)險(xiǎn)的控制。但是我們出于隱私的考慮,也不能簡單地將數(shù)據(jù)拷貝和匯總,就出現(xiàn)了多方數(shù)據(jù)聯(lián)合建模的需求。
那么通過聯(lián)邦學(xué)習(xí)以及多方安全計(jì)算的特性,不管是使用同態(tài)加密的算法,還是MPC的算法,我們都可以保證能夠安全地、不泄密地讓多方數(shù)據(jù)聯(lián)合建立模型,完成以前單方數(shù)據(jù)所不能完成的任務(wù)。
那么在算法上的演進(jìn),我們判斷大的趨勢是基于自動機(jī)器學(xué)習(xí)的持續(xù)推進(jìn)。上圖展示了DataCanvas自動機(jī)器學(xué)習(xí)的進(jìn)展?fàn)顟B(tài),非常像自動駕駛,我們把它分為5檔。第0檔就是沒有自動化,在2015年左右自動機(jī)器學(xué)習(xí)剛剛起步;到2016年,DataCanvas開始大量采用我們稱為level one的自動機(jī)學(xué)習(xí)技術(shù);在2019年我們使用的自動結(jié)構(gòu)化深度學(xué)習(xí)工具DeepTables,在結(jié)構(gòu)化數(shù)據(jù)上廣泛使用了深度學(xué)習(xí)的技術(shù),也取得了非常好的效果。到今年,DataCanvas的產(chǎn)品已經(jīng)全面轉(zhuǎn)向了基于深度神經(jīng)網(wǎng)絡(luò)自搜索的自動學(xué)習(xí)技術(shù),這樣的技術(shù)可以在結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)上都產(chǎn)生非常好的性能表現(xiàn)。
那么Auto Machine Learning和Auto Deep Learning這樣的一個(gè)像自動駕駛一樣的分檔圖,可以讓我們很清晰地看到在數(shù)據(jù)科學(xué)團(tuán)隊(duì),自動化是如何一步一步的深入,最終會完成一個(gè)非常低門檻,但是精準(zhǔn)度很高的模型的構(gòu)建。
那么最后一塊我們來看算力,算力實(shí)現(xiàn)的其實(shí)是如何高效調(diào)度所有的計(jì)算硬件 。我們知道計(jì)算硬件已經(jīng)出現(xiàn)了CPU、GPU、FPGA以及各種各樣的加速硬件,這些硬件是異構(gòu)的,對于硬件異構(gòu)的管理,這是一個(gè)非常大的課題。新的數(shù)據(jù)中心里不單是CPU和GPU,還有很多新的硬件的出現(xiàn),如何高效地管理這些硬件,對于一個(gè)智能組織也是非常核心的課題。
另外我們還看到了關(guān)于算力硬件的虛擬 。因?yàn)樵谠频臅r(shí)代,一個(gè)硬件不再是獨(dú)占式的,而是有可能被各種各樣的工作載荷來復(fù)用,包括我們多機(jī)多卡的加速訓(xùn)練以及推理的硬件加速,所以提高算力的利用率也是數(shù)據(jù)科學(xué)平臺提供給數(shù)據(jù)科學(xué)團(tuán)隊(duì)的一項(xiàng)很大的benefit。這樣對于數(shù)據(jù)科學(xué)家來說,可以把更多的注意力集中在模型的構(gòu)建上,而無需關(guān)心算力的利用率的提高。
總結(jié)來說,我們認(rèn)為將來每個(gè)公司都會是軟件公司 ,我們也認(rèn)為每個(gè)部門都會是數(shù)據(jù)科學(xué)的部門,這意味著IT、DT和業(yè)務(wù)的融合,也意味著一些復(fù)合型人才的需求。這樣一個(gè)巨大的機(jī)會,是AI在所有業(yè)務(wù)上滲透所帶來的必然結(jié)果,我們也相信DataCanvas makes it happen 。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!