2017年10月27日,易觀A10大數(shù)據(jù)應(yīng)用峰會在北京召開,本次峰會以“數(shù)以致用 源力覺醒”為主題。大會邀請到國內(nèi)互聯(lián)網(wǎng)行業(yè)領(lǐng)袖大咖,以及來互聯(lián)網(wǎng)、傳統(tǒng)企業(yè)、媒體及資本領(lǐng)域在內(nèi)的3000多位與會者,共同喚醒“數(shù)字源力”,讓用戶數(shù)據(jù)價值得到充分釋放和利用。
在27日下午的舉行用戶場景平行論壇上,科大訊飛大數(shù)據(jù)研究院副院長譚昶做了題為《訊飛大數(shù)據(jù)實踐》的演講。在譚昶看來,人工智能和大數(shù)據(jù)的終極目的,是讓人們的生活變得更簡單輕松,這也是訊飛大力發(fā)展該領(lǐng)域的主要目的。以下為其演講實錄:
大家好,先花一點時間介紹一下科大訊飛是一家什么樣的公司,大家可能都已經(jīng)比較熟悉。我們是國內(nèi)在A股上市公司的人工智能領(lǐng)域的標(biāo)桿企業(yè),我們現(xiàn)在的市值達(dá)到700個億,我們自己認(rèn)為是人工智能的先行者。訊飛自己的公司的使命是什么?我們定義成這樣一句話:“讓機(jī)器能聽會說,能理解會思考,用人工智能來建設(shè)美好世界!”分成了三個部分,第一句話是我們訊飛成立的初心,做智能語音,做中國最好的智能語音,機(jī)器說,機(jī)器聽,這樣就能同人和人的方式相比較。
到了后來,我們發(fā)現(xiàn)智能語音技術(shù)實際上是人工智能的一個非常重要的組成部分,人工智能在人機(jī)交互這個層面上最重要的在干什么,要有認(rèn)知能力,要能理解、能思考,這樣的話人工智能才能真正地應(yīng)用到我們的生產(chǎn)生活實踐里邊去。
之后我們要做什么?人工智能還應(yīng)該幫助人的最終目的是建設(shè)一個更加美好的世界,讓每個人的工作生活變得更加輕松愉快。
大家會問一個問題,人工智能公司跟大數(shù)據(jù)到底什么關(guān)系?我希望用這頁P(yáng)PT把這個問題非常簡單的回答,我們訊飛自己做的工作,訊飛輸入法有語音識別能力,只要對它說比較標(biāo)準(zhǔn)的普通話一分鐘400個字,怎么實現(xiàn)的呢?
深度神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的重要組成部分,它需要海量的數(shù)據(jù)據(jù)訓(xùn)練,這個訓(xùn)練過程里面我們一般來說十萬小時左右的有標(biāo)準(zhǔn)語音數(shù)據(jù)一定要輸入進(jìn)去,經(jīng)過我們的人工智能專家、大數(shù)據(jù)專家的工作,得到了非常良好的語音識別模型,這個模型要放在實驗室睡覺嗎?或者參加一些比賽,一定不是,我們放到訊飛開放平臺里面,我們開放平臺里面還有其他很多產(chǎn)品,機(jī)器人、音箱、電視搖控器這樣的產(chǎn)品,每個人說的話都要經(jīng)過這樣的開放平臺,經(jīng)過用人工智能的技術(shù)把它轉(zhuǎn)變成文字,而且這個識別率、處理能力識別率達(dá)到97%,這個過程的兩個階段,第一個人工智能的自學(xué)習(xí)過程里面離不開大數(shù)據(jù),這個叫做大數(shù)據(jù)能夠讓人工智能更加的智能。還有一句話,原來的語音數(shù)據(jù)沒有人工智能的時候沒辦法,數(shù)億人海量的數(shù)據(jù)怎么去聽,人工智能讓非結(jié)構(gòu)化的數(shù)據(jù)能夠被處理,價值就產(chǎn)生了,大數(shù)據(jù)可以讓人工智能更加的智能。
展開一點講,大數(shù)據(jù)和人工智能的關(guān)系,深度神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)之間形成了緊密結(jié)合才能成為我們讓算法、模型取得一個良好效果的主流路徑,還離不開更多的數(shù)據(jù),我們有時候叫做數(shù)據(jù)閉環(huán),在訊飛內(nèi)部叫做漣漪效應(yīng),一滴水打入一個平靜的水平,技術(shù)在擴(kuò)散,水的波浪在不斷的擴(kuò)散,你要不斷的收集數(shù)據(jù)改進(jìn)你的技術(shù),如果你的技術(shù)改進(jìn)速度比擴(kuò)散速度慢,最新進(jìn)來的用戶就會感覺到速度很慢。我們叫做研究、工程、產(chǎn)生、用戶閉環(huán)迭代優(yōu)化的過程。
人工智能成功了,大數(shù)據(jù)能不能成功,大數(shù)據(jù)為什么要有價值?如果大數(shù)據(jù)放在那里站著,我們怎么樣把這個數(shù)據(jù)價值挖掘出來,我做數(shù)據(jù)科學(xué)家,建大數(shù)據(jù)平臺,為結(jié)構(gòu)化的數(shù)據(jù)如果想更好的處理分析的話,最好要有人工智能手段做一些比較復(fù)雜的挖掘或者說分析的過程,轉(zhuǎn)變?yōu)槿菀滋幚淼臄?shù)據(jù)。這個過程三個階段,采集數(shù)據(jù),分析數(shù)據(jù),深度的洞察使用數(shù)據(jù),三個過程里面有三個訊飛小產(chǎn)品來介紹一下,人工智能技術(shù)已經(jīng)深入到我們?nèi)ミM(jìn)行數(shù)據(jù)價值挖掘的各個領(lǐng)域及各個階段。
比如,我們現(xiàn)在有訊飛聽見產(chǎn)品,所定即所見,所有的語音別轉(zhuǎn)化為文字,被方便的處理。這是采集過程。在分析過程里面,剛才看到了趙總,我們能夠把學(xué)生的過程數(shù)據(jù),比如人臉,老師講課全部轉(zhuǎn)換為標(biāo)準(zhǔn)化結(jié)構(gòu)化的數(shù)據(jù),訊飛同樣也有,我們也可以通過學(xué)生學(xué)習(xí)過程數(shù)據(jù)的分析進(jìn)行個性化學(xué)習(xí)。還有一個層次洞察,最常用的洞察我到底能不能通過我的數(shù)據(jù)獲得商業(yè)價值,獲得廣告上的商業(yè)價值,我們有自己的廣告平臺,也是人工智能開放服務(wù)過程里面收集到的用戶行為數(shù)據(jù)。
有了這樣的一個分析和認(rèn)知之后,人工智能和大數(shù)據(jù)的緊密結(jié)合的,訊飛如果想讓數(shù)據(jù)產(chǎn)生更大的價值,讓我們自己公司取得的更大的商業(yè)上成功,必須把大數(shù)據(jù)和人工智能融合貫穿,怎樣一步一步的實現(xiàn)呢?對于大數(shù)據(jù)能力的簡單理解:首先你有沒有大數(shù)據(jù)資源;其次,對于大數(shù)據(jù)的資源有沒有足夠好的分析處理能力,也就是我們的工具,你要挖金礦就要有錘子和鋤頭,大數(shù)據(jù)平臺就是這樣的工具。
在工具和數(shù)據(jù)之上我們首先要服務(wù)自己的業(yè)務(wù)。現(xiàn)在的思路我要把這個東西做深加工,先服務(wù)的業(yè)務(wù),在消費(fèi)者領(lǐng)域、APP怎么樣服務(wù)更多更好的服務(wù)別的用戶,我在教育領(lǐng)域怎么樣讓學(xué)生學(xué)習(xí)更輕松,這些過程都是業(yè)務(wù)本身的改進(jìn)。再向上才是像廣告、征信這樣的大數(shù)據(jù)業(yè)務(wù)的能力,基于已有的數(shù)據(jù)創(chuàng)造一個以前不能做的業(yè)務(wù),最典型的就是廣告。
我們復(fù)盤一下訊飛有沒有這個能力?大數(shù)據(jù)資源我們有人工開放平臺,截止2017年9月我們已經(jīng)覆蓋了15.9億的終端設(shè)備,每天形成40億次的使用次數(shù),包括45萬的第三方團(tuán)隊,比如京東上面的客服機(jī)器人聊天,也是我們的語音識別自然語音處理的能力提供的,這都是大數(shù)據(jù)相關(guān)的。小的比較有趣的是,我們看到一個一個快遞員最重要的事情打電話,你的快遞到什么地方了過來拿,這個過程里面我們發(fā)現(xiàn)開發(fā)者做了非常小的產(chǎn)品,對著手機(jī)說出號碼自動撥號,我現(xiàn)在兩個手拿兩個設(shè)備,沒有辦法拿第三個設(shè)備或者撥號,我的嘴可以說。這樣很小的產(chǎn)品已經(jīng)極大地方便了很多人的工作和生活。
在一個開放平臺之外,我們還在非常多的領(lǐng)域做深耕,比如汽車領(lǐng)域,汽車語音套件95%的市場份額,智能家具產(chǎn)品已經(jīng)有3000多個合作伙伴。工具不展開介紹了,這樣一個平臺我們每天處理15000個任務(wù),100TB的數(shù)據(jù),演奏出美妙的數(shù)據(jù)音樂,這個平臺要完成收集、存儲、計算,不僅對外部,還是對公司各個業(yè)務(wù)部門提供數(shù)據(jù)服務(wù)能力,更加簡便的方法,讓所有的用戶去使用公司的大數(shù)據(jù)。
在平臺數(shù)據(jù)之外我們要有人,我們也邀請了非常多的數(shù)據(jù)科學(xué)家作了產(chǎn)學(xué)研的合作,有了數(shù)據(jù)、平臺、人,下面訊飛就一定是一帆風(fēng)順的?所有的大數(shù)據(jù)就迎刃而解?我們干不了這個事情。上午的時候很多嘉賓提到了我們做大數(shù)據(jù)也要深耕行業(yè),一定要依靠行業(yè)里面的深耕扎根下去,才能取得差異化的優(yōu)勢、取得真正的勝利,把這些東西加起來以后最終的目的是獲得商業(yè)價值,商業(yè)價值的體現(xiàn)有很多種,挖掘出來知識,產(chǎn)生新的產(chǎn)品,所有我們會進(jìn)行一些企業(yè)內(nèi)部的流程機(jī)制改造升級,都是產(chǎn)生價值的過程。
訊飛在哪些方面產(chǎn)生具體的價值?簡單講三個案例,看起來也非常簡單,第一個精準(zhǔn)營銷,這個事太普通了,訊飛已經(jīng)把自己的數(shù)據(jù)用好了,把數(shù)據(jù)變成了廣告上的精準(zhǔn)投放,變成了推薦過程里面的精準(zhǔn)推薦,讓大家享受到比較優(yōu)質(zhì)的服務(wù)。另外兩個層面是訊飛比較獨(dú)特的對于數(shù)據(jù)的深耕和探索,怎么樣把大數(shù)據(jù)的能力、人工智能能力賦能到教育領(lǐng)域、智慧城市的政務(wù)服務(wù)以及交通領(lǐng)域。
第一個叫做訊飛廣告平臺,這個廣告平臺不做更細(xì)的展開,SSP、ADX、DMP,訊飛的大數(shù)據(jù)的價值已經(jīng)孵化出來了,訊飛自己的大數(shù)據(jù)每天40億次的交互,每天100個TB的交量,這些數(shù)據(jù)的價值被費(fèi)用覆蓋掉了,我們可以去做更多的事情,大數(shù)據(jù)業(yè)務(wù)回過頭來反饋業(yè)務(wù)大數(shù)據(jù)的發(fā)展。我們兩千多個標(biāo)簽覆蓋15億終端設(shè)備,獨(dú)立用戶識別出來10億左右。
這個領(lǐng)域訊飛也做了一些自己的技術(shù)能做的事情,一個是對于自然語言的理解,語音第一步處理出來就是自然語言,自然語言對它進(jìn)行深刻理解才叫人工智能,理解的過程可能有簡單一點的,比如同樣兩個人談汽車,關(guān)鍵做出來兩個人有什么區(qū)別,一個人可能有車,有車談怎么養(yǎng)車,出了事故怎么樣。另外一個人還沒車,就說這個車什么顏色,什么配置,這個車價錢怎么樣,有沒有促銷。微車做汽車金融服務(wù)的時候,我現(xiàn)在要做有車的人賣保險,做沒車的人推銷二手車,這兩人區(qū)分非常有意義,廣告投放更加精準(zhǔn)。
更直接的人工智能相關(guān)的技術(shù),我們做一些生活語音方面的分析之后,男性和女性的差異非常精準(zhǔn)的趣聞出來,大家使用用戶行為手段,比如上網(wǎng)香水,男人給女人買,看一些軍事、歷史方面的書籍,也不是那么準(zhǔn)確,都沒有你對著手機(jī)說一句話我就能知道,男女都能知道,有價值的信息就被人工智能挖掘出來了。挖掘出來之后怎么辦?我們給自己的產(chǎn)品也試了一下,發(fā)現(xiàn)這種精準(zhǔn)營銷的東西非常有威力,比如我們推出了訊飛翻譯機(jī),我們打廣告的時候第一反應(yīng)大家出國旅游基本要買翻譯機(jī),一打廣告效果不理想。
我們做深度的分析,第一個留學(xué)人群代表什么?并不是中國人到外國學(xué)習(xí),而是老外到中國來,他們會先買翻譯機(jī),我不會說中文,我會說英語就行,拿翻譯機(jī)一說能跟中國人順暢交流。其次是翻譯人群,有些人要做翻譯工作的時候拿翻譯機(jī)減少很多工作量,出國旅游人很多,并不是所有的出國旅游人都會去買翻譯機(jī),坐飛機(jī)的時候才會去買翻譯機(jī)。這是旅游的,再往下外語培訓(xùn)的人群,小朋友們不僅僅依靠真人老師學(xué)習(xí),該可以依靠機(jī)器的老師來學(xué)習(xí)。這個過程里面有非常好的效果,從我們的10億用戶里面篩出來一千萬人群,投放效果4.61%,比一般手段1%的的投放效果要好。我們給京東、2345做效果投放基本上都能收到非常好的效果回升,訊飛很多標(biāo)簽是別的公司做不出來的,拿不出來,因為他們沒有。
在教育方面,剛才大家已經(jīng)聽了很多的科普,我就不展開了,最簡單的,無論什么樣的教育方式,最終的目的通過數(shù)據(jù)分析學(xué)生學(xué)的怎么樣,老師教的怎么樣,家長、教學(xué)主管部門,學(xué)校對于老師和學(xué)生的過程非常的感興趣,有一些問題,我們在線的MOOC教育非常簡單,但是在中國廣大學(xué)校、每個教室里頭大家學(xué)習(xí)的手段,老師的教案是紙的,作業(yè)還是紙的,這些數(shù)據(jù)能不能利用起來?怎么解決?
并不是大數(shù)據(jù)就能解決這個問題,先用人工智能解決數(shù)據(jù)采集的問題,我們用手寫識別,第二步是老師改試卷,一場月考一千人的考試,可能整個年級組要花四五個小時,這樣的工作能不能變成機(jī)器的工作,以后老師的時間被解放出來了,可以更高的備課,可以用人工智能手段,不僅可以把試卷掃描出來,把文字轉(zhuǎn)化成機(jī)器可以理解的自然語言,而且可以對自然語言做深度的分析,對語文、英語、數(shù)學(xué),無論是作文還是公式都可以直接告訴你做錯了還是做對了,作文好不好,有沒有排比句,有沒有比喻,甚至有沒有抄襲,這是機(jī)器的特性。效果不展開講了,無論在今年高考里面,還是研究生里面我們都做了相應(yīng)的驗證,教育部考試中心非常認(rèn)可,認(rèn)為人、老師、和機(jī)器結(jié)合起來,這種產(chǎn)生的效果可能遠(yuǎn)遠(yuǎn)優(yōu)于人和人之間的合作。
我們這個產(chǎn)品叫做全學(xué)科閱卷,只要這個字老師能認(rèn)機(jī)器也能認(rèn)。有了這樣數(shù)據(jù),下一步分析學(xué)生學(xué)的怎么樣,一場試卷下來知識點拿出來,掌握程度和班級平均、學(xué)校平均、全國平均水平,基于差異找出薄弱點,找出需要做什么練習(xí),學(xué)什么樣的微課程,做完練習(xí)之后機(jī)器可以再做一次過程化學(xué)習(xí)的迭代更新,這樣的良性循環(huán)建立起來之后,學(xué)生每做一道題下一道題都不一樣,針對每個知識點的程度做出了非常精細(xì)的判斷,每道題都是你可以學(xué)會的,成績可能得到可以的提升。作文批改時間從原來40個小時變成幾分鐘,使用頻率從月到周。未來所有的學(xué)校在使用個性化的產(chǎn)品大家一問可能都是訊飛的。
人工智能助力城市大數(shù)據(jù)應(yīng)用。教育跟我們每個人的未來、子女的未來息息相關(guān)的,城市服務(wù)跟我們現(xiàn)在息息相關(guān),我們都想享受更好的服務(wù),比如大家遇到的困難丟了身份證去辦的時候排隊,提交的時候等30天以后再來拿新的身份證,辦護(hù)照、港澳通行證,都遇到很多問題,現(xiàn)在國家也提了,這樣的事情不能讓人在那里跑腿。比如分析一個城市里面到底有多少數(shù)據(jù),45個部門715類數(shù)據(jù),一個城市里面典型為網(wǎng)上事項1948項,現(xiàn)在一號一窗一網(wǎng),當(dāng)場辦理,原來十天現(xiàn)在變成一天了,所有的數(shù)據(jù)就被電子化,這個工作里面訊飛做的非常多的示范性工作,包括我們做的幾個城市,在現(xiàn)在周圍城市里面典型案例大家都看得到,安徽、杭州、貴陽等30多個地市都使用了“互聯(lián)網(wǎng)+服務(wù)”的產(chǎn)品,這個產(chǎn)品到底干什么?
比如“人臉+識別”怎么用,比如老人半身份證只能去窗口辦,比如領(lǐng)退休金,有時候老年身體不好去世了,被冒領(lǐng)了,國家有一個笨方法,社會保險長期待遇人員資格認(rèn)證,今年認(rèn)證通過的今年退休金可以照常領(lǐng),很多城市這種情況,我們并不是都北京上海工作,加上可能在遙遠(yuǎn)的安徽,老年人每年跑一次,本來沒病跑一次就生病了,現(xiàn)在把自己手機(jī)拿出來裝上政府的互聯(lián)網(wǎng)服務(wù)APP,打開攝像頭,打開麥克風(fēng),讓老年人對著說幾句話,這是金融支付,避免了很多奔波的問題,身份認(rèn)證一旦推廣開來的話,最多跑一次,訊飛講一次都不用跑,手機(jī)拿出來想辦什么事就辦什么事。我們逛淘寶難道有哪一次需要去阿里巴巴總部買東西嗎?政府為什么還需要上門去排隊,一次都不需要。我們在杭州開一個農(nóng)家樂辦證需要跑10天,現(xiàn)在做了一個政務(wù)服務(wù)平臺,在線提交相應(yīng)的資料申請材料,最后EMS可以把證照送到家門口,一個窗口受理,一站式完成服務(wù)。杭州政府給我們提了一次機(jī)會,讓我們設(shè)計一下怎么樣做到一次不跑,數(shù)字杭州頂層設(shè)計方案,到2020可以享受真正足不出戶的服務(wù)了。
除了這些之外,我們也在城市里面做其他的工作,比如公交車路線優(yōu)化,比如這個地方應(yīng)該蓋商場還是學(xué)校,這些工作里有一個非常關(guān)鍵的點,你不能只用政府的數(shù)據(jù),你要考慮到城市里面產(chǎn)生的所有數(shù)據(jù),比如車、人、手機(jī)的數(shù)據(jù),這些數(shù)據(jù)使用起來之后,你可以對整個城市的運(yùn)轉(zhuǎn)狀況做一個非常詳細(xì)的洞察和理解,未來的物聯(lián)網(wǎng)更發(fā)達(dá)的時候,我們會找到更多手段,這些數(shù)據(jù)利用起來之后,讓我們的城市規(guī)劃管理更加的智慧化、便利化,整個大家在城市里面的生活也會更加的幸福,更加的美好。
無論是在哪個領(lǐng)域,深度學(xué)習(xí),培訓(xùn)方法,以及海量大數(shù)據(jù)資源,理念我們做了很多基礎(chǔ)性的數(shù)據(jù),廣告、個性化學(xué)習(xí)、數(shù)據(jù)共享打通都不能根本目的,這些數(shù)據(jù)在各行各業(yè)產(chǎn)生真正的價值。比如我們在法院的一些工作,比如我們在公安、客服的工作,我們都是要用人工智能、大數(shù)據(jù)核心技術(shù),讓大家的變得更加的便捷方便,無論是老師,政府,公務(wù)員的,他們的工作都應(yīng)該變得更加的輕松,同時每個人的生活都變得更加的幸福,學(xué)生、居民都可以變得更加幸福,這樣的工作才是用人工智能、大數(shù)據(jù)最終需要創(chuàng)造價值據(jù)解決的問題,一句話作為一個總結(jié),訊飛是一家用人工智能改變世界的公司,我們的團(tuán)隊是希望能夠用數(shù)據(jù)去創(chuàng)造價值的團(tuán)隊,讓訊飛成為一家創(chuàng)造更多和更好的社會型公司。