午夜精品久久久久久不卡,天天爽夜夜爽夜夜爽精品视频,午夜精品久久久久久久久久久久,天堂+中文+资源,天堂а√中文在线官网

  • 產(chǎn)品與服務矩陣
  • 資源中心
  • 關于我們

蘇寧孫鵬飛:蘇寧易購大數(shù)據(jù)在搜索中的應用丨易觀A10

易觀 1W
Query分析過程中大部分的數(shù)據(jù)支撐都來源于知識圖譜,知識圖譜的好壞直接影響Query分析結果。

近日,2018易觀A10大數(shù)據(jù)應用峰會在北京如期召開,本次峰會以“數(shù)造未來 精益成長”為主題。來自國內(nèi)外的大數(shù)據(jù)實踐者、資本掌舵人、企業(yè)家、技術大咖、運營專家、應用開發(fā)者以及知名媒體人齊聚一堂,共同討論和分享在數(shù)據(jù)驅動下的企業(yè)精益成長之道。



蘇寧云商IT總部搜索算法團隊負責人孫鵬飛

 

在10月27日下午舉行的數(shù)據(jù)挖掘專場論壇上,蘇寧云商IT總部搜索算法團隊負責人孫鵬飛做了題為《蘇寧易購大數(shù)據(jù)在搜索中的應用》的演講。演講主要分享了搜索數(shù)據(jù)挖掘應用場景的具體體現(xiàn)。以下為其演講實錄:



今天分享的主要內(nèi)容是大數(shù)據(jù)技術在搜索當中的應用,我們首先來整體看下搜索為哪些產(chǎn)品提供服務?我們這里有蘇寧易購、蘇寧推客、PP視頻、蘇寧小店、蘇寧金融等,大家可以看到我們的數(shù)據(jù)已經(jīng)覆蓋到了線上和線下。



 

我們支撐這么多產(chǎn)品線,是因為采用了三層的體系架構。最左邊這部分是我們數(shù)據(jù)生成模塊,中間是數(shù)據(jù)加工模塊,最右邊是數(shù)據(jù)應用。我們可以看到,在數(shù)據(jù)生成模塊,主要由以下幾部分組成:Spider爬取的一些數(shù)據(jù)、商品數(shù)據(jù)、視頻等結構化數(shù)據(jù),以及用戶行為數(shù)據(jù),最后一塊是我們的圖片庫,圖片庫包括商品的圖片信息,還有異構圖片信息,我們都會根據(jù)不同的用戶場景建立不同的管道,為我們不同的業(yè)務提供服務。在數(shù)據(jù)加工層面,針對不同的業(yè)務場景去建立不同的業(yè)務模型,為我們數(shù)據(jù)應用提供相應的支持和服務。在數(shù)據(jù)應用層里面都會把這些包裝好,對外提供相應的服務。

 

搜索數(shù)據(jù)挖掘應用場景



下面我來介紹一下今天主要分享內(nèi)容,即數(shù)據(jù)挖掘應用場景。主要包括架構方面的一些優(yōu)化、個性化搜索排序,還有Query分析、智能導購、知識圖譜等等。

 

首先我們先來看下架構方面的優(yōu)化。我們知道搜索引擎都是對檢索的商品數(shù)據(jù)建立倒排,提供檢索服務,根據(jù)用戶query去召回一些商品。但這只能解決80%的問題,20%的熱詞,召回商品數(shù)量非常多,直接影響召回速度,以至于我們后面的級聯(lián)排序無法正常實現(xiàn)。所以我們這里做了一個小小的嘗試,建立一個加權的倒排索引,使我們整體性能得到了提升。我們加權的依據(jù)是根據(jù)商品的瀏覽、購買等一些行為數(shù)據(jù),預先建模,并通過這個模型算出相應的商品質(zhì)量分,通過商品質(zhì)量分干預這些商品在倒排表中出現(xiàn)的位置,做數(shù)據(jù)截斷,加速我們的檢索性能。

 

優(yōu)化前后對比分析,可以看到整體的響應時間縮短了近乎一倍,性能得到大幅提升。但是有人會問,我們這樣做會不會影響召回商品的質(zhì)量?其實恰恰相反,因為我們是通過模型計算相應的商品質(zhì)量分,保證在召回的過程當中,把高質(zhì)量商品召回過來;同時基于截斷的數(shù)據(jù)進行排序提高了排序結果的精準度,進而提升整體服務質(zhì)量,使得用戶體驗變得更好。



下面來介紹下搜索的大腦——Query分析系統(tǒng)。它主要是理解和分析用戶背后的意圖,包括如下幾個模塊:類目預測、智能糾錯、成分識別、知識擴展、品類關系識別,以及品牌關系識別。

 

在這里我們結合知識圖譜,以及關系模型去計算、分析Query的成分,最終識別出相應的品類、品牌及屬性,理解用戶背后的意圖,為精準召回提供服務。



搜索個性化排序。談到個性化,自然而然會想到千人千面。在電商領域,建立用戶畫像和商品畫像;對于用戶畫像,基于用戶的行為對用戶打標簽,提取用戶的偏好及興趣標簽。在建畫像的過程當中,也遇到了一些問題。例如,如何去評價畫像的準確度?此外,不同品類下它的購買力偏好是不一致的。比如說,一個用戶在手機品類下,他可能比較喜歡iPhone,iPhone在手機里應該屬于一個高端品牌,所以他的購買力是一個高端用戶;但是他換到家電,換到冰箱洗衣機的時候,他可能是一個中低端的用戶,所以這個里面不同品類購買力是不一樣。



我們看一下是怎么構建我們的用戶畫像?以及怎么把用戶畫像和我們的應用結合起來?我們在做的過程中發(fā)現(xiàn)用戶畫像需要和Query系統(tǒng)結合起來,為引擎去提供服務。在這里有幾個好處:Query可以實時分析一個用戶的意圖,可以根據(jù)這個意圖對標簽進行一個裁減。同時,還可以根據(jù)意圖,對標簽進行加權,這樣可以更好地為整個引擎去提供服務,并且可以制定一些排序策略。



下面看看是怎樣設計整體架構?首先整體架構是一個三層體系,online、offline、near-line。在offline階段,利用用戶行為數(shù)據(jù)、商品數(shù)據(jù)及外部異構數(shù)據(jù),建立復雜的模型,獲得用戶的長期行為偏好;在near-line階段,對用戶行為數(shù)據(jù)進行相應的實時分析,建立一個準實時的模型,計算用戶的短期偏好;在online階段,結合offline和near-line的模型數(shù)據(jù)以及query分析和反作弊系統(tǒng),建精排模型實現(xiàn)個性化排序。

 

介紹完架構后,再介紹下算法模型體系。這里采用multi-task learning,從下至上依次是:input layer,representation layer,multi-task layer。下面舉例介紹下多任務學習,如任務一是CTR任務,在該任務中訓練CTR模型,得到表示層的信息。將表示層信息應用于任務二、任務三。此外,任務二里面可以對任務一里面學到的表示層的信息,進行微調(diào),以滿足任務二的需求,共享表示層,加快模型的迭代速度。

 

剛才談到了個性化排序,有排序存在,就一定會有一些作弊行為,這里面在介紹下反作弊系統(tǒng),保障排序的公平、公正。下面來看看我們是怎么做的呢?最底層就是數(shù)據(jù)分析平臺,我們會把日志數(shù)據(jù)、商品數(shù)據(jù),還有店鋪的數(shù)據(jù)收集上來之后,進行分析、提取相應的feature,然后在識別引擎里進行作弊識別,最終提供一個相應的服務。



下面介紹一下,最核心的學習引擎,大家知道反作弊問題是一個樣本不均衡,作弊的數(shù)據(jù)比起正常的數(shù)據(jù)少了很多。所以我們在建模型之初考慮這一點,采用集成學習思想,構建多個弱分類器組成一個強度分類器,綜合地去判定是否屬于作弊行為,然后進行相應的輸出打分。



這幾年,隨著深度學習和大數(shù)據(jù)技術的發(fā)展,越來越多人將其結合起來,應用于不同的產(chǎn)品上,特別是在智能導購類,智能助手類的應用。我們團隊很早的開始嘗試這方面的研發(fā)工作,2016年底的時候推出了第一版智能導購的產(chǎn)品。經(jīng)過了幾年改造,產(chǎn)品現(xiàn)在比較完善,不僅能支持智能導購,還可以支持售前、售后客服,甚至還支持其他助手類服務。



整體的架構體系如下,首先最上層是處理用戶的輸入,包括語音和文本,將這些信息輸出到我們的路由層;路由層是兩部分組成,一個是分析這些數(shù)據(jù)背后的意圖,另一個是提取相應的屬性信息,為不同的機器人引擎提供相應的服務;第三層是機器人引擎層,我們現(xiàn)在已經(jīng)接入了三大類的一個機器人:第一個機器人,任務型的機器人,比方說問天氣、訂票、財務機器人;第二個機器人,導購型的機器人,比如我想買手機,買便宜型的手機,這種是任務型的機器人;第三個機器人,閑聊型的機器人。

 

最下面這一層是我們API的服務,以及由語料庫組成的知識庫等等。



下面詳細介紹一下各個模塊。先來介紹一下意圖識別,我們將意圖識別問題抽象成分類問題,在上線之初,利用SVM進行意圖分類,它可以解決85%問答的需求,但是還有15%分析不出來,這是由于語義鴻溝造成的。所以我們考慮用深度學習技術去實現(xiàn)它,這里選用CNN的網(wǎng)絡,沒有選用其他更復雜的網(wǎng)絡?因為我們發(fā)現(xiàn)CNN從準確率和效率上可以滿足我們上線的需求。雖然可以通過復雜的網(wǎng)絡把準確率提高一些,但是它的性能就會極具下降,這樣用戶體驗就變得非常差,所以我們從準確率和效率兩方面考慮,選擇了CNN。在CNN里面我們做了一個小小的改進,就是在輸入層融入了符號化向量特征,下面我會詳細介紹一下。比如,右邊是華為手機完整的知識圖譜,可以看到知識的表示。當我們拿到用戶的Query信息,我們會結合知識圖譜對其進行向量化,一同拼接作為CNN的輸入。這樣做的好處是通過增加一些feature,使得整個CNN準確率進一步提升;同時,對性能上的損失不大,在上線要求的范圍內(nèi)。

 

再來介紹一下槽位提取,或者屬性提取。這個階段主要是把屬性抽取這個問題轉換成一個序列標注問題。這里面我們嘗試了用字進行序列標注,還有用詞進行序列標注。但是在對比的過程中發(fā)現(xiàn),以詞進行序列標注的效果更好一些。我們通過一些案例去分析后,得出一個結論:因為詞的語義信息可能更完整一些,在序列標注的時候,就可以獲得更好的標注效果。



下面我來介紹一下客服機器人。在客服問答中經(jīng)常用的一個技術,就是基于檢索式的機器人,因為我們已經(jīng)構建了龐大的問答知識庫,95%的問題可以從庫中檢索出相應的答案。故這里面采用了Deep Match模型,避免語義鴻溝的問題。



最后介紹一下搜索的知識圖譜,這幾年我們嘗試了很多新技術,也沉淀下來去做了很多方面的嘗試;現(xiàn)有平臺也給我們提供的一些相應服務和技術支撐上,基于此去構建了整個知識圖譜。



可以看到,底層是由分布式的存儲、分布式的檢索、流式計算,以及人工標注的系統(tǒng),自動標注的系統(tǒng)構成的。上面是知識獲取,知識獲取之后,會對這些知識進一步提煉,提煉出所需要的一些實體,比方說構建一些三元組,構建一些邊的關系等,形成了我們的知識圖譜。

 

知識圖譜構建完了之后,我們需要做另外一方面的嘗試,就是知識的推理。我們會預先推理出一些東西,存在庫里面,為圖譜的應用提供服務。比如說會挖掘一些邊關系,還有一些知識的理解,一些實體的理解等等,為我們圖譜的應用提供相應的服務。



最后是應用層,我們會對所有的產(chǎn)品提供服務,比如剛才介紹的問答系統(tǒng),結合知識圖譜,提高意圖識別的精準度。



之后是商品參數(shù)的一個糾錯。因為買家在上架的新品過程中,經(jīng)常會遇到屬性維護錯誤,掛錯類目等問題,利用知識圖譜,建立相應的模型,幫他糾錯,并且還可以主動提示這些商家應該維護哪些信息。



最后一塊是Query分析,Query分析過程中大部分的數(shù)據(jù)支撐都來源于知識圖譜,知識圖譜的好壞直接影響Query分析結果。