蘇寧孫鵬飛：蘇寧易購大數(shù)據(jù)在搜索中的應用丨易觀A10

易觀 1W

Query分析過程中大部分的數(shù)據(jù)支撐都來源于知識圖譜，知識圖譜的好壞直接影響Query分析結果。

近日，2018易觀A10大數(shù)據(jù)應用峰會在北京如期召開，本次峰會以“數(shù)造未來精益成長”為主題。來自國內(nèi)外的大數(shù)據(jù)實踐者、資本掌舵人、企業(yè)家、技術大咖、運營專家、應用開發(fā)者以及知名媒體人齊聚一堂，共同討論和分享在數(shù)據(jù)驅動下的企業(yè)精益成長之道。

蘇寧云商IT總部搜索算法團隊負責人孫鵬飛

在10月27日下午舉行的數(shù)據(jù)挖掘專場論壇上，蘇寧云商IT總部搜索算法團隊負責人孫鵬飛做了題為《蘇寧易購大數(shù)據(jù)在搜索中的應用》的演講。演講主要分享了搜索數(shù)據(jù)挖掘應用場景的具體體現(xiàn)。以下為其演講實錄：

今天分享的主要內(nèi)容是大數(shù)據(jù)技術在搜索當中的應用，我們首先來整體看下搜索為哪些產(chǎn)品提供服務？我們這里有蘇寧易購、蘇寧推客、PP視頻、蘇寧小店、蘇寧金融等，大家可以看到我們的數(shù)據(jù)已經(jīng)覆蓋到了線上和線下。

我們支撐這么多產(chǎn)品線，是因為采用了三層的體系架構。最左邊這部分是我們數(shù)據(jù)生成模塊，中間是數(shù)據(jù)加工模塊，最右邊是數(shù)據(jù)應用。我們可以看到，在數(shù)據(jù)生成模塊，主要由以下幾部分組成：Spider爬取的一些數(shù)據(jù)、商品數(shù)據(jù)、視頻等結構化數(shù)據(jù)，以及用戶行為數(shù)據(jù)，最后一塊是我們的圖片庫，圖片庫包括商品的圖片信息，還有異構圖片信息，我們都會根據(jù)不同的用戶場景建立不同的管道，為我們不同的業(yè)務提供服務。在數(shù)據(jù)加工層面，針對不同的業(yè)務場景去建立不同的業(yè)務模型，為我們數(shù)據(jù)應用提供相應的支持和服務。在數(shù)據(jù)應用層里面都會把這些包裝好，對外提供相應的服務。

搜索數(shù)據(jù)挖掘應用場景

下面我來介紹一下今天主要分享內(nèi)容，即數(shù)據(jù)挖掘應用場景。主要包括架構方面的一些優(yōu)化、個性化搜索排序，還有Query分析、智能導購、知識圖譜等等。

首先我們先來看下架構方面的優(yōu)化。我們知道搜索引擎都是對檢索的商品數(shù)據(jù)建立倒排，提供檢索服務，根據(jù)用戶query去召回一些商品。但這只能解決80%的問題，20%的熱詞，召回商品數(shù)量非常多，直接影響召回速度，以至于我們后面的級聯(lián)排序無法正常實現(xiàn)。所以我們這里做了一個小小的嘗試，建立一個加權的倒排索引，使我們整體性能得到了提升。我們加權的依據(jù)是根據(jù)商品的瀏覽、購買等一些行為數(shù)據(jù)，預先建模，并通過這個模型算出相應的商品質(zhì)量分，通過商品質(zhì)量分干預這些商品在倒排表中出現(xiàn)的位置，做數(shù)據(jù)截斷，加速我們的檢索性能。

優(yōu)化前后對比分析，可以看到整體的響應時間縮短了近乎一倍，性能得到大幅提升。但是有人會問，我們這樣做會不會影響召回商品的質(zhì)量？其實恰恰相反，因為我們是通過模型計算相應的商品質(zhì)量分，保證在召回的過程當中，把高質(zhì)量商品召回過來；同時基于截斷的數(shù)據(jù)進行排序提高了排序結果的精準度，進而提升整體服務質(zhì)量，使得用戶體驗變得更好。

下面來介紹下搜索的大腦——Query分析系統(tǒng)。它主要是理解和分析用戶背后的意圖，包括如下幾個模塊：類目預測、智能糾錯、成分識別、知識擴展、品類關系識別，以及品牌關系識別。

在這里我們結合知識圖譜，以及關系模型去計算、分析Query的成分，最終識別出相應的品類、品牌及屬性，理解用戶背后的意圖，為精準召回提供服務。

搜索個性化排序。談到個性化，自然而然會想到千人千面。在電商領域，建立用戶畫像和商品畫像；對于用戶畫像，基于用戶的行為對用戶打標簽，提取用戶的偏好及興趣標簽。在建畫像的過程當中，也遇到了一些問題。例如，如何去評價畫像的準確度？此外，不同品類下它的購買力偏好是不一致的。比如說，一個用戶在手機品類下，他可能比較喜歡iPhone，iPhone在手機里應該屬于一個高端品牌，所以他的購買力是一個高端用戶；但是他換到家電，換到冰箱洗衣機的時候，他可能是一個中低端的用戶，所以這個里面不同品類購買力是不一樣。

我們看一下是怎么構建我們的用戶畫像？以及怎么把用戶畫像和我們的應用結合起來？我們在做的過程中發(fā)現(xiàn)用戶畫像需要和Query系統(tǒng)結合起來，為引擎去提供服務。在這里有幾個好處：Query可以實時分析一個用戶的意圖，可以根據(jù)這個意圖對標簽進行一個裁減。同時，還可以根據(jù)意圖，對標簽進行加權，這樣可以更好地為整個引擎去提供服務，并且可以制定一些排序策略。

下面看看是怎樣設計整體架構？首先整體架構是一個三層體系，online、offline、near-line。在offline階段，利用用戶行為數(shù)據(jù)、商品數(shù)據(jù)及外部異構數(shù)據(jù)，建立復雜的模型，獲得用戶的長期行為偏好；在near-line階段，對用戶行為數(shù)據(jù)進行相應的實時分析，建立一個準實時的模型，計算用戶的短期偏好；在online階段，結合offline和near-line的模型數(shù)據(jù)以及query分析和反作弊系統(tǒng)，建精排模型實現(xiàn)個性化排序。

介紹完架構后，再介紹下算法模型體系。這里采用multi-task learning，從下至上依次是：input layer，representation layer，multi-task layer。下面舉例介紹下多任務學習，如任務一是CTR任務，在該任務中訓練CTR模型，得到表示層的信息。將表示層信息應用于任務二、任務三。此外，任務二里面可以對任務一里面學到的表示層的信息，進行微調(diào)，以滿足任務二的需求，共享表示層，加快模型的迭代速度。

剛才談到了個性化排序，有排序存在，就一定會有一些作弊行為，這里面在介紹下反作弊系統(tǒng)，保障排序的公平、公正。下面來看看我們是怎么做的呢？最底層就是數(shù)據(jù)分析平臺，我們會把日志數(shù)據(jù)、商品數(shù)據(jù)，還有店鋪的數(shù)據(jù)收集上來之后，進行分析、提取相應的feature，然后在識別引擎里進行作弊識別，最終提供一個相應的服務。

下面介紹一下，最核心的學習引擎，大家知道反作弊問題是一個樣本不均衡，作弊的數(shù)據(jù)比起正常的數(shù)據(jù)少了很多。所以我們在建模型之初考慮這一點，采用集成學習思想，構建多個弱分類器組成一個強度分類器，綜合地去判定是否屬于作弊行為，然后進行相應的輸出打分。

這幾年，隨著深度學習和大數(shù)據(jù)技術的發(fā)展，越來越多人將其結合起來，應用于不同的產(chǎn)品上，特別是在智能導購類，智能助手類的應用。我們團隊很早的開始嘗試這方面的研發(fā)工作，2016年底的時候推出了第一版智能導購的產(chǎn)品。經(jīng)過了幾年改造，產(chǎn)品現(xiàn)在比較完善，不僅能支持智能導購，還可以支持售前、售后客服，甚至還支持其他助手類服務。

整體的架構體系如下，首先最上層是處理用戶的輸入，包括語音和文本，將這些信息輸出到我們的路由層；路由層是兩部分組成，一個是分析這些數(shù)據(jù)背后的意圖，另一個是提取相應的屬性信息，為不同的機器人引擎提供相應的服務；第三層是機器人引擎層，我們現(xiàn)在已經(jīng)接入了三大類的一個機器人：第一個機器人，任務型的機器人，比方說問天氣、訂票、財務機器人；第二個機器人，導購型的機器人，比如我想買手機，買便宜型的手機，這種是任務型的機器人；第三個機器人，閑聊型的機器人。

最下面這一層是我們API的服務，以及由語料庫組成的知識庫等等。

下面詳細介紹一下各個模塊。先來介紹一下意圖識別，我們將意圖識別問題抽象成分類問題，在上線之初，利用SVM進行意圖分類，它可以解決85%問答的需求，但是還有15%分析不出來，這是由于語義鴻溝造成的。所以我們考慮用深度學習技術去實現(xiàn)它，這里選用CNN的網(wǎng)絡，沒有選用其他更復雜的網(wǎng)絡？因為我們發(fā)現(xiàn)CNN從準確率和效率上可以滿足我們上線的需求。雖然可以通過復雜的網(wǎng)絡把準確率提高一些，但是它的性能就會極具下降，這樣用戶體驗就變得非常差，所以我們從準確率和效率兩方面考慮，選擇了CNN。在CNN里面我們做了一個小小的改進，就是在輸入層融入了符號化向量特征，下面我會詳細介紹一下。比如，右邊是華為手機完整的知識圖譜，可以看到知識的表示。當我們拿到用戶的Query信息，我們會結合知識圖譜對其進行向量化，一同拼接作為CNN的輸入。這樣做的好處是通過增加一些feature，使得整個CNN準確率進一步提升；同時，對性能上的損失不大，在上線要求的范圍內(nèi)。

再來介紹一下槽位提取，或者屬性提取。這個階段主要是把屬性抽取這個問題轉換成一個序列標注問題。這里面我們嘗試了用字進行序列標注，還有用詞進行序列標注。但是在對比的過程中發(fā)現(xiàn)，以詞進行序列標注的效果更好一些。我們通過一些案例去分析后，得出一個結論：因為詞的語義信息可能更完整一些，在序列標注的時候，就可以獲得更好的標注效果。

下面我來介紹一下客服機器人。在客服問答中經(jīng)常用的一個技術，就是基于檢索式的機器人，因為我們已經(jīng)構建了龐大的問答知識庫，95%的問題可以從庫中檢索出相應的答案。故這里面采用了Deep Match模型，避免語義鴻溝的問題。

最后介紹一下搜索的知識圖譜，這幾年我們嘗試了很多新技術，也沉淀下來去做了很多方面的嘗試；現(xiàn)有平臺也給我們提供的一些相應服務和技術支撐上，基于此去構建了整個知識圖譜。

可以看到，底層是由分布式的存儲、分布式的檢索、流式計算，以及人工標注的系統(tǒng)，自動標注的系統(tǒng)構成的。上面是知識獲取，知識獲取之后，會對這些知識進一步提煉，提煉出所需要的一些實體，比方說構建一些三元組，構建一些邊的關系等，形成了我們的知識圖譜。

知識圖譜構建完了之后，我們需要做另外一方面的嘗試，就是知識的推理。我們會預先推理出一些東西，存在庫里面，為圖譜的應用提供服務。比如說會挖掘一些邊關系，還有一些知識的理解，一些實體的理解等等，為我們圖譜的應用提供相應的服務。

最后是應用層，我們會對所有的產(chǎn)品提供服務，比如剛才介紹的問答系統(tǒng)，結合知識圖譜，提高意圖識別的精準度。

之后是商品參數(shù)的一個糾錯。因為買家在上架的新品過程中，經(jīng)常會遇到屬性維護錯誤，掛錯類目等問題，利用知識圖譜，建立相應的模型，幫他糾錯，并且還可以主動提示這些商家應該維護哪些信息。

最后一塊是Query分析，Query分析過程中大部分的數(shù)據(jù)支撐都來源于知識圖譜，知識圖譜的好壞直接影響Query分析結果。

午夜精品久久久久久不卡,天天爽夜夜爽夜夜爽精品视频,午夜精品久久久久久久久久久久,天堂+中文+资源,天堂а√中文在线官网

了解易觀分析

蘇寧孫鵬飛：蘇寧易購大數(shù)據(jù)在搜索中的應用丨易觀A10

熱門推薦

聯(lián)系我們