在搜索框里輸入準(zhǔn)確的查詢(xún)信息,就可以得到想要的答案,但如果讓搜索引擎更了解你,理解一個(gè)模糊的訴求,把屬于你個(gè)人的個(gè)性化搜索結(jié)果適時(shí)推送給你,可就不那么簡(jiǎn)單了。
用戶(hù)在搜索框里輸入“好看的電影”,絕不僅僅是希望看到一系列人人都想的到的熱映大片,如果用戶(hù)是一個(gè)小清新,就會(huì)希望搜索引擎把《藍(lán)色夏戀》《夏天的尾巴》《虹的女神》這些并不是很主流但卻符合用戶(hù)興趣的電影推薦給自己。理解一個(gè)人想要什么,對(duì)什么感興趣,是一件非常智能的事,而對(duì)搜索引擎來(lái)說(shuō),這并不是不可能的。我們可以通過(guò)用戶(hù)的搜索記錄,來(lái)了解他的性別,年齡,身份,職業(yè),喜歡看的書(shū),喜歡登陸的網(wǎng)站,喜歡瀏覽的論壇,和感興趣的社會(huì)事件及話(huà)題。
百度校園在收集一線(xiàn)工程師技術(shù)問(wèn)題的時(shí)候發(fā)現(xiàn)了這個(gè)挑戰(zhàn),如何讓搜索引擎準(zhǔn)確理解用戶(hù)的興趣,是讓搜索結(jié)果更貼心的關(guān)鍵。而這最終帶來(lái)了IT主題研究項(xiàng)目的一項(xiàng)驚喜突破:用戶(hù)興趣建模算法。
通過(guò)整合用戶(hù)多方面信息來(lái)了解用戶(hù),并形成一套算法,被稱(chēng)之為“用戶(hù)興趣建模”。南京大學(xué)的陳虎作為參與百度校園主題研究項(xiàng)目的學(xué)生接受了這個(gè)挑戰(zhàn),他獲得了在百度實(shí)習(xí)的機(jī)會(huì),這期間的任務(wù)就是他要讓搜索引擎了解用戶(hù)的興趣,理解用戶(hù)的需求!艾F(xiàn)在在百度里面搜“好看的電影”,《這個(gè)殺手不太冷》,《海豚灣》,《十二怒漢》,《天堂電影院》這4部。百度搜索結(jié)果之所以展現(xiàn)這四部電影,是因?yàn)樗鼈冊(cè)趆ao123里面的好評(píng)數(shù)最高。然而不同的用戶(hù)有不一樣的愛(ài)好,好評(píng)數(shù)最高的電影未必就能吸引所有的用戶(hù)。如果有了用戶(hù)的興趣信息,就可以根據(jù)當(dāng)前用戶(hù)的特點(diǎn)展現(xiàn)合適的結(jié)果,比如我喜歡周星馳的電影,那么我搜“好看的電影”的時(shí)候給我展現(xiàn)《大話(huà)西游》等,我會(huì)覺(jué)得這個(gè)結(jié)果很贊;而如果另一個(gè)喜歡科幻電影的同學(xué)同樣搜“好看的電影”,得到了《變形金剛》的結(jié)果,就是一件很神奇的事情。”陳虎說(shuō),雖然文字是一種有限的表達(dá)形式,“好看”這種模糊的詞不是一種準(zhǔn)確的描述,但如果百度可以從現(xiàn)象看到本質(zhì),明白不同用戶(hù)眼中的好看代表不同的意義,從而有針對(duì)性地展現(xiàn)合適的結(jié)果,就會(huì)帶來(lái)一種更加智能化的用戶(hù)體驗(yàn)。
為了讓機(jī)器理解人的興趣,陳虎的第一項(xiàng)工作就是積累一個(gè)完整的數(shù)據(jù)庫(kù)。“這個(gè)數(shù)據(jù)庫(kù)要包含盡可能多的電影,電視劇,游戲,小說(shuō),明星等等,在實(shí)習(xí)的前一個(gè)月,我把時(shí)間花在這個(gè)數(shù)據(jù)庫(kù)的建設(shè)之中。”大部分的數(shù)據(jù)都通過(guò)一些權(quán)威網(wǎng)站來(lái)抓取,建立一個(gè)盡可能完整的庫(kù)。陳虎接下來(lái)的第二個(gè)工作就是要基于檢索的框架來(lái)甄別用戶(hù)搜索的目標(biāo)。“想看《愛(ài)情公寓3》的人很可能在框里輸入的是‘愛(ài)3’,這種表達(dá)上的不一致導(dǎo)致簡(jiǎn)單的文字匹配不能滿(mǎn)足要求。我接手之前的做法是自動(dòng)擴(kuò)展數(shù)據(jù)庫(kù)中電影電視劇的表達(dá)方式,使得數(shù)據(jù)庫(kù)的表達(dá)盡量涵蓋用戶(hù)的習(xí)慣。這個(gè)做法在電影電視劇中應(yīng)用的比較成功,但是在化妝品和汽車(chē)等類(lèi)別上實(shí)驗(yàn)失敗,原因一是汽車(chē)和化妝品的完整名稱(chēng)很長(zhǎng),無(wú)法有效的進(jìn)行表達(dá)擴(kuò)展,二是用戶(hù)一般不搜具體某個(gè)汽車(chē)或化妝品,而搜車(chē)系和化妝品功效的情況較多!标惢⒄{(diào)整了新的框架,完善了算法,比如用戶(hù)搜化妝品的時(shí)候只搜美白、減肥時(shí),搜索引擎也能識(shí)別出這部分的信息。接下來(lái)的工作就是增加新的類(lèi)別(游戲、體育、彩票、星座、手機(jī)、電腦、小說(shuō)、賓館、旅游城市等),在增加的過(guò)程中不斷調(diào)整框架。隨著數(shù)據(jù)量的增加,算法的性能要求不斷增加。
百度自然語(yǔ)言處理部的李大任是陳虎的導(dǎo)師,他給了陳虎不少啟發(fā)。“減少空間開(kāi)銷(xiāo),提高執(zhí)行速度,需要運(yùn)用多種方法,經(jīng)過(guò)共同的努力,我們最后將空間開(kāi)銷(xiāo)降低到原來(lái)的40%,執(zhí)行速度提高到原來(lái)的10倍,順利完成了大數(shù)據(jù)量的執(zhí)行。這讓算法的性能得以保證!
在學(xué)校跟隨導(dǎo)師學(xué)習(xí)時(shí),陳虎就發(fā)現(xiàn)自己對(duì)研究沒(méi)有興趣,而是熱衷于通過(guò)動(dòng)手做程序,改變?nèi)藗兊纳。在百度忙于用?hù)興趣建模項(xiàng)目的日子里,他不僅是收獲了用戶(hù)興趣識(shí)別算法,還意識(shí)到如果能把這項(xiàng)事情做好,將會(huì)改變現(xiàn)在的信息獲取方式,走近一個(gè)更智能,更符合用戶(hù)需求的互聯(lián)網(wǎng)世界。