在搜索框里輸入準(zhǔn)確的查詢信息,就可以得到想要的答案,但如果讓搜索引擎更了解你,理解一個(gè)模糊的訴求,把屬于你個(gè)人的個(gè)性化搜索結(jié)果適時(shí)推送給你,可就不那么簡(jiǎn)單了。
用戶在搜索框里輸入“好看的電影”,絕不僅僅是希望看到一系列人人都想的到的熱映大片,如果用戶是一個(gè)小清新,就會(huì)希望搜索引擎把《藍(lán)色夏戀》《夏天的尾巴》《虹的女神》這些并不是很主流但卻符合用戶興趣的電影推薦給自己。理解一個(gè)人想要什么,對(duì)什么感興趣,是一件非常智能的事,而對(duì)搜索引擎來(lái)說(shuō),這并不是不可能的。我們可以通過(guò)用戶的搜索記錄,來(lái)了解他的性別,年齡,身份,職業(yè),喜歡看的書,喜歡登陸的網(wǎng)站,喜歡瀏覽的論壇,和感興趣的社會(huì)事件及話題。
百度校園在收集一線工程師技術(shù)問(wèn)題的時(shí)候發(fā)現(xiàn)了這個(gè)挑戰(zhàn),如何讓搜索引擎準(zhǔn)確理解用戶的興趣,是讓搜索結(jié)果更貼心的關(guān)鍵。而這最終帶來(lái)了IT主題研究項(xiàng)目的一項(xiàng)驚喜突破:用戶興趣建模算法。
通過(guò)整合用戶多方面信息來(lái)了解用戶,并形成一套算法,被稱之為“用戶興趣建模”。南京大學(xué)的陳虎作為參與百度校園主題研究項(xiàng)目的學(xué)生接受了這個(gè)挑戰(zhàn),他獲得了在百度實(shí)習(xí)的機(jī)會(huì),這期間的任務(wù)就是他要讓搜索引擎了解用戶的興趣,理解用戶的需求!艾F(xiàn)在在百度里面搜“好看的電影”,《這個(gè)殺手不太冷》,《海豚灣》,《十二怒漢》,《天堂電影院》這4部。百度搜索結(jié)果之所以展現(xiàn)這四部電影,是因?yàn)樗鼈冊(cè)趆ao123里面的好評(píng)數(shù)最高。然而不同的用戶有不一樣的愛好,好評(píng)數(shù)最高的電影未必就能吸引所有的用戶。如果有了用戶的興趣信息,就可以根據(jù)當(dāng)前用戶的特點(diǎn)展現(xiàn)合適的結(jié)果,比如我喜歡周星馳的電影,那么我搜“好看的電影”的時(shí)候給我展現(xiàn)《大話西游》等,我會(huì)覺得這個(gè)結(jié)果很贊;而如果另一個(gè)喜歡科幻電影的同學(xué)同樣搜“好看的電影”,得到了《變形金剛》的結(jié)果,就是一件很神奇的事情!标惢⒄f(shuō),雖然文字是一種有限的表達(dá)形式,“好看”這種模糊的詞不是一種準(zhǔn)確的描述,但如果百度可以從現(xiàn)象看到本質(zhì),明白不同用戶眼中的好看代表不同的意義,從而有針對(duì)性地展現(xiàn)合適的結(jié)果,就會(huì)帶來(lái)一種更加智能化的用戶體驗(yàn)。
為了讓機(jī)器理解人的興趣,陳虎的第一項(xiàng)工作就是積累一個(gè)完整的數(shù)據(jù)庫(kù)!斑@個(gè)數(shù)據(jù)庫(kù)要包含盡可能多的電影,電視劇,游戲,小說(shuō),明星等等,在實(shí)習(xí)的前一個(gè)月,我把時(shí)間花在這個(gè)數(shù)據(jù)庫(kù)的建設(shè)之中!贝蟛糠值臄(shù)據(jù)都通過(guò)一些權(quán)威網(wǎng)站來(lái)抓取,建立一個(gè)盡可能完整的庫(kù)。陳虎接下來(lái)的第二個(gè)工作就是要基于檢索的框架來(lái)甄別用戶搜索的目標(biāo)!跋肟础稅矍楣3》的人很可能在框里輸入的是‘愛3’,這種表達(dá)上的不一致導(dǎo)致簡(jiǎn)單的文字匹配不能滿足要求。我接手之前的做法是自動(dòng)擴(kuò)展數(shù)據(jù)庫(kù)中電影電視劇的表達(dá)方式,使得數(shù)據(jù)庫(kù)的表達(dá)盡量涵蓋用戶的習(xí)慣。這個(gè)做法在電影電視劇中應(yīng)用的比較成功,但是在化妝品和汽車等類別上實(shí)驗(yàn)失敗,原因一是汽車和化妝品的完整名稱很長(zhǎng),無(wú)法有效的進(jìn)行表達(dá)擴(kuò)展,二是用戶一般不搜具體某個(gè)汽車或化妝品,而搜車系和化妝品功效的情況較多!标惢⒄{(diào)整了新的框架,完善了算法,比如用戶搜化妝品的時(shí)候只搜美白、減肥時(shí),搜索引擎也能識(shí)別出這部分的信息。接下來(lái)的工作就是增加新的類別(游戲、體育、彩票、星座、手機(jī)、電腦、小說(shuō)、賓館、旅游城市等),在增加的過(guò)程中不斷調(diào)整框架。隨著數(shù)據(jù)量的增加,算法的性能要求不斷增加。
百度自然語(yǔ)言處理部的李大任是陳虎的導(dǎo)師,他給了陳虎不少啟發(fā)!皽p少空間開銷,提高執(zhí)行速度,需要運(yùn)用多種方法,經(jīng)過(guò)共同的努力,我們最后將空間開銷降低到原來(lái)的40%,執(zhí)行速度提高到原來(lái)的10倍,順利完成了大數(shù)據(jù)量的執(zhí)行。這讓算法的性能得以保證。”
在學(xué)校跟隨導(dǎo)師學(xué)習(xí)時(shí),陳虎就發(fā)現(xiàn)自己對(duì)研究沒(méi)有興趣,而是熱衷于通過(guò)動(dòng)手做程序,改變?nèi)藗兊纳。在百度忙于用戶興趣建模項(xiàng)目的日子里,他不僅是收獲了用戶興趣識(shí)別算法,還意識(shí)到如果能把這項(xiàng)事情做好,將會(huì)改變現(xiàn)在的信息獲取方式,走近一個(gè)更智能,更符合用戶需求的互聯(lián)網(wǎng)世界。