《電視節(jié)目的個性化搜索研究影視編導(dǎo)專業(yè)》由會員分享,可在線閱讀,更多相關(guān)《電視節(jié)目的個性化搜索研究影視編導(dǎo)專業(yè)(14頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、電視節(jié)目的個性化搜索研究
摘 要
電視節(jié)目是人們普遍喜歡的娛樂方式之一。然而隨著電視技術(shù)的高速發(fā)展,電視節(jié)目日益豐富的,人們不知不覺中已深處在電視節(jié)目的海洋中。電視節(jié)目包含了文本字幕,因而對電視節(jié)目的查找可間接地轉(zhuǎn)換為對電視文本的搜索。為了幫助用戶快速地查找到喜愛的電視節(jié)目,針對電視節(jié)目的個性化搜索進(jìn)行了研究,并開發(fā)了一個小型的個性化電視節(jié)目搜索原型系統(tǒng)。本文主要研究了基于文本的電視節(jié)目的個性化搜索,在文章最后可以看到個性化搜索算法可以顯著提高搜索質(zhì)量。
關(guān)鍵詞:個性化搜索,用戶興趣模型,查詢擴(kuò)展,用戶反饋
一、引言
電視節(jié)目是人們普通的娛樂方式;然而隨著電視技術(shù)
2、的高速發(fā)展,出現(xiàn)了諸如電纜、光纜、微波、衛(wèi)星等多種傳播方式。我國的鑫諾通信衛(wèi)星可可同時支持兩百余套標(biāo)準(zhǔn)清晰度電視節(jié)目;人們不知不覺中已深處在電視節(jié)目的海洋中。
為了幫助用戶快速地查找到喜愛的個性化電視節(jié)目,針對電視節(jié)目的個性化搜索進(jìn)行了研究。在我們的系統(tǒng)中,我們是基于如下假定:每個電視節(jié)目都有一個對應(yīng)的具有固定格式且具有類別信息的描述文本,所以對電視節(jié)目的搜索可以轉(zhuǎn)換為對電視文本的搜索。
二、個性化搜索引擎研究綜述
個性化搜索引擎目的是為了建立的通用搜索引擎之上的新一代的搜索引擎,它的目標(biāo)是消除當(dāng)前搜索引擎缺點(diǎn)即結(jié)果相關(guān)性低和“千人一面”等缺點(diǎn)。
2.1個性化搜索框架
如下圖所示,我
3、們設(shè)計(jì)的電視節(jié)目個性化搜索系統(tǒng)共分為6個子系統(tǒng):分別是處于最底層的自然語言處理子系統(tǒng)和網(wǎng)絡(luò)蜘蛛子系統(tǒng)、處于次底層的存儲子系統(tǒng)和索引子系統(tǒng)。
圖2-1電視節(jié)目個性化搜索系統(tǒng)架構(gòu)
處于中間層的通用搜索系統(tǒng)和個性化搜索子系統(tǒng),處于最高層的用戶查詢處理子系統(tǒng)。其中個性化搜索子系統(tǒng)又包括了四個子模塊,分別為用戶興趣模型模塊,用戶反饋模塊,語義庫模塊和以語義庫為基礎(chǔ)的查詢擴(kuò)展模塊。
我們的系統(tǒng)通用搜索引擎在此基礎(chǔ)上,添加了基于用戶興趣模型,用戶查詢關(guān)鍵字的擴(kuò)展,用戶相關(guān)反饋等三個要素,使經(jīng)典的搜索引擎具有了個性化搜索的特征。
由上面可以看出,我們的電視節(jié)目個性化搜索系統(tǒng)是有九大模塊組成的,每個
4、模塊具有各自相對對立的功能(高內(nèi)聚),而各個模塊間緊密聯(lián)系(低耦合),一起共同實(shí)現(xiàn)了電視節(jié)目的個性化搜索的功能。
我們的系統(tǒng)是通過在原理的基礎(chǔ)上增加了用戶興趣模型、用戶查詢擴(kuò)展和用戶反饋等中間層的子系統(tǒng)來實(shí)現(xiàn)搜索引擎的個性化。所以接下我們將介紹整個系統(tǒng)各個子系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),并著重介紹用戶興趣模型、用戶查詢擴(kuò)展和用戶反饋等中間層的子系統(tǒng)等三個子系統(tǒng)。
2.2個性化搜索的流程圖
圖2-2個性化搜索流程圖
如上圖所示,用戶使用個性化搜索的系統(tǒng)的過程如下:
1.首先用戶必須先注冊,使系統(tǒng)能記錄你的相關(guān)信息,從而提供每個用戶具有一個獨(dú)立的,與眾不同的搜索引擎。
2.用戶通過查詢界面輸入
5、查詢,用戶查詢處理子系統(tǒng)會對用戶查詢調(diào)用自然語言處理子系統(tǒng)進(jìn)行預(yù)處理。
3.系統(tǒng)會通過“用戶查詢擴(kuò)展”子模塊對查詢進(jìn)行擴(kuò)展,擴(kuò)展后的查詢再經(jīng)過“用戶興趣模型”子模塊進(jìn)行過濾得到跟用戶更相關(guān)的查詢。
4.初始查詢請求作為輸入經(jīng)過通用搜索引擎子系統(tǒng)的處理,并獲得初始的查詢結(jié)果再利用“用戶興趣模型”模塊對初始查詢結(jié)果進(jìn)行重排序和過濾,得到最終的個性化查詢結(jié)果。
5.用戶對查詢結(jié)果做出反饋,那些反饋信息將被加入到“用戶興趣模型”模塊中,使其能在下一次搜索中發(fā)揮作用。
三、用戶反饋和用戶興趣模型
3.1用戶反饋
用戶反饋技術(shù)(user feedback)是在個性化搜索方面最重要的方法之一。一
6、個搜索引擎最終返回的結(jié)果很大程度是依賴于用戶的查詢詞。然而很少有用戶能夠構(gòu)造理想的查詢詞,用戶構(gòu)造出來的查詢詞通常含義模糊。這樣的原因有很多:用戶的教育背景,用戶對搜索引擎的理解水平,用戶對檢索問題的掌握情況。
但是用戶能做的是,如果把相關(guān)文檔擺在用戶面前,用戶是能夠知道這是我想要的。因此很自然的就產(chǎn)生了“用戶反饋”的想法,即通過使用用戶反饋來改進(jìn)搜索系統(tǒng)的性能,提高用戶的滿意程度。
3.2用戶興趣模型子系統(tǒng)設(shè)計(jì)
我們定義的用戶興趣模型的信息是通過用戶反饋捕捉到的動態(tài)用戶興趣。
我們下面主要講述了通過學(xué)習(xí)用戶顯式或隱式反饋來建立用戶興趣模型并動態(tài)更新用戶模型的方法。
我們研究的用戶興
7、趣模型是基于如下幾個方面的考慮的:
用戶可以具有多個不同的興趣模型,用戶興趣模型反映了用戶的興趣和偏好;
用戶顯式或隱式反饋是將觸發(fā)用戶興趣的建立或者更新,用戶反饋包括了顯示正反饋,顯示負(fù)反饋,隱式正反饋和隱式負(fù)反饋四種;
每一個用戶的興趣模型可以通過向量空間模型來表示;文檔和用戶興趣的相似度大小可以通過余弦公式來計(jì)算。
圖3-1用戶興趣模型結(jié)構(gòu)
3.3用戶興趣模型學(xué)習(xí)算法
毫無疑問,用戶的興趣是會隨著戶顯式或隱式的反饋而動態(tài)改變的,比如新興趣的加入,舊興趣的消失,以及原來來興趣的減弱或者加強(qiáng)。因此我們的系統(tǒng)必須能及時調(diào)整,才能真正反映用戶的興趣愛好。
用戶興趣模型學(xué)習(xí)算法描
8、述如下:
輸入:反饋類型fbType,被反饋的文檔向量空間表示fvd,學(xué)習(xí)速率α
注釋:fbType>0代表用戶喜歡該反饋文檔,學(xué)習(xí)速率α代表用戶的偏好大小
Find the most relevant category C in user profile P
If Relevance(C fvd)< o then
Learn NewCatergory (P, fbType, fvd, a)
Else
Learn UserFeedback (P, fbType, fvd, a)
End if
給定一個反饋文檔,首先是先找到在profile中和反饋文檔最相
9、關(guān)的興趣類別C。如果相關(guān)度最大興趣類別的值小于一定的閾值θ則建立一個新的興趣類別;否則該興趣類別將根據(jù)反饋類型fbType的值和學(xué)習(xí)速率α進(jìn)行相應(yīng)的修改。
四、用戶查詢擴(kuò)展
4.1用戶查詢擴(kuò)展子系統(tǒng)必要性及實(shí)現(xiàn)途徑
用戶使用搜索引擎獲得的搜索結(jié)果相關(guān)性高低往往和關(guān)鍵字的選取有很大關(guān)系。然而受用戶的教育背景,用戶對搜索引擎的理解水平及用戶對檢索問題的掌握情況等多方面因素的限制。因而很少用戶能夠構(gòu)造理想的查詢詞,因此個性化的搜索系統(tǒng)必須要能夠理解用戶的搜索意圖,主動向用戶推薦相關(guān)度較好的關(guān)鍵字。
我們知道自然語言的詞語之間有著非常復(fù)雜的關(guān)系,在實(shí)際的應(yīng)用中,有時需要把這種復(fù)雜的關(guān)系用一種簡
10、單的數(shù)量來度量,而詞語相似度的量化就是其中的一種。如果能把獲得和用戶查詢關(guān)鍵字相似度高的詞語,無疑能提高用戶的查詢結(jié)果。另外,我們可以像Baidu那樣從用戶查詢?nèi)罩纠锩嫣崛 跋嚓P(guān)搜索“來實(shí)現(xiàn)用戶查詢的擴(kuò)展。我們的系統(tǒng)采用了兩種方法來進(jìn)行查詢擴(kuò)展:
[1]采用Corpus來獲得某個詞語的相似詞語,來實(shí)現(xiàn)查詢的擴(kuò)展。
[2]采用基于關(guān)鍵字的相似性和IDF的方法來實(shí)現(xiàn)關(guān)鍵字的擴(kuò)展。
通過對用戶查詢關(guān)鍵字進(jìn)行擴(kuò)展,得到潛在的用戶查詢意圖并經(jīng)過用戶興趣模型的過濾得到用戶個性化的關(guān)鍵字推薦。
4.2基于Corpus的用戶查詢擴(kuò)展
由前面章節(jié)討論可以知道,用戶查詢擴(kuò)展主要借助Corpus庫對用戶查
11、詢的關(guān)鍵字進(jìn)行擴(kuò)展,實(shí)現(xiàn)向用戶主動推薦可能滿足用戶意圖的關(guān)鍵字功能。
4.2.1基于Corpus的查詢擴(kuò)展子系統(tǒng)結(jié)構(gòu)
Corpus是在大規(guī)模語料庫中統(tǒng)計(jì)的來得豐富信息進(jìn)行篩選并存儲,作為詞和詞之間相似度量化的信息基礎(chǔ)。如下圖所示,corpus庫用于把浩瀚的語料庫中所蘊(yùn)含的詞和詞之間的關(guān)系通過統(tǒng)計(jì)的方法提取出來并進(jìn)行存儲,然后為上層的詞語關(guān)系量化計(jì)算提供支持。
圖4-1 Corpus庫介紹
圖4-2基于Corpus的查詢擴(kuò)展子系統(tǒng)結(jié)構(gòu)圖
圖4-3 Corpus庫結(jié)構(gòu)
該子系統(tǒng)主要使用了下層Corpus庫提供的單詞擴(kuò)展接口,該函數(shù)返回和輸入單詞相似度最高的10個單詞,從而實(shí)
12、現(xiàn)了對查詢的擴(kuò)展,因而可能得到更符合用戶潛在需求的查詢關(guān)鍵字。
五、實(shí)驗(yàn)與數(shù)據(jù)分析
為了驗(yàn)證我們個性化搜索系統(tǒng)原型,我們進(jìn)行了一些模擬實(shí)驗(yàn)。我們的實(shí)驗(yàn)過程如下:
圖5-1實(shí)驗(yàn)流程圖
系統(tǒng)的測試是通過志愿者來人工判讀搜索結(jié)果的好壞的。測試的結(jié)果和語料以測試者的主觀判讀有很大的關(guān)系。實(shí)驗(yàn)結(jié)果表明,使用個性化的搜索的結(jié)果比通用搜索的結(jié)果平均滿意程度要高10%。
圖5-2結(jié)果對比
除此之外,我們電視化個性化搜索系統(tǒng)的結(jié)果的精度與學(xué)習(xí)速率α以及興趣類別閾值θ具有很大的關(guān)系。
圖5-3學(xué)習(xí)速率和用戶滿意程度的關(guān)系
實(shí)驗(yàn)結(jié)果表明,用戶的滿意程度隨著學(xué)習(xí)速率的降低而增大。
圖
13、5-4興趣類別閾值和結(jié)果精度之間關(guān)系
而查詢結(jié)果精度隨著興趣類別的閾值增大而有增長趨勢。
六、總結(jié)
個性化搜索是當(dāng)今搜索引擎領(lǐng)域熱門的研究方向之一。在本文中,我們研究了通過用戶興趣模型過濾搜索結(jié)果、通過使用用戶反饋改進(jìn)搜索質(zhì)量、通過用戶擴(kuò)展捕捉用戶查詢意圖等途徑來共同實(shí)現(xiàn)電視節(jié)目的個性化搜索的方法。我們通過用戶反饋得到的文檔來建立用戶興趣模型來表示用戶的個性化信息。另外,通過對用戶查詢關(guān)鍵字進(jìn)行擴(kuò)展,得到潛在的用戶查詢意圖并經(jīng)過用戶興趣模型的過濾得到用戶個性化的關(guān)鍵字推薦。
用戶個性化的興趣模型是我們研究的核心,它對能否實(shí)現(xiàn)個性化搜索具有重要的意義?;谟脩舻呐d趣是多樣并且是多變的事實(shí)
14、,我們使用用戶興趣模型來代表用戶多樣且多變的興趣分類。每個興趣分類由含短期正興趣描述向量、短期負(fù)興趣描述向量以及長期興趣描述向量等3部分組成。
實(shí)驗(yàn)結(jié)果表明,我們設(shè)計(jì)的出的個性化搜索系統(tǒng)能顯著提高用戶的查詢體驗(yàn)。
參考文獻(xiàn)
[1]艾瑞發(fā)布的2007年第三季度搜索引擎市場報告.
[2]Google個性化首頁.
[3]杜小勇.下一代搜索引擎,中國傳媒科技.
[4]李以正.基于用戶反饋與協(xié)同過濾的情報檢索系統(tǒng)的建立.情報雜志.2007.No.2
[5]宋懿,國德峰.基于壓縮倒排文件的中文全文檢索仿真系統(tǒng).計(jì)算機(jī)工程.2008(12)
[6]龔筆宏.基于用戶反饋的個性化檢索技術(shù)研究.北京大學(xué)博士論文,2007,pp.92.
14