《漢英機(jī)器翻譯擴(kuò)充詞典的建造.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《漢英機(jī)器翻譯擴(kuò)充詞典的建造.doc(8頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
漢英機(jī)器翻譯擴(kuò)充詞典的建造* 本項(xiàng)目接受國家重點(diǎn)基礎(chǔ)研究項(xiàng)目(973)資助,課題號(hào)為:G1998030507-4。
劉群1,2 張彤2
1北京大學(xué)計(jì)算語言學(xué)研究所
2中國科學(xué)院計(jì)算技術(shù)研究所
liuqun@ict.ac.cn
摘要:本文首先介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”中語言資源建設(shè)的總體框架,然后著重介紹了其中擴(kuò)充詞典的建設(shè)方法。擴(kuò)充詞典是相對(duì)于核心詞典而言的,特點(diǎn)是詞匯量大,每個(gè)詞的信息相對(duì)較少。擴(kuò)充詞典的建設(shè)包括以下幾個(gè)階段:收集;格式整理;詞條拆分;詞性標(biāo)記歸一化;詞性標(biāo)記補(bǔ)齊;詞條合并。實(shí)驗(yàn)結(jié)果表明,采用這種方法,利用較少的人工,就可以得到規(guī)模很大、并初步可用的雙語機(jī)器翻譯詞典,并且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質(zhì)量。
關(guān)鍵詞:機(jī)器翻譯,雙語詞典獲取
引言
現(xiàn)在的機(jī)器翻譯研究,從一種勞動(dòng)密集型的研究方式逐步過渡到了一種資源密集型的研究方式。這二者的區(qū)別在于,在勞動(dòng)密集型的研究方式中,語言學(xué)家的工作是為某個(gè)具體的機(jī)器翻譯系統(tǒng)開發(fā)詞典、規(guī)則庫等語言知識(shí)庫,其工作依附于某個(gè)具體的機(jī)器翻譯系統(tǒng),不具有獨(dú)立性。而在資源密集型的研究方式中,語言學(xué)家和計(jì)算機(jī)工作者的分工更加明確。語言學(xué)家的研究成果以語言資源的形式呈現(xiàn)出來,而不是僅僅為某一個(gè)機(jī)器翻譯系統(tǒng)服務(wù),其工作具有一定的獨(dú)立性。同時(shí),這種分工導(dǎo)致了語言資源的共享,也使得計(jì)算機(jī)工作者在算法的研究中對(duì)于語言資源的使用有了更廣泛的選擇余地。
本文簡要介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”開發(fā)過程中語言資源建設(shè)的總體規(guī)劃和實(shí)施情況,然后詳細(xì)介紹了其中一個(gè)子任務(wù)——“擴(kuò)充詞典”建設(shè)的工作流程、算法設(shè)計(jì)、實(shí)施過程和結(jié)果評(píng)價(jià)。
1 語言資源建設(shè)的總體規(guī)劃
我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的開發(fā)過程中,非常重視語言資源的建設(shè)。我們建立了一套完整的,覆蓋語言知識(shí)各個(gè)層面的機(jī)器翻譯語言資源建設(shè)規(guī)范,并啟動(dòng)了一系列的語言資源建設(shè)子任務(wù)。這些子任務(wù)包括:
1.1 漢語語義詞典子任務(wù):在原有語義詞典基礎(chǔ)上,完善規(guī)范、修改錯(cuò)誤、補(bǔ)充詞語,構(gòu)造一部完整的機(jī)器翻譯用漢語語義詞典。目前此項(xiàng)工作正在進(jìn)行,目標(biāo)是將北京大學(xué)語法信息詞典中的七萬多漢語詞語加入到語義詞典中;
1.2 漢英擴(kuò)充詞典子任務(wù):在原有核心詞典的基礎(chǔ)上構(gòu)造一部機(jī)器翻譯用擴(kuò)充詞典,本文后面將詳細(xì)介紹;
1.3 漢英短語庫子任務(wù):收集漢英對(duì)照的短語,標(biāo)記出短語結(jié)構(gòu)信息,此項(xiàng)工作已告一段落,目前收入短語5萬余條;
1.4 漢英雙語語料庫收集整理子任務(wù):收集、整理雙語語料庫、進(jìn)行格式整理、篇章標(biāo)注、篇章對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,收錄大約100萬漢字的漢英對(duì)照新聞?wù)Z料以及大量的其他類型語料,目前正在進(jìn)行第二階段工作;
1.5 漢英雙語語料庫句子對(duì)齊子任務(wù):在篇章對(duì)齊語料庫基礎(chǔ)上,完成段落對(duì)齊和句子對(duì)齊,與上一個(gè)子任務(wù)一樣,第一階段已完成,完成了100萬漢字的漢英對(duì)照新聞?wù)Z料的句子對(duì)齊(約4000句對(duì)),并整理其他類型句子對(duì)齊語料約18萬句對(duì)。目前正在進(jìn)行第二階段工作;
1.6 漢英雙語語料庫短語對(duì)齊子任務(wù):在句子對(duì)齊語料庫基礎(chǔ)上,完成子句、最長名詞短語、基本名詞短語以及其他一些特定類型短語的對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,大約完成了3000漢英句對(duì)的短語對(duì)齊工作。第二階段還沒有開始。
$$ 背
**{vA} v $=[義項(xiàng):"⑴馱;⑵負(fù)擔(dān)",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語義類:搬移,配價(jià)數(shù):2]{主體:[語義類:人|動(dòng)物],客體:[語義類:具體事物],處所:[語義類:空間|集體]}
=> V
$=[VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP]
**{vB1} v $=[義項(xiàng):"⑴向~;⑵避",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語義類:自移|自為,配價(jià)數(shù):1]{主體:[語義類:人],客體:[語義類:人類]}
=> D<"behind ones back"> $=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]
=> V( !V P N ) %V=[VSUBC:VI,VMORF:IREG,VD:did,VN:done]
**{vB2} v $=[義項(xiàng):"⑷~誦",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,形式動(dòng)詞:NO,……,語義類:對(duì)待,配價(jià)數(shù):2]{主體:[語義類:人],客體:[語義類:人為事物|抽象事物]}
=> V $=[VSUBC:VO,VMORF:REGU,OBJTYPE:NP|CS]
**{n} n $=[名詞子類:na,前名:NO,前動(dòng):NO,后名:NO,名狀語:NO,臨時(shí)量詞:NO,語義類:構(gòu)件]
=> N $=[NSUBC:NCONT,GEND:NONE]
圖1:核心詞典示例
本文主要介紹其中的第二項(xiàng)子任務(wù):漢英擴(kuò)充詞典子任務(wù)。
2 機(jī)器翻譯的詞典建設(shè)
雙語詞典建設(shè)是機(jī)器翻譯系統(tǒng)開發(fā)中的一個(gè)重要環(huán)節(jié)。
常見的機(jī)器翻譯詞典開發(fā)有以下幾種方法:
1. 人工開發(fā):組織人力物力,從頭開始開發(fā)。這種方法費(fèi)時(shí)費(fèi)力,但可以根據(jù)自己的需要任意裁減所需信息,易于和翻譯算法緊密結(jié)合;
2. 利用已有的電子詞典資源:目前通過各種方式可以獲取的雙語電子詞典已有很多,通過對(duì)這些詞典進(jìn)行收集整理,可以得到機(jī)器翻譯用的雙語詞典。這種方法的優(yōu)點(diǎn)是可以充分利用已有資源,省時(shí)省力,缺點(diǎn)是各種不同來源的詞典格式、體例、屬性字段等都不一致,詞典質(zhì)量參差不齊,整理加工比較麻煩;
3. 從雙語語料庫中抽取詞典:在各種雙語對(duì)齊語料基礎(chǔ)上,利用統(tǒng)計(jì)方法,從中抽取雙語對(duì)照詞語。這種方法的優(yōu)點(diǎn)是直接從語料中抽取,可以學(xué)習(xí)到一些活的翻譯方法,而這些譯法很可能在詞典中是找不到的,特別適用于一些專業(yè)領(lǐng)域的詞典抽取,或新詞語的學(xué)習(xí)。不過這種方法依賴于學(xué)習(xí)算法的好壞,會(huì)產(chǎn)生很多垃圾信息,要得到高質(zhì)量的詞典也需要較多的人工校對(duì);學(xué)習(xí)到的詞典信息依賴于語料庫,往往信息不夠全面,最好作為已有詞典的補(bǔ)充。
在我們的漢英機(jī)器翻譯系統(tǒng)中,已經(jīng)有了一部核心機(jī)器翻譯詞典,這部詞典含漢語詞條(以詞形word type計(jì)算)約五萬,這部核心詞典含有豐富的詞法、句法、語義搭配信息如圖1所示。這部詞典是采用上面所述的第一種方法,通過自己組織人力物力從頭開發(fā)的。詞典采用文本形式存儲(chǔ),使用我們專門編寫的詞典管理工具進(jìn)行管理。不過,在面對(duì)真實(shí)的文本的時(shí)候,這個(gè)詞典的規(guī)模就顯得有點(diǎn)太小了,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際翻譯的需要。在我們的新版本機(jī)器翻譯系統(tǒng)中使用了一個(gè)獨(dú)立的分詞程序,而這個(gè)分詞程序所用的分詞詞典就有詞語8萬多條,這樣就導(dǎo)致很多分詞程序切分出的詞語無法翻譯。面對(duì)這種情況,我們決定采用上述的第二種方法,構(gòu)造一部擴(kuò)充的漢英機(jī)器翻譯詞典。
3 擴(kuò)充詞典的收集與整理
3.1 擴(kuò)充詞典的目標(biāo)
擴(kuò)充詞典(下面我們又稱目標(biāo)詞典)應(yīng)該滿足以下三方面要求:
1. 面向通用領(lǐng)域:擴(kuò)充詞典不是專業(yè)詞典,不應(yīng)該收入專業(yè)性太強(qiáng)的詞語;
2. 詞匯量足夠大:擴(kuò)充詞典的詞匯量不應(yīng)太少,按照我們事先的估計(jì),至少應(yīng)達(dá)到20~30萬詞對(duì)的數(shù)量級(jí);
3. 每個(gè)詞對(duì)的信息雖然不必像核心詞典那么豐富,至少應(yīng)該含有以下幾個(gè)字段:
漢語詞語、漢語詞性、英語詞語、英語詞性、置信度
而且漢語詞性和英語詞性的標(biāo)記集應(yīng)該與核心詞典一致。我們稱之為一個(gè)五元組。
4. 通過在多部詞典中出現(xiàn)的頻次的統(tǒng)計(jì),也可以得到雙語詞對(duì)的置信度信息。這種置信度信息雖然不是直接從雙語語料庫統(tǒng)計(jì)得到的,但也有一定的概率意義。
詞典在收集過程中采用數(shù)據(jù)庫進(jìn)行管理,這樣便于利用成熟的數(shù)據(jù)庫管理工具進(jìn)行操作。最后得到的詞典再通過文本形式提交給翻譯程序,由翻譯程序建立索引、進(jìn)行查詢。
3.2 擴(kuò)充詞典的收集
確定了目標(biāo)以后,我們開始從各種途徑收集一些的英漢和漢英詞典,加上我們?cè)鹊囊恍┓e累,總共得到6部電子版的詞典,本文把這六部詞典稱為原始詞典。這些詞典的總體情況如下表所示:
詞典
方向
規(guī)模
類型
A
英漢
12萬詞對(duì)
背單詞軟件(各類大中學(xué)學(xué)英語課本、英語學(xué)習(xí)類書籍共30余本)
B
漢英
18萬詞對(duì)
書面詞典
C
漢英
17萬詞對(duì)
書面詞典
D
漢英
12萬詞對(duì)
網(wǎng)絡(luò)詞典
E
漢英
8萬詞對(duì)
網(wǎng)絡(luò)詞典
F
漢英
693詞對(duì)
一些常用新詞語
表1:擴(kuò)充詞典的來源
3.3 擴(kuò)充詞典的整理
利用原始詞典并不能通過簡單合并得到所需的擴(kuò)充詞典。由于詞典來源不一,導(dǎo)致了很多問題。其中的主要問題包括:
l 格式不一致:由于詞典來源不一,格式、體例都不一致,有的格式比較規(guī)整,有的就比較混亂;
l 錄入排版錯(cuò)誤和格式錯(cuò)誤:錄入、排版、格式方面的錯(cuò)誤很多,需要認(rèn)真清理;
l 詞性標(biāo)記不一致:每部詞典的詞性標(biāo)記都不一致,而且都與核心詞典的詞性標(biāo)記不一致;
l 詞性標(biāo)記不完整:很多詞典甚至沒有詞性標(biāo)記。
可以看到原始詞典面臨的問題是非常雜亂的,由于數(shù)量巨大,如果都采用人工校對(duì)的方法,人力、物力的消耗都是難以承受的。為此我們主要采用了人機(jī)互助的辦法,以自動(dòng)處理為主,對(duì)于一些自動(dòng)處理無法解決的問題,輔以人工校對(duì)。實(shí)踐證明,這種方法是成功的,我們只采用了較少的人工校對(duì),就得到了一部規(guī)模較大、初步可用的機(jī)器翻譯擴(kuò)充詞典。
擴(kuò)充詞典的整理按照以下幾個(gè)步驟進(jìn)行:
1. 詞條拆分:由于我們的目標(biāo)詞典的每個(gè)詞條是一個(gè)五元組(漢語詞語,漢語詞性,英語詞語,英語詞性,置信度),而原始詞典中,往往是將一個(gè)源語言詞語解釋成詞性相同或不同的多個(gè)目標(biāo)語詞語,因此需要將一個(gè)原始詞典的詞條拆分成一個(gè)或多個(gè)目標(biāo)詞典的詞條。通過詞條拆分,詞典就可以裝入數(shù)據(jù)庫中,后續(xù)的步驟都是在數(shù)據(jù)庫上面進(jìn)行操作。
2. 格式整理:原始詞典中存在大量的格式錯(cuò)誤,需要校正,還有很多的附加信息(如領(lǐng)域信息、解釋性信息)需要濾掉。
3. 詞性標(biāo)記歸一化:由于每部原始詞典的詞性標(biāo)記信息都不一致,而且與核心詞典的詞性標(biāo)記也不一致,因此要將原始詞典的詞性標(biāo)記映射到核心詞典的詞性標(biāo)記;
4. 詞性標(biāo)記補(bǔ)齊:由于原始詞典中很多詞沒有詞性標(biāo)記,而目標(biāo)詞典中所有詞條(五元組)都必須有完整的詞性標(biāo)記,因此對(duì)于原始詞典中缺少的詞性標(biāo)記要補(bǔ)上,并給出置信度信息;
5. 詞條合并:將來自不同原始詞典的相同詞條合并為一個(gè)詞條,同時(shí)將置信度求和。
在詞典整理過程中,必然設(shè)計(jì)一個(gè)人工校對(duì)的問題,如何實(shí)現(xiàn)人機(jī)互助的校對(duì)?如何用最少的人力、快速有效并且高質(zhì)量的完成以上工作,是這項(xiàng)工作的一個(gè)關(guān)鍵。我們把握的原則是:能夠用機(jī)器做的事盡量不用人做;通過計(jì)算機(jī)程序,將無法由人工完成的復(fù)雜的校對(duì)工作分解成很多非常單一的校對(duì)任務(wù),以盡可能地提高校對(duì)的質(zhì)量和效率。
在我們的實(shí)際工作中,由于時(shí)間的限制,我們只在上述的第一步和第二步(詞條拆分和格式整理)完成了人工校對(duì),后面幾步都是全自動(dòng)進(jìn)行的。雖然這免不了有很多錯(cuò)誤,不過總體上詞典還是可用的,而且概率信息的引入,也使得這些錯(cuò)誤的影響降低到很低的程度。
下面我們分別就以上五個(gè)步驟介紹我們的具體做法。
3.3.1 詞條拆分
原始詞典的詞條可能是以下形式:
complex=a. 復(fù)雜的, n. 復(fù)合體;綜合建筑
通過詞條拆分,要變成以下形式:
漢語詞條
漢語詞性
英語詞條
英語詞性
復(fù)雜的
a.
complex
復(fù)合體
n.
complex
綜合建筑
n.
complex
當(dāng)然,實(shí)際操作并不這么簡單,會(huì)遇到很多復(fù)雜的格式問題,有時(shí)還需要引入人工校對(duì)。
通過這種方式,將原始詞典從文本形式轉(zhuǎn)換成了數(shù)據(jù)庫形式,便于后面的進(jìn)一步處理。
3.3.2 格式整理
寫入.ykh文件
省略號(hào)自動(dòng)處理
或…嗎?
寫入.slh文件
輸出結(jié)果
人工校對(duì)
人工校對(duì)
人工校對(duì)
寫入.fkh文件
寫入.err文件
圓括號(hào)自動(dòng)處理
(或)嗎?
人工校對(duì)
其他錯(cuò)誤處理
待整理詞典文件(.txt文件)
方括號(hào)自動(dòng)處理
圖2:詞典格式整理過程示例
失敗
失敗
失敗
失敗
成功
成功
成功
成功
每一部原始詞典的格式都不相同,所以處理的方法也不盡相同。圖2是其中一部詞典的格式處理過程。
這種做法的好處有兩點(diǎn):1.自動(dòng)處理階段處理了大部分的格式問題。比如方括號(hào)的處理,很大一部分的方括號(hào)都是領(lǐng)域信息,而領(lǐng)域信息的種類是有限的,只要把表示領(lǐng)域信息的方括號(hào)處理好,剩下需要人工校對(duì)的工作量就很小了;2.通過這種逐級(jí)處理的方式,每一次人工校對(duì)的工作都變得非常單一,這一方面減輕了校對(duì)者在工作中的大腦思維活動(dòng)的負(fù)擔(dān),使得校對(duì)國內(nèi)工作的速度和質(zhì)量都有所提高,同時(shí)也使得校對(duì)的工作量計(jì)算更為合理,有利于控制成本。
3.3.3 詞性標(biāo)記歸一化
要為每一步原始詞典的詞性標(biāo)記建立到核心詞典的詞性標(biāo)記之間的映射關(guān)系。這樣,絕大部分詞性標(biāo)記歸一化工作可以自動(dòng)完成。個(gè)別情況需要人工校對(duì)(暫時(shí)沒做)。
3.3.4 詞性標(biāo)記補(bǔ)齊
原始詞典中,很多詞語都沒有標(biāo)記詞性。英漢詞典中,漢語詞語沒有標(biāo)注詞性。漢英詞典中,幾乎都沒有任何詞性信息。所以,詞性標(biāo)記補(bǔ)齊是一件非常重要的工作。
詞性補(bǔ)齊需要用到兩部(源語言和目標(biāo)語言)帶詞性標(biāo)注的單語詞典。這兩部單語詞典的來源除了已經(jīng)整理的原始詞典以外,還利用了機(jī)器翻譯系統(tǒng)的核心詞典。
另外,需要用到一個(gè)雙語詞性對(duì)照表,也就是說,對(duì)于源語或譯語的每一種詞性,要給出其最可能的對(duì)譯詞性。這個(gè)表根據(jù)語言知識(shí)很容易構(gòu)造。
算法1:詞性補(bǔ)齊算法
1. 如果一種語言詞語A詞性已知,另一種語言詞語B詞性未知:
a) 按照算法2或者算法3,判斷詞語B的詞性;
b) 如果詞語B有多個(gè)詞性
i. 如果詞語B的詞性中有與詞語A的詞性對(duì)應(yīng)的詞性,那么只保留這種詞性,刪除詞語B的其他詞性,生成一個(gè)五元組,置信度為1;
ii. 否則保留詞語B的所有詞性,將該五元組拆分成多個(gè)五元組,這些五元組的置信度都是1/n,n為B的詞性個(gè)數(shù);
c) 如果詞語B只有一個(gè)詞性,那么生成一個(gè)五元組,置信度為1;
d) 如果詞語B的詞性沒有判斷出來,將詞語B的詞性設(shè)置成與詞語A的詞性相對(duì)應(yīng)的詞性,生成一個(gè)五元組,置信度為0.5;
2. 如果雙語詞性都未知:
a) 首先分別使用算法2和算法3,判斷兩個(gè)詞的詞性;
b) 如果兩個(gè)詞語的詞性都已判斷出來
i. 如果兩個(gè)詞的詞性中有些詞性組合滿足對(duì)應(yīng)關(guān)系,那么只保留這些詞性組合,生成相應(yīng)的五元組,刪除其他詞性,生成的五元組置信度為1;
ii. 如果兩個(gè)詞的詞性中沒有詞性組合滿足對(duì)應(yīng)關(guān)系,那么都保留,兩兩對(duì)應(yīng)生成五元組,這些五元組置信度為1/n,其中n為五元組的個(gè)數(shù);
c) 如果只判斷出一個(gè)詞的詞性,那么將另一個(gè)詞的詞性設(shè)置為已知詞性的對(duì)應(yīng)詞性,生成相應(yīng)的五元組,置信度均為0.5;
d) 如果兩個(gè)詞語都無法判斷出詞性,一律標(biāo)為名詞,生成五元組置信度為0.1。
在得到兩部單語詞典以后,對(duì)于每一個(gè)五元組,如果沒有詞性缺失,那么設(shè)置其置信度為1,如果有詞性缺失,那么利用以下算法進(jìn)行詞性補(bǔ)齊并計(jì)算置信度:
1. 查單語詞典,如果查到則返回成功;
2. 按照以下規(guī)則判斷漢語詞性:
a) 尾字為“的”=>形容詞
b) ……
3. 如果判斷出漢語詞性,返回成功,否則返回失敗;
算法2:漢語詞性判斷算法
1. 查單語詞典,如果查到則返回成功;
2. 按照以下規(guī)則判斷英語詞性:
a) 首字母大寫=>專有名詞
b) 如果是單詞=>根據(jù)詞綴判斷
c) 如果是短語=>根據(jù)首單詞判斷
i. 首單詞是冠詞=>名詞短語
ii. 首單詞是不定式to=>動(dòng)詞短語
iii. 首單詞是動(dòng)詞=>動(dòng)詞短語
iv. 首單詞是介詞=>介詞短語
d) ……
3. 如果判斷出英語詞性,返回成功,否則返回失??;
算法3:英語詞性判斷算法
3.3.5 詞條合并
最后一個(gè)步驟是詞條合并。詞條合并就是將漢語詞語、漢語詞性、英語詞語、英語詞性相同的五元組合并成一個(gè)五元組,其置信度是被合并的所有五元組的置信度之和。
3.4 輸出結(jié)果
詞條合并之前,共有681,676個(gè)詞條(五元組)。詞條合并之后,還有494,861個(gè)詞條。其中,不考慮詞性,漢英詞對(duì)大約有約41萬,單獨(dú)計(jì)算漢語詞形和英語詞性,分別有大約21萬。
最后得到的詞典,從直觀上看,質(zhì)量還是可以接受的,以下是兩個(gè)詞的例子:
阿姨
n,aunt,N,003
n,auntie,N,004
n,aunty,N,001
n,mothers sister,N,001
n,nurse,N,001
備份
n,backup,N,001
v,backup,V,001
v,make a copy of,V,001
v,reproduction,N,001
由于整理過程中,后面幾個(gè)步驟都沒有經(jīng)過校對(duì),詞典中也有不少錯(cuò)誤,不過這些錯(cuò)誤的詞條大多數(shù)置信度都比較小。
4 實(shí)驗(yàn)及結(jié)果
(作者注:下面的實(shí)驗(yàn)已經(jīng)完成,但由于時(shí)間關(guān)系,結(jié)果數(shù)據(jù)的統(tǒng)計(jì)來不及做。我們將會(huì)盡快補(bǔ)上這些數(shù)據(jù)。抱歉!)
我們的機(jī)器翻譯系統(tǒng)采用的是一種微引擎流水線體系結(jié)構(gòu)。
擴(kuò)充詞典在我們的機(jī)器翻譯系統(tǒng)中被兩個(gè)微引擎所使用:一個(gè)是詞典轉(zhuǎn)換微引擎。對(duì)于核心詞典中找不到的詞語,如果擴(kuò)充詞典中能找到,那么可以利用擴(kuò)充詞典的信息進(jìn)行翻譯;另一個(gè)是短語分析分析引擎,擴(kuò)充詞典中有很多詞在核心詞典和分詞詞典中都沒有,實(shí)際上這些詞大部分都是短語,這些短語被一個(gè)短語分析引擎利用作為短語引擎加入到了句法分析的過程中。
我們利用一個(gè)新華社新聞的測試語料庫進(jìn)行測試,測試集中含有800多個(gè)句子。我們分別計(jì)算了使用擴(kuò)充詞典前后無法翻譯的漢語詞語數(shù)目:使用擴(kuò)充詞典以前,有XXX個(gè)漢語詞語無法翻譯,使用后只有YYY個(gè)漢語詞語無法翻譯,可以看到,擴(kuò)充詞典的使用,大大減少了無法翻譯的詞語數(shù)目。
另外,我們利用了一個(gè)自動(dòng)評(píng)分工具,對(duì)這個(gè)測試集在使用擴(kuò)充詞典前后的翻譯結(jié)果進(jìn)行了自動(dòng)評(píng)測:使用擴(kuò)充詞典以前,翻譯結(jié)果的評(píng)分為:xxx,使用后翻譯結(jié)果的評(píng)分為yyy。實(shí)驗(yàn)證明,擴(kuò)充詞典的使用,對(duì)于改善翻譯的質(zhì)量有一定的效果。
參考文獻(xiàn):(暫缺,以后補(bǔ)上)
致謝(暫缺)
鏈接地址:http://m.italysoccerbets.com/p-12949910.html