機(jī)器翻譯理論和技術(shù).ppt
《機(jī)器翻譯理論和技術(shù).ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)器翻譯理論和技術(shù).ppt(126頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、機(jī)器翻譯理論和技術(shù),,主要內(nèi)容,機(jī)器翻譯概述 機(jī)器翻譯的歷史 機(jī)器翻譯與自然語(yǔ)言處理 機(jī)器翻譯所涉及的學(xué)科 機(jī)器翻譯基本策略和實(shí)現(xiàn)方法 機(jī)器翻譯的難點(diǎn) 機(jī)器翻譯的現(xiàn)狀,傳統(tǒng)的(基于規(guī)則)機(jī)器翻譯方法(理性方法) 詞法分析 詞性標(biāo)注 分詞(漢語(yǔ)、日語(yǔ)) 句法分析 基于CFG(上下文無(wú)關(guān)文法)的句法表示及其分析技術(shù) 基于擴(kuò)充的CFG(復(fù)雜特征集、合一運(yùn)算)的句法表示及其分析技術(shù) 語(yǔ)義分析 詞義及句義表示 基于格語(yǔ)法的句義分析 轉(zhuǎn)換、生成技術(shù),主要內(nèi)容(續(xù)1),基于語(yǔ)料庫(kù)的機(jī)器翻譯方法(經(jīng)驗(yàn)方法) 基于統(tǒng)計(jì)的機(jī)器翻譯方法 語(yǔ)言模型( N元文法) HMM模型與詞性標(biāo)注 PCFG文法與句法分析 統(tǒng)計(jì)機(jī)器
2、翻譯模型(SMT) 基于實(shí)例的機(jī)器翻譯方法 基于混合策略的機(jī)器翻譯方法,主要內(nèi)容(續(xù)2),所需的前導(dǎo)知識(shí),形式語(yǔ)言與自動(dòng)機(jī) 編譯技術(shù) 概率與統(tǒng)計(jì),參考書(shū)籍,趙鐵軍等,機(jī)器翻譯原理,哈爾濱工業(yè)大學(xué)出版社,2000 劉群等譯,自然語(yǔ)言理解(第二版),電子工業(yè)出版社,2005 苑春法等譯,統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ),電子工業(yè)出版社,2005 馮志偉等譯,自然語(yǔ)言處理綜論,電子工業(yè)出版社,2005 范明等譯,統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)--數(shù)據(jù)挖掘、推理與預(yù)測(cè),電子工業(yè)出版社,2004 王小捷等,自然語(yǔ)言處理技術(shù)基礎(chǔ),北京郵電大學(xué)出版社,2002 劉穎,計(jì)算語(yǔ)言學(xué),清華大學(xué)出版社,2002 姚天順,自然語(yǔ)言理解一種讓機(jī)器懂
3、得人類語(yǔ)言的研究(第2版),清華大學(xué)出版社,2002 黃昌寧等,語(yǔ)料庫(kù)語(yǔ)言學(xué),商務(wù)印書(shū)館,2002 馮志偉,計(jì)算語(yǔ)言學(xué)基礎(chǔ),商務(wù)印書(shū)館,2001 余士文,計(jì)算語(yǔ)言學(xué)概論,商務(wù)印書(shū)館,2003,Bonnie J. Dorr, et al, Survey of Current Paradigms in Machine Translation,Technical Report LAMP-TR-027, Language and Media Processing Lab, University of Maryland. Hutchins WJ, Machine Translation: Past, P
4、resent, Future. Chichester: Ellis Horwood, 1986 Arturo Trujillo, Translation Engines: Techniques for Machine Translation, Springer-Verlag London Limited 1999 Peter F. Brown, et al., A Statistical Approach to MT, Computational Linguistics, 1990,16(2) P.F. Brown, et al., The Mathematics of Statistical
5、 Machine Translation: Parameter Estimation, Computational Linguistics, 1993, 19(2),Makoto Nagao, A Framework of a Mechanical Translation between Japanese and English by Analog Principle, In A. Elithorn and R. Banerji(Eds.), Artificial and Human Intelligence. NATO Publications, 1984 James Allen, Natu
6、ral Language Understanding, The Benjamin/Cummings Publishing Company, Inc. 1987 Christopher D. Manning & Hinrich Schutze, Foundations of Statistical Natural Langugae Processing, Massachusetts Institute of Technology, 1999 Daniel Jurafsky & James H. Martin, Speech and Language Processing, Prentice-Ha
7、ll, 2000 Trevor Hastie, et al., The Elements of Statistical Learning--Data Mining, Inference, and Prediction, Springer-Verlag, New York, 2001,課程考核,Projects 提交要求(每個(gè)project) 報(bào)告(說(shuō)明基本做法) 源程序及可運(yùn)行的程序,機(jī)器翻譯概述,機(jī)器翻譯(Machine Translation,簡(jiǎn)稱MT)是指利用計(jì)算機(jī)實(shí)現(xiàn)自然語(yǔ)言(英語(yǔ)、漢語(yǔ)等)之間的自動(dòng)翻譯。 文本機(jī)器翻譯 語(yǔ)音機(jī)器翻譯 機(jī)器輔助翻譯(Machine Aided Tran
8、slation或Computer Aided Translation,簡(jiǎn)稱MAT或CAT) 翻譯記憶體(Translation Memory,簡(jiǎn)稱TM) 雙語(yǔ)對(duì)照的文本編輯 ...,機(jī)器翻譯歷史,1947,Warren Weavers memo 1954,第一個(gè)公開(kāi)展示的俄英MT原型系統(tǒng) 1966,美國(guó)科學(xué)院的ALPAC報(bào)告宣告機(jī)器翻譯走入低谷 1970s,Systran(1970),Meteo(1976), Early 1980s,復(fù)蘇,Eurotra,Mu Late 1980searly 1990s,商品化系統(tǒng)投入市場(chǎng),語(yǔ)音翻譯,統(tǒng)計(jì)機(jī)器翻譯 Late 1990s,Internet,MAT
9、,EBMT,I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need do is strip off the code in order to retrieve the information contained in the text,,機(jī)器翻譯與自然語(yǔ)言處理,自然語(yǔ)言處理(NLP)是指用
10、計(jì)算機(jī)對(duì)語(yǔ)言信息進(jìn)行處理的方法和技術(shù)。 與NLP相近的兩個(gè)研究領(lǐng)域: 自然語(yǔ)言理解(NLU):強(qiáng)調(diào)對(duì)語(yǔ)言含義和意圖的深層次解釋 計(jì)算語(yǔ)言學(xué)(CL):強(qiáng)調(diào)可計(jì)算的語(yǔ)言理論,NLP技術(shù)的應(yīng)用,機(jī)器翻譯 自動(dòng)摘要 文本分類 信息檢索 信息抽取 自動(dòng)問(wèn)答 情感分析 ......,自動(dòng)摘要(Text Summarization),利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。 壓縮比,文本分類(Text Classification),利用計(jì)算機(jī)將一篇文章歸于預(yù)先給定的某一類或某幾類的過(guò)程。 文本表示 相似度計(jì)算 可用于信息過(guò)濾(Information Filtering
11、),信息檢索(Information Retrieval,IR),主題相關(guān)的文本獲取。 google、百度、...(基于關(guān)鍵詞的) 倒排文檔,信息抽?。↖nformation Extraction,IE),主題相關(guān)的信息獲取 信息抽取是指從非結(jié)構(gòu)化或半結(jié)構(gòu)化的自然語(yǔ)言文本中提取出與某個(gè)主題相關(guān)的結(jié)構(gòu)化信息。 IE對(duì)數(shù)據(jù)挖掘的支持,新華社北京月日電(記者李術(shù)峰): 中國(guó)農(nóng)工民主黨第十二屆中央常務(wù)委員會(huì)第一次會(huì)議今天在北京召開(kāi)。 會(huì)議研究通過(guò)了貫徹落實(shí)“兩會(huì)”精神的有關(guān)決定,審議通過(guò)了中國(guó)農(nóng)工民主黨中央年工作要點(diǎn)(草案),并任命了中央副秘書(shū)長(zhǎng)。 農(nóng)工民主黨中央主席蔣正華主持了會(huì)議,他說(shuō),農(nóng)工民主黨
12、有多名黨員作為代表和委員參加了今年的“兩會(huì)”,各位黨員要認(rèn)真履行代表和委員的職責(zé),開(kāi)好會(huì),在年的工作中認(rèn)真貫徹“兩會(huì)”精神,加強(qiáng)農(nóng)工民主黨的自身建設(shè),推動(dòng)事業(yè)進(jìn)一步發(fā)展,為建設(shè)有中國(guó)特色社會(huì)主義事業(yè)作出新的貢獻(xiàn)。 會(huì)前,農(nóng)工民主黨中央邀請(qǐng)參加“兩會(huì)”的來(lái)自全國(guó)各省、自治區(qū)、直轄市的農(nóng)工民主黨黨員進(jìn)行了聯(lián)誼活動(dòng)。,信息抽取實(shí)例:會(huì)議報(bào)道(人民日?qǐng)?bào)1998-03-09),信息抽取的結(jié)果,自動(dòng)問(wèn)答(Question Answering,QA),針對(duì)用戶提出的問(wèn)題,給出具體的答案。 問(wèn)句理解和答案生成。,情感分析(Sentiment Analysis或 Opinion Analysis ),分析文章對(duì)
13、某個(gè)對(duì)象的態(tài)度是正面還是負(fù)面。 應(yīng)用于:市場(chǎng)決策、公共關(guān)系、...,自然語(yǔ)言處理的主要任務(wù),語(yǔ)言分析 詞法分析:形態(tài)還原、詞性標(biāo)注、命名實(shí)體識(shí)別、分詞(漢語(yǔ))等 句法分析:完全句法分析、組塊分析、依存分析 語(yǔ)義分析:詞義、句義(依存、格關(guān)系、...)、篇章(上下文分)(指代、實(shí)體關(guān)系) 語(yǔ)言生成 多語(yǔ)言處理:對(duì)齊、轉(zhuǎn)換 不同的應(yīng)用對(duì)上述任務(wù)有不同的要求。 MT是NLP技術(shù)的典型應(yīng)用,它幾乎涵蓋了NLP各個(gè)任務(wù)。,自然語(yǔ)言處理所涉及的學(xué)科,計(jì)算語(yǔ)言學(xué):各種語(yǔ)法、語(yǔ)義理論 計(jì)算機(jī)科學(xué)(包括人工智能) 數(shù)學(xué):邏輯、概率與統(tǒng)計(jì)、信息論,等 哲學(xué) 心理學(xué),直譯(Direct):從原文句子的表層(詞、詞組
14、或短語(yǔ))出發(fā),直接轉(zhuǎn)換成譯文(必要的詞序調(diào)整)。 轉(zhuǎn)換(Transfer):對(duì)源語(yǔ)言進(jìn)行分析,得到一個(gè)基于源語(yǔ)言的中間表示;然后,把這個(gè)中間表示轉(zhuǎn)換成基于目標(biāo)語(yǔ)言的中間表示;從基于目標(biāo)語(yǔ)言的中間表示生成目標(biāo)語(yǔ)言。 中間語(yǔ)(Interlingua):對(duì)源語(yǔ)言進(jìn)行分析,得到一個(gè)獨(dú)立于源語(yǔ)言和目標(biāo)語(yǔ)言的、基于概念的中間表示;從這個(gè)中間表示生成目標(biāo)語(yǔ)言。,機(jī)器翻譯的基本策略,,,,中間語(yǔ)言,源語(yǔ)言,目標(biāo)語(yǔ)言,,,,,,分析,生成,詞匯轉(zhuǎn)換,句法轉(zhuǎn)換,語(yǔ)義轉(zhuǎn)換,(詞法、句法、語(yǔ)義),(詞法、句法、語(yǔ)義),機(jī)器翻譯的實(shí)現(xiàn)方法,基于語(yǔ)言規(guī)則的理性方法(Rationalist approach) 基于以規(guī)則形
15、式表達(dá)的語(yǔ)言知識(shí)(詞、句法、語(yǔ)義以及轉(zhuǎn)換)進(jìn)行推理。(Rule-based MT) 又稱傳統(tǒng)的翻譯方法,強(qiáng)調(diào)人對(duì)語(yǔ)言知識(shí)的理性整理。 Chomsky:先天語(yǔ)言能力,主宰19601985 基于語(yǔ)料庫(kù)的經(jīng)驗(yàn)方法(Empiricist approach) 以大規(guī)模語(yǔ)料庫(kù)(單語(yǔ)和雙語(yǔ))為語(yǔ)言知識(shí)基礎(chǔ)。包括: 基于統(tǒng)計(jì)的方法(SMT) 利用統(tǒng)計(jì)學(xué)習(xí)方法自動(dòng)獲取和運(yùn)用隱含在語(yǔ)料庫(kù)中的知識(shí) 翻譯知識(shí)的獲取在翻譯之前完成,體現(xiàn)為一系列統(tǒng)計(jì)數(shù)據(jù)(參數(shù)) 基于實(shí)例的方法(EBMT) 基于類比原理,通過(guò)相似度計(jì)算,在語(yǔ)料庫(kù)中找出最相似的句子 翻譯知識(shí)的獲取在翻譯之前沒(méi)有全部完成,翻譯過(guò)程中還需要語(yǔ)料庫(kù),混合方法 理
16、性方法的優(yōu)、缺點(diǎn) 相應(yīng)的語(yǔ)言學(xué)理論基礎(chǔ)好 描述精確 效率高 知識(shí)獲取困難(高級(jí)勞動(dòng)) 魯棒性(適應(yīng)性)差:不完備的規(guī)則系統(tǒng)將導(dǎo)致推理的失敗 知識(shí)擴(kuò)充困難,很難保證規(guī)則之間的一致性 經(jīng)驗(yàn)方法的優(yōu)、缺點(diǎn) 知識(shí)獲取容易(低級(jí)勞動(dòng)) 魯棒性好:概率大的作為結(jié)果 擴(kuò)充容易、一致性容易維護(hù) 相應(yīng)的語(yǔ)言學(xué)理論基礎(chǔ)差 缺乏對(duì)語(yǔ)言學(xué)知識(shí)的深入利用,過(guò)于機(jī)械 效率低 利用各家之長(zhǎng),相互融合,機(jī)器翻譯的難點(diǎn),歧義處理:有限的詞匯和規(guī)則表達(dá)復(fù)雜的、無(wú)限的語(yǔ)言 語(yǔ)言知識(shí)的表示、獲取和運(yùn)用 成語(yǔ)和慣用型的處理 對(duì)語(yǔ)言的靈活性和動(dòng)態(tài)性的處理 靈活性:同一個(gè)意圖的不同表達(dá),甚至包含錯(cuò)誤的語(yǔ)法等 動(dòng)態(tài)性:語(yǔ)言在不斷的變化,如:
17、新詞等 上下文和世界知識(shí)(語(yǔ)言無(wú)關(guān))的利用和處理,漢語(yǔ)處理的難點(diǎn),缺乏計(jì)算語(yǔ)言學(xué)的句法/語(yǔ)義理論,大都借用基于西方語(yǔ)言的句法/語(yǔ)義理論 詞法分析 分詞 詞性標(biāo)注難 句法分析 主動(dòng)詞識(shí)別難 詞法分類與句法結(jié)構(gòu)對(duì)應(yīng)差 語(yǔ)義分析 句法結(jié)構(gòu)與句義對(duì)應(yīng)差 時(shí)體態(tài)確定難 (漢語(yǔ)無(wú)形態(tài)變化) 資源(語(yǔ)料庫(kù))缺乏,機(jī)器翻譯的現(xiàn)狀,目前,機(jī)器翻譯主要在一些簡(jiǎn)單的翻譯任務(wù)中起到了一定的效果: 對(duì)翻譯質(zhì)量要求不高的領(lǐng)域,如:網(wǎng)頁(yè)瀏覽等 子語(yǔ)言 輔助翻譯(后編輯) 任意文本的高質(zhì)量的全自動(dòng)翻譯目前還很難實(shí)現(xiàn)。,傳統(tǒng)的(基于規(guī)則)機(jī)器翻譯方法,又稱理性方法 強(qiáng)調(diào)對(duì)語(yǔ)言知識(shí)的理性整理 受計(jì)算語(yǔ)言學(xué)理論指導(dǎo) 注重語(yǔ)言分析,
18、翻譯過(guò)程體現(xiàn)為“分析(轉(zhuǎn)換)生成” 基于規(guī)則的知識(shí)表示和推導(dǎo) 翻譯規(guī)則(數(shù)據(jù))與程序分離 翻譯程序體現(xiàn)為規(guī)則語(yǔ)言的解釋器!,翻譯的基本任務(wù),源語(yǔ)言分析 詞法分析 句法分析 語(yǔ)義分析 轉(zhuǎn)換 不同層次 詞序、結(jié)構(gòu)、語(yǔ)義的調(diào)整 譯詞選擇 目標(biāo)語(yǔ)言生成 詞形變化 增/刪詞,自然語(yǔ)言的分類(基于形態(tài)結(jié)構(gòu)),分析型語(yǔ)言 詞形變化很少 沒(méi)有表示詞的語(yǔ)法功能的附加成分,由詞序和虛詞表示詞之間的語(yǔ)法關(guān)系 漢語(yǔ)、藏語(yǔ)等 黏著型語(yǔ)言 有詞形變化 詞的語(yǔ)法意義(功能)由附加成分表達(dá) 芬蘭語(yǔ)、日語(yǔ)等 屈折型語(yǔ)言 有詞形變化 詞的語(yǔ)法意義由詞的形態(tài)變化來(lái)表示 英語(yǔ)、德語(yǔ)、法語(yǔ)等 另外,還可以按SVO型(主動(dòng)賓)、VSO型
19、(動(dòng)主賓)和SOV 型(主賓動(dòng)) 分類,詞法分析,形態(tài)還原(針對(duì)英語(yǔ)、德語(yǔ)、法語(yǔ)等) 把句子中的詞還原成基本詞形,作為詞的其它信息(詞典、個(gè)性規(guī)則)的索引。 詞性標(biāo)注 為句子中的詞標(biāo)上預(yù)定義類別集合(標(biāo)注集)中的類。 分詞(針對(duì)漢語(yǔ)、日語(yǔ)等) 識(shí)別出句子中的詞。 命名實(shí)體識(shí)別 人名 地名 機(jī)構(gòu)名,形態(tài)還原(英語(yǔ)),構(gòu)詞特點(diǎn) 屈折變化:詞尾和詞形變化,詞性不變。如: study, studied,studied,studying speak,spoke,spoken,speaking 派生變化:加前綴和后綴,詞性發(fā)生變化。如: friend,friendly,friendship,... 復(fù)合變
20、化:多個(gè)單詞以某種方式組合成一個(gè)詞。 還原規(guī)則 通用規(guī)則:變化有規(guī)律 個(gè)性規(guī)則:變化無(wú)規(guī)律,形態(tài)還原規(guī)則舉例,英語(yǔ)“規(guī)則動(dòng)詞”還原 *s - * (SINGULAR3) *es - * (SINGULAR3) *ies - *y (SINGULAR3) *ing - * (VING) *ing - *e (VING) *ying - *ie (VING) *??ing - *? (VING) *ed - * (PAST)(VEN) *ed - *e (PAST)(VEN) *ied - *y (PAST)(VEN) *??ed - *? (PAST)(VEN),英語(yǔ)不規(guī)則動(dòng)詞還原 went -
21、 go (PAST) gone - go (VEN) sat - sit (PAST) (VEN),形態(tài)還原算法,輸入一個(gè)單詞 如果詞典里有該詞,輸出該詞及其屬性,轉(zhuǎn)4,否則,轉(zhuǎn)3 如果有該詞的還原規(guī)則,并且,詞典里有還原后的詞,則輸出還原后的詞及其屬性,轉(zhuǎn)4,否則,調(diào)用 如果還有單詞,轉(zhuǎn)(1),否則,結(jié)束。 Proj. 1 實(shí)現(xiàn)一個(gè)英語(yǔ)單詞還原工具。 (詞典:,詞性標(biāo)注,為句子中的詞標(biāo)上預(yù)定義類別集合(標(biāo)注集)中的類,為后續(xù)的句法/語(yǔ)義分析提供必要的信息。 標(biāo)注體系 標(biāo)注方法,詞性標(biāo)注體系,詞的分類 按形態(tài)和句法功能(句法相關(guān)性) 按表達(dá)的意思(語(yǔ)義相關(guān)性) 兼顧上述二者 為什么要分類?分類
22、帶來(lái)的問(wèn)題? 兼類詞 一個(gè)詞具有兩個(gè)或者兩個(gè)以上的詞性 英文的Brown語(yǔ)料庫(kù)中,10.4%的詞是兼類詞。例如: The back door On my back Promise to back the bill 漢語(yǔ)兼類詞,例如: 把門鎖上, 買了一把鎖 他研究..., 研究工作 漢語(yǔ)詞的兼類更多?與所采用的分類體系是否有關(guān)?,英語(yǔ)詞的分類,開(kāi)放類(open class) Nouns 句法上:可有限定詞、可作物主、有復(fù)數(shù)形式 語(yǔ)義上:人名、地名和物名 Verbs 句法上:幾種詞形變化 語(yǔ)義上:動(dòng)作、過(guò)程(一系列動(dòng)作) Adjectives 句法上:修飾Nouns等 語(yǔ)義上:性質(zhì) Adverb
23、s 句法上:修飾Verbs等 語(yǔ)義上:方向、程度、方式、時(shí)間,封閉類(closed class,function words) Determiners Pronouns Prepositions Conjunctions Auxiliary verbs Particles Numerals,詞性標(biāo)注方法,規(guī)則方法 詞典和規(guī)則提供候選詞性 消歧規(guī)則進(jìn)行消歧 統(tǒng)計(jì)方法 選擇最可能的標(biāo)注 訓(xùn)練用語(yǔ)料庫(kù)(已標(biāo)注) HMM標(biāo)注等方法 基于轉(zhuǎn)換學(xué)習(xí)的方法 統(tǒng)計(jì)學(xué)習(xí)規(guī)則 用規(guī)則方法進(jìn)行標(biāo)注,漢語(yǔ)分詞(切分),詞是語(yǔ)言中最小的能獨(dú)立運(yùn)用的單位,也是語(yǔ)言信息處理的基本單位。 分詞是指根據(jù)某個(gè)分詞規(guī)范,把一個(gè)“字
24、”串分成“詞”串。 分詞規(guī)范 難以確定何謂漢語(yǔ)的“詞” 單字詞與語(yǔ)素的界定:豬肉、牛肉 詞與短語(yǔ)(詞組)的界定:黑板、黑布 信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范:GB-13715(1992) 具體系統(tǒng)可根據(jù)各自的需求制定規(guī)范,分詞方法,一般通過(guò)分詞詞典和分詞規(guī)則庫(kù)進(jìn)行分詞。主要方法有: 正向最大匹配(FMM)或逆向最大匹配(RMM) 從左至右(FMM)或從右至左(RMM),取最長(zhǎng)的詞 會(huì)忽略“詞中有詞”的現(xiàn)象:“幼兒園 地 節(jié)目” 雙向最大匹配 分別采用FMM和RMM進(jìn)行分詞 如果結(jié)果一致,則認(rèn)為成功;否則, 采用消歧規(guī)則進(jìn)行消歧(交集型歧義): 正向最大、逆向最小匹配 發(fā)現(xiàn)組合型歧義 逐詞遍歷匹配 在
25、全句中取最長(zhǎng)的詞,去掉之,對(duì)剩下字符串重復(fù)該過(guò)程 設(shè)立切分標(biāo)記 收集詞首字和詞尾字,把句子分成較小單位,再用某些方法切分 全切分 獲得所有可能的切分,選擇最大可能的切分,切分歧義及歧義字段的種類,交集型歧義字段 ABC切分成AB/C或A/BC 如:“和平等” “獨(dú)立/自主/和/平等/獨(dú)立/的/原則” “討論/戰(zhàn)爭(zhēng)/與/和平/等/問(wèn)題” 組合型歧義字段 AB切分成AB或A/B 如:“馬上” “他/騎/在/馬/上” “馬上/過(guò)來(lái)” 混合型歧義 由交集型歧義和組合型歧義嵌套與交叉而成 如:“太平、太平淡” “這/篇/文章/寫/得/太/平淡/了” “這/墻/抹/得/太/平/了” “即使/太平/時(shí)期/也
26、/不/應(yīng)該/放松/警惕”,南京市長(zhǎng)江大橋...,南京市長(zhǎng)江二橋...,偽歧義與真歧義 偽歧義字段指在任何情況下只有一種切分 “為人民”只有一種切分:“為/人民”,如:“為/人民/服務(wù)” 根據(jù)歧義字段本身就能消歧 真歧義字段指在不同的情況下有多種切分 “從小學(xué)”可以有多種切分: “從小/學(xué)” ,如:“從小/學(xué)/電腦” (“從小”是切分成“從小”還是“從/小”要根據(jù)分詞規(guī)范?。?“從/小學(xué)”,如:“他/從/小學(xué)/畢業(yè)/后” 根據(jù)歧義字段的上下文來(lái)消歧,基于規(guī)則的歧義字段消歧方法,利用歧義字串、前驅(qū)字串和后繼字串的句法、語(yǔ)義和語(yǔ)用信息: 句法信息 “陣風(fēng)”:根據(jù)前面是否有數(shù)詞來(lái)消歧。“一/陣/風(fēng)/吹
27、/過(guò)/來(lái)”、“今天/有/陣風(fēng)” 語(yǔ)義信息 “了解”:“他/學(xué)會(huì)/了/解/數(shù)學(xué)/難題”(“難題”一般是“解”而不是“了解”) 語(yǔ)用信息 “拍賣”:“乒乓球拍賣完了”,要根據(jù)場(chǎng)景(上下文)來(lái)確定 規(guī)則的粒度 基于詞(個(gè)性規(guī)則) 基于詞類、詞義(共性規(guī)則) Proj. 2 實(shí)現(xiàn)一個(gè)基于詞典與規(guī)則的漢語(yǔ)自動(dòng)分詞系統(tǒng)。 (詞典:,基于詞的轉(zhuǎn)換翻譯,翻譯過(guò)程 譯詞選擇 詞序調(diào)整 形態(tài)(詞形變化)生成 翻譯所基于的知識(shí) 對(duì)譯(雙語(yǔ))詞典及規(guī)則 調(diào)序規(guī)則 形態(tài)生成規(guī)則 問(wèn)題 沒(méi)有句法結(jié)構(gòu)和語(yǔ)義分析的指導(dǎo),轉(zhuǎn)換很難很好地進(jìn)行,特別是對(duì)句法/語(yǔ)義結(jié)構(gòu)相差很大的語(yǔ)言。 譯詞選擇和詞序調(diào)整工作可用的信息太少(利用原句
28、中的局部信息和已得到的譯詞信息) 。,句法分析(Parsing),句法分析的目的 判斷句子的合法性(句子識(shí)別) 確定句子的結(jié)構(gòu)(句子中單詞相互關(guān)聯(lián)的方式) 從機(jī)器翻譯角度:比詞一級(jí)的轉(zhuǎn)換提供更多的信息 基于上下文無(wú)關(guān)語(yǔ)法(CFG)的表示 CFG能描述大部分的自然語(yǔ)言結(jié)構(gòu) 可以構(gòu)造高效的基于CFG的句法分析器 通常采用樹(shù)形結(jié)構(gòu)來(lái)表示句法分析的結(jié)果,一個(gè)簡(jiǎn)單的產(chǎn)生式語(yǔ)法(英語(yǔ)),1. S - NP VP 2. VP - V NP 3. NP - NAME 4. NP - ART N 5. NAME - John 6. V - ate 7. ART - the 8. N - cat 9. .....
29、. 產(chǎn)生式59屬于詞法規(guī)則,一般由詞典與詞性標(biāo)注算法來(lái)描述,John ate the cat的句法分析結(jié)果,,,,,,,,,,,,S,NP,VP,NAME,John,V,NP,ate,ART,N,the,cat,優(yōu)秀語(yǔ)法的特征,通用性 能正確分析句子的范圍 選擇性 能判斷出錯(cuò)誤句子的范圍 可理解性 自身的簡(jiǎn)易程度 *魯棒性 對(duì)不合法句子的容忍度:He love her. 通用性與選擇性矛盾的處置,如:忽略主謂一致性檢查將導(dǎo)致無(wú)法區(qū)分下面句子的不同含義(歧義) Flying planes are dangerous. Flying planes is dangerous.,基于產(chǎn)生式的CFG分析
30、器,自頂向下 利用產(chǎn)生式,從S開(kāi)始,嘗試將S改寫/推導(dǎo)成與輸入句子相匹配的終結(jié)符號(hào)序列。 自底向上 利用產(chǎn)生式,嘗試將輸入句子規(guī)約到S。 回溯 從一個(gè)錯(cuò)誤的嘗試(改寫或規(guī)約)返回,進(jìn)行下一個(gè)嘗試。 保留改寫或規(guī)約的歷史 回溯需要 輸出正確的分析結(jié)果也需要,一個(gè)簡(jiǎn)單的自頂向下句法分析算法,語(yǔ)法 1. S - NP VP 2. NP - ART N 3. NP - ART ADJ N 4. VP - V 5. VP - V NP 位置計(jì)數(shù)器 1 The 2 dogs 3 cried 4 狀態(tài) 由符號(hào)表和當(dāng)前位置構(gòu)成,如:((NP VP) 1) 表示從位置1開(kāi)始尋找NP,且NP后面是VP。
31、初始狀態(tài)為:((S) 1) 狀態(tài)轉(zhuǎn)換 如果符號(hào)表的第一個(gè)符號(hào)是詞法符號(hào)(詞性),并且句子中當(dāng)前詞屬于該詞法類,則刪除符號(hào)表中第一個(gè)符號(hào),并更新當(dāng)前位置(加1),得到新的狀態(tài)。 否則,如果符號(hào)表的第一個(gè)符號(hào)是句法符號(hào),則依據(jù)語(yǔ)法獲得改寫該符號(hào)的所有產(chǎn)生式,把它們的右部作為符號(hào)表與當(dāng)前位置構(gòu)成狀態(tài);選擇其中一個(gè)作為新的狀態(tài),其它作為后備狀態(tài)(在回溯時(shí)使用)。 回溯 從后備狀態(tài)中取一個(gè)作為當(dāng)前狀態(tài),繼續(xù)分析,算法 1. 取 ((S) 1)作為當(dāng)前狀態(tài)(初始狀態(tài)),后備狀態(tài)為空。 2. 若當(dāng)前狀態(tài)為空,則失敗,算法結(jié)束, 3. 否則,若當(dāng)前狀態(tài)符號(hào)表為空, (1)當(dāng)前位置處于句子末尾,則成功,算法結(jié)束
32、 (2)當(dāng)前位置處于句子中間,轉(zhuǎn)5 4. 否則,進(jìn)行狀態(tài)轉(zhuǎn)換,若轉(zhuǎn)換成功,則轉(zhuǎn)2 5. 否則,回溯,轉(zhuǎn)2。,,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程(續(xù)),1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,搜索策略,深度優(yōu)先 后備狀態(tài)采用“棧” 后備狀態(tài)少,存儲(chǔ)效率高 面臨“左遞歸”問(wèn)題
33、廣度優(yōu)先 后備狀態(tài)采用“隊(duì)列” 后備狀態(tài)多,存儲(chǔ)效率不高,基于圖的自底向上句法分析(chart parsing),簡(jiǎn)單的自底向上句法分析效率不高,常常會(huì)重復(fù)嘗試相同的匹配操作(回溯之前已匹配過(guò))。 一種基于圖的句法分析,采用一個(gè)數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)已經(jīng)匹配過(guò)的結(jié)果,今后需要時(shí)可直接使用它們,不必重新匹配。(動(dòng)態(tài)規(guī)劃) 圖的構(gòu)成 結(jié)點(diǎn)表示句子中詞之間的位置數(shù)字 邊分為:非活動(dòng)邊和活動(dòng)邊 非活動(dòng)邊:已匹配的詞法符號(hào)或句法符號(hào) 活動(dòng)邊:未完全匹配的產(chǎn)生式,用加小圓圈標(biāo)記()的產(chǎn)生式來(lái)表示,如: NP - ART ADJ N NP - ART N,Chart Parsing句法分析算法,chart(非活動(dòng)邊
34、) 記錄分析中規(guī)約成功所得到的所有詞法和句法符號(hào) activearcs(活動(dòng)邊集) 記錄活動(dòng)邊 agenda(待處理表) 記錄等待加入chart的匹配成功的詞法和句法符號(hào) 上面的活動(dòng)邊、非活動(dòng)邊以及詞法和句法符號(hào)都帶有“始/終結(jié)點(diǎn)號(hào)”,重復(fù)下面的操作直到agenda為空并且輸入中沒(méi)有下一個(gè)詞 若agenda為空,則把句子中下一個(gè)詞的各種詞法符號(hào)(詞性)加入進(jìn)來(lái), 從agenda中取一個(gè)元素(設(shè)為C,位置為:p1-p2) 對(duì)下面形式的每個(gè)規(guī)則: X-CX1...Xn,在activearcs中增加一條活動(dòng)邊:X-C X1...Xn,位置為:p1-p2; X-C,把X加入agenda,位置為:p1-
35、p2 邊擴(kuò)展 將C加入到chart的位置p1-p2 對(duì)每個(gè)形式為:X-X1... C...Xn的活動(dòng)邊,若它在p0-p1之間,則在activearcs中增加一條活動(dòng)邊:X-X1... C ...Xn,位置:p0-p2 對(duì)每個(gè)形式為: X-X1... Xn C的活動(dòng)邊,若它在p0-p1之間,則在agenda中增加一個(gè)成分:X,位置為:p0-p2,Chart Parsing句法分析算法(續(xù)),“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程 (算法),1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART A
36、DJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,ART(1,2),agenda,5,6,a,mouse,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程 (算法),1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,N(2,3),agenda,5,6,
37、a,mouse,,,,N,NP(1,3),“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程 (算法),1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mouse,,,,N,NP(1,3),,,S - NP VP,,,,NP,,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4
38、,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mouse,,,,N,V(3,4),,,S - NP VP,,,,NP,,,,,VP - V NP,VP(3,4),,,V,,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART A
39、DJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mouse,,,,N,,,S - NP VP,,,,NP,,,,,VP - V NP,VP(3,4),,,V,,,,VP,,S(1,4),“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-A
40、RT ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mouse,,,,N,,,S - NP VP,,,,NP,,,,,VP - V NP,,,V,,,,VP,,S(1,4),,,S,,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mou
41、se,,,,N,,,S - NP VP,,,,NP,,,,,VP - V NP,,,V,,,,VP,,ART(4,5),,,S,,,,,NP - ART N,,,NP - ART ADJ N,,,,ART,,“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mouse,,,,
42、N,,,S - NP VP,,,,NP,,,,,VP - V NP,,,V,,,,VP,,N(5,6),,,S,,,,,NP - ART N,,,NP - ART ADJ N,,,,ART,,,,N,,NP(4,6),“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mous
43、e,,,,N,,,S - NP VP,,,,NP,,,,,VP - V NP,,,V,,,,VP,,,,S,,,,,NP - ART N,,,NP - ART ADJ N,,,,ART,,,,N,,NP(4,6),,,S - NP VP,,,,NP,,VP(3,6),“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N 3. NP-ART ADJ N 4. VP-V 5. VP-
44、V NP,,,,agenda,5,6,a,mouse,,,,N,,,S - NP VP,,,,NP,,,,,VP - V NP,,,V,,,,VP,,,,S,,,,,NP - ART N,,,NP - ART ADJ N,,,,ART,,,,N,,,,S - NP VP,,,,NP,,VP(3,6),,,VP,,S(1,6),“1 The 2 cat 3 caught 4 a 5 mouse 6”的分析過(guò)程,1,2,3,4,,,,The,cat,caught,ART,,,,NP - ART N,,,,NP - ART ADJ N,活動(dòng)邊,非活動(dòng)邊,1. S-NP VP 2. NP-ART N
45、3. NP-ART ADJ N 4. VP-V 5. VP-V NP,,,,agenda,5,6,a,mouse,,,,N,,,S - NP VP,,,,NP,,,,,VP - V NP,,,V,,,,VP,,,,S,,,,,NP - ART N,,,NP - ART ADJ N,,,,ART,,,,N,,,,S - NP VP,,,,NP,,,,VP,,S(1,6),,,S,,,Proj. 3 實(shí)現(xiàn)一個(gè)基于簡(jiǎn)單英語(yǔ)語(yǔ)法的chart句法分析器。,基于遞歸轉(zhuǎn)移網(wǎng)絡(luò)的語(yǔ)法表示,除了CFG的產(chǎn)生式規(guī)則外,遞歸轉(zhuǎn)移網(wǎng)絡(luò)(Recusive Transition Network,簡(jiǎn)稱RTN)是另一種表示自
46、然語(yǔ)言語(yǔ)法的形式化手段。 一個(gè)RTN是由結(jié)點(diǎn)和有向邊組成: 結(jié)點(diǎn)表示狀態(tài),起始狀態(tài)對(duì)應(yīng)于產(chǎn)生式規(guī)則中的一個(gè)句法符號(hào)。 有向邊可以是以下類型: CAT:詞法符號(hào)(詞性) WRD:詞 PUSH(句法符號(hào)):轉(zhuǎn)向其它轉(zhuǎn)移網(wǎng)絡(luò)的名 POP:成功結(jié)束當(dāng)前網(wǎng)絡(luò) JUMP:無(wú)條件轉(zhuǎn)移 一個(gè)RTN相當(dāng)于一個(gè)不確定的下推自動(dòng)機(jī),一個(gè)基于RTN的英語(yǔ)語(yǔ)法表示,NP,NP1,NP2,NP:,ART,N,pop,ADJ,S,S1,NP(push),V,NP,S2,S:,pop,PRON,NUM,1,2,3,1,2,1,2,返回,基于RTN的自頂向下句法分析,狀態(tài) (當(dāng)前結(jié)點(diǎn),當(dāng)前輸入位置,返回結(jié)點(diǎn)棧) 起始狀態(tài) (S
47、,1,NIL) 終止?fàn)顟B(tài) (NIL,n,NIL) n為句子的終止位置 后備狀態(tài) 回溯,狀態(tài)轉(zhuǎn)換 按下面滿足條件的邊進(jìn)行轉(zhuǎn)換,若有多個(gè)滿足條件的邊,則選其中一條邊的轉(zhuǎn)換結(jié)果作為新的當(dāng)前狀態(tài),其它邊的轉(zhuǎn)換結(jié)果作為后備狀態(tài)。 如果當(dāng)前邊為詞類(詞法符號(hào))并且句子中下一個(gè)詞屬于該詞類 更新輸入位置(+1) 更新當(dāng)前結(jié)點(diǎn)為當(dāng)前邊的目標(biāo)結(jié)點(diǎn) 如果當(dāng)前邊為PUSH(設(shè)為句法符號(hào)N) 將當(dāng)前邊的目標(biāo)結(jié)點(diǎn)加入返回結(jié)點(diǎn)棧 更新當(dāng)前結(jié)點(diǎn)為N的起始結(jié)點(diǎn) 如果當(dāng)前邊是POP且返回結(jié)點(diǎn)棧非空 取返回結(jié)點(diǎn)棧元素作為當(dāng)前結(jié)點(diǎn) 如果當(dāng)前邊是POP、返回結(jié)點(diǎn)棧為空且句子沒(méi)有剩余的詞 句法分析成功 回溯 后備狀態(tài)不為空,從中取一個(gè)
48、,繼續(xù)進(jìn)行前面的轉(zhuǎn)換 否則,失敗,句子“1One 2saw 3the 4man 5”的分析過(guò)程,,句法分析與邏輯程序設(shè)計(jì),邏輯程序設(shè)計(jì)是把程序組織成一組事實(shí)和一組推理規(guī)則,它基于謂詞演算(Predicate Calculus)進(jìn)行計(jì)算,計(jì)算過(guò)程由實(shí)現(xiàn)系統(tǒng)給出。 可以把語(yǔ)法寫成PROLOG的事實(shí)(公理)和子句(規(guī)則)形式(由謂詞構(gòu)成),推理過(guò)程由PROLOG的執(zhí)行機(jī)制自動(dòng)完成。,一個(gè)CFG語(yǔ)法的PROLOG表示,語(yǔ)法規(guī)則可表示成: s(P1,P3):-np(P1,P2),vp(P2,P3) np(P1,P3):-art(P1,P2),n(P2,P3) np(P1,P3):-name(P1,P3)
49、 pp(P1,P3):-p(P1,P2),np(P2,P3) vp(P1,P2):-v(P1,P2) vp(P1,P3):-v(P1,P2),np(P2,P3) vp(P1,P3):-v(P1,P2),pp(P2,P3) n(P1,P2):-word(W,P1,P2),isnoun(W) art(P1,P2):-word(W,P1,P2),isart(W) v(P1,P2):-word(W,P1,P2),isverb(W) name(P1,P2):-word(W,P1,P2),isname(W),詞典可表示成: isart(the) isname(john) isverb(ate) isnou
50、n(cat) ......,輸入句子“John ate the cat”可表示成: word(john,1,2) word(ate,2,3) word(the,3,4) word(cat,4,5) 通過(guò)查詢謂詞s(1,5)的真假來(lái)識(shí)別句子“John ate the cat”: ?- s(1,5) 標(biāo)準(zhǔn)PROLOG的搜索策略與自頂向下的深度優(yōu)先分析方法一致。,CFG在描述自然語(yǔ)言時(shí)存在的問(wèn)題,1. S - NP VP 4. VP - V 2. NP - ART N 5. VP - V NP 3. NP - ART ADJ N 上面的語(yǔ)法描述了英語(yǔ)的一個(gè)子集,同時(shí),它又會(huì)生成一些不合
51、法的英語(yǔ)句子,如: The student solve the problem The teacher disappeared the problem,一種可能的解決方案增加句法符號(hào),把NP分為NP-S和NP-P;把VP分成VP-S和VP-P: S-NP-S VP-S S-NP-P VP-P 把N分成N-S和N-P: NP-S-ART N-S NP-S-ART ADJ N-S NP-P-ART N-P NP-P-ART ADJ N-P 把V分成V-S-I、V-S-T、V-P-I和V-P-T: VP-S-V-S-I VP-S-V-S-T NP-S VP-S-V-S-T NP-P VP-P-V-P
52、-I VP-P-V-P-T NP-S VP-P-V-P-T NP-P,增加句法符號(hào)帶來(lái)的問(wèn)題,增加了規(guī)則的數(shù)量和潛在的冗余 類似的規(guī)則缺乏關(guān)聯(lián)性 對(duì)語(yǔ)言結(jié)構(gòu)描述缺乏深度,基于特征的擴(kuò)展CFG,不增加原CFG中的句法符號(hào) 給每個(gè)句法符號(hào)增加特征,例如: NP(PER 3,NUM s) VP(PER 3,NUM s,VAL itr) 特征由特征名和特征值構(gòu)成。一系列特征構(gòu)成了一個(gè)特征結(jié)構(gòu)(復(fù)雜特征集)。 特征值可以是普通值(原子),也可以是另一個(gè)特征結(jié)構(gòu),例如: NP(AGR (PER 3, NUM s)) 簡(jiǎn)寫為: NP(AGR 3s) 一個(gè)特征的特征值可以有多個(gè),表示成: N(ROOT fis
53、h, AGR 3s,3p),特征值也可以是變量,例如: NP(AGR ?a) S-NP(AGR ?a) VP(AGR ?a) 表示NP與VP的AGR特征值一致 一個(gè)規(guī)則如果包含特征值為變量的成分,則該規(guī)則代表了一組規(guī)則。 可以對(duì)變量形式的特征值限定范圍(受限變量),例如: NP(AGR ?a3s,3p),一個(gè)基于特征結(jié)構(gòu)的CFG語(yǔ)法,S-NP(AGR ?a) VP(AGR ?a) NP(AGR ?a) - ART N(AGR ?a) NP(AGR ?a) - ART ADJ N(AGR ?a) VP(AGR ?a) - V(AGR ?a,VAL itr) VP(AGR ?a) - V(AGR
54、?a,VAL tr) NP,基于特征CFG的chart parsing,句子語(yǔ)法成分與規(guī)則匹配時(shí),要對(duì)各個(gè)特征進(jìn)行匹配和泛化處理。 若規(guī)則包含特征值為變量的成分,匹配時(shí)需要實(shí)例化這個(gè)規(guī)則,例如: 對(duì)于規(guī)則: NP(AGR ?a)- ART(AGR ?a) N(AGR ?a) 若有下面的語(yǔ)法成分需要匹配: ART(ROOT a, AGR 3s) 則需要實(shí)例化規(guī)則中的?a: NP(AGR 3s)- ART(AGR 3s) N(AGR 3s) 它與ART(ROOT a, AGR 3s)匹配后擴(kuò)展為: NP(AGR 3s)- ART(AGR 3s) N(AGR 3s) 若句子中還有N(ROOT dog
55、, AGR 3s)需要匹配,則進(jìn)一步擴(kuò)展為: NP(AGR 3s)- ART(AGR 3s) N(AGR 3s) ,如果待匹配的語(yǔ)法成分的特征值中包含受限變量,則實(shí)例化后的規(guī)則中的取值范圍為兩者的交集,例如: 實(shí)例化前的規(guī)則: NP(AGR ?a)- ART(AGR ?a) N(AGR ?a) 要匹配的語(yǔ)法成分: ART(ROOT the, AGR ?a3s,3p) 實(shí)例化后的規(guī)則為: NP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p) 匹配擴(kuò)展后為: NP(AGR ?a3s,3p)- ART(AGR ?a3s,3p) N(AGR ?a3s,3p)
56、 再與N(ROOT dog, AGR 3s)匹配后擴(kuò)展為: NP(AGR 3s)- ART(AGR 3s) N(AGR 3s) ,擴(kuò)充的轉(zhuǎn)移網(wǎng)絡(luò)(ATN),把特征加入遞歸轉(zhuǎn)移網(wǎng)絡(luò)(RTN)就得到了擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(Augmented Transition Network, ATN)。 特征用寄存器表示。 一個(gè)網(wǎng)絡(luò)可以包含一組特征寄存器(特征變量) 當(dāng)前待匹配的語(yǔ)法成分也包含一組特征寄存器 在ATN中,通過(guò)一條邊時(shí),需要: 判斷網(wǎng)絡(luò)當(dāng)前特征寄存器的值與當(dāng)前待匹配的語(yǔ)法成分的特征寄存器的值是否一致(測(cè)試) 計(jì)算網(wǎng)絡(luò)特征寄存器新的當(dāng)前值(動(dòng)作),一個(gè)簡(jiǎn)單NP的ATN,NP,NP1,NP2,NP:,ART
57、,N,pop,NAME,1,3,2,特征寄存器:DET、AGR、HEAD、NAME、...,一個(gè)簡(jiǎn)單S的ATN,S,S1,NP,V,S2,S:,NP,3,S2,pop,2,1,特征寄存器:SUBJ、MAIN-V、AGR、OBJ、...,“1The 2dog 3saw 4Jack5”的測(cè)試與動(dòng)作的處理流程,跟蹤網(wǎng)絡(luò)S,第一次跟蹤網(wǎng)絡(luò)NP,第二次跟蹤網(wǎng)絡(luò)NP,“1The 2dog 3saw 4Jack5”的測(cè)試與動(dòng)作的處理流程(續(xù)),基于合一的語(yǔ)法,一個(gè)文法可以表示成一系列特征結(jié)構(gòu)間的約束關(guān)系所組成的集合。這樣的文法稱為合一文法(Unification Grammar)。例如: 特征結(jié)構(gòu)X0、X1
58、和X2之間的約束關(guān)系: X0-X1 X2 (CAT0=S,CAT1=NP,CAT2=VP, AGR0=AGR1=AGR2,VFORM0=VFORM2) 它描述了基于特征的CFG中的一條規(guī)則: S-NP(AGR ?a) VP(AGR ?a) 合一文法為其它的基于特征的文法提供了一個(gè)形式描述基礎(chǔ) 特征結(jié)構(gòu)的合一運(yùn)算構(gòu)成了合一文法的基本操作,其作用有兩個(gè): 創(chuàng)建新的特征結(jié)構(gòu)(規(guī)約的結(jié)果) 檢查特征結(jié)構(gòu)間的相容性以確定多個(gè)特征結(jié)構(gòu)是否可以合并(規(guī)約),合一運(yùn)算,復(fù)雜特征集相容 (f)表示復(fù)雜特征集的特征f的值 若、為復(fù)雜特征集,則和相容,當(dāng)且僅當(dāng): 若(f)=a,(f)=b,a、b都是原子,
59、和是相容的當(dāng)且僅當(dāng)a=b 若(f)、(f)均為復(fù)雜特征集,和是相容的當(dāng)且僅當(dāng)(f)與(f)相容 復(fù)雜特征集合一運(yùn)算: 如果a、b都是原子,若a=b,則ab=a,否則ab= 若、均為復(fù)雜特征集,則 若(f)=v,但(f)未定義,則f=v屬于 若(f)=v,但(f)未定義,則f=v屬于 若(f)=v1,(f)=v2,且v1與v2相容,則f=(v1v2)屬于,否則,= ,合一運(yùn)算舉例,(CAT V, ROOT cry)與(CAT V, VFORM pres) 可以合一為:(CAT V, ROOT cry, VFORM pres) (CAT V, AGR 3s)與(CAT V, AGR 3p)不能合一
60、 (CAT N,ROOT fish, AGR 3s,3p)與(CAT N, AGR 3s) 可以合一為: (CAT N,ROOT fish, AGR 3s),基于句法結(jié)構(gòu)轉(zhuǎn)換的翻譯,遞歸地利用一組“樹(shù)-樹(shù)”的轉(zhuǎn)換規(guī)則,把源語(yǔ)言的分析樹(shù)轉(zhuǎn)換成目標(biāo)語(yǔ)言分析樹(shù),然后生成目標(biāo)語(yǔ)言句子。,句法樹(shù)轉(zhuǎn)換的例,NP,,,Det,A,,N1,,,delicious,soup,,Adj,N,,NP,,,NP,,,tv(X),tv(Y),tv(X),tv(Y),NP,,,Det,Una,,N1,,,sopa,deliciosa,,N,Adj,,,,N1,,,tv(A),tv(B),,Adj,N,,N1,,,tv(B
61、),tv(A),,N,Adj,,,,Det,Una,,,SL Tree,Tree-to-tree transformations,TL Tree,,delicious deliciosa soup sopa,Det,A,,A delicious soup,Una sopa deliciosa,(English),(Spanish),基于句法結(jié)構(gòu)轉(zhuǎn)換翻譯面臨的問(wèn)題,翻譯發(fā)散(Translation divergence) 兩種語(yǔ)言在表達(dá)同一個(gè)意思的句法結(jié)構(gòu)和語(yǔ)義分布上存在差別 翻譯失配(Translation mismatch) 兩種語(yǔ)言在概念表達(dá)方面存在差別(不存在直譯),翻譯發(fā)散的種類,論
62、旨發(fā)散(Thematic) 句子成分的語(yǔ)法作用發(fā)生變化,例如: En: You like her. Sp: Ella te gusta.(She you-ACC pleases) 賓語(yǔ)(her)變成主語(yǔ)(Ella) 中心語(yǔ)換位(Head Switching) 句法單位的中心詞發(fā)生變化,例如: En: The baby just ate. Sp: El bebe acaba de comer.(The baby finished of to-eat) 動(dòng)詞(ate)變成補(bǔ)足語(yǔ)(comer),結(jié)構(gòu)發(fā)散(Structural) 例如: En: Luisa entered the house. Sp:
63、 Luisa entro a la casa.(Luisa entered to the house) V+NP 變成 V+PP 詞匯差別(Lexical Gap) 一個(gè)詞變成幾個(gè)詞,例如: En: Camilo got up early. Sp: Camilo madrugo. get up early 變成 madrugo,語(yǔ)義的詞匯表現(xiàn)(Lexicalization) 例如: En: Susan swam across the channel. Sp: Susan cruzo el canal nadando.(Susan crossed the channel swimming) “運(yùn)
64、動(dòng)/方式途徑”變成“運(yùn)動(dòng)/途徑方式” 詞法類別(Categorial) 例如: En: A little bread. Sp: Un poca de pan.(A bit of bread) 形容詞變成名詞,搭配(Collocational) 例如: En: Jan made a decision. Sp: Jan tomo una decision. made的原意翻譯為:hacer,但與decision搭配時(shí)應(yīng)翻譯成tomo 多詞位和成語(yǔ)(Multi-lexeme and Idiomatic) 成語(yǔ),例如: En: Socrates kicked the bucket.(Socrates死
65、了) Sp: Socrates estiro la pata.(Socrates stretched the leg) 多詞位,例如: En: Frank is as tall as Orlaith. Sp: Frank es tan alto como Orlaith.,句義分析,句法層的轉(zhuǎn)換有時(shí)很困難(特別是在句子結(jié)構(gòu)相差很大的語(yǔ)言之間),這時(shí),需要到語(yǔ)義層進(jìn)行轉(zhuǎn)換。 句義分析的目的是給出句子的含義或意義(meaning)。句子的意義分為: 上下文無(wú)關(guān)意義 上下文有關(guān)意義 “Do you know what gate you are going to?”的意義是什么? 句義分析的作用: 更
66、好地進(jìn)行翻譯:Tom ran the machine. 句法結(jié)構(gòu)消歧:I saw a boy with a telescope. 句義分析的方式 先句法后語(yǔ)義 句法語(yǔ)義一體化 完全語(yǔ)義分析(無(wú)句法分析),詞匯語(yǔ)義,句子的意義由句子中詞匯的語(yǔ)義組合而成。 句義分析首先需要解決詞匯的語(yǔ)義表示和分析。 詞匯的語(yǔ)義表示: 義項(xiàng)(義位) 語(yǔ)義類 義素組合,義項(xiàng)(義位),一個(gè)詞往往有幾個(gè)意義,每一個(gè)意義就是一個(gè)義項(xiàng)。例如:“明白”在現(xiàn)代漢語(yǔ)詞典中的義項(xiàng): 內(nèi)容、意義等使人容易了解;清楚;明確 公開(kāi)的、不含糊的 聰明;懂道理 知道;了解 義項(xiàng)之間的關(guān)系 上下位關(guān)系: “動(dòng)物”與 “獅子” 整體-部分關(guān)系:“身體”與“上肢” 同義關(guān)系:“美麗”與“漂亮” 反義關(guān)系:“高”與“矮” 包含關(guān)系:“兄弟”與“哥哥”和“弟弟” 義項(xiàng)之間的關(guān)系可以為義項(xiàng)之間的搭配提供依據(jù),從而為詞義消歧(義項(xiàng)選擇)和句義分析提供幫助。,語(yǔ)義場(chǎng),表示義項(xiàng)之間關(guān)系的另一種方式是語(yǔ)義場(chǎng)由幾個(gè)相互關(guān)聯(lián)的義項(xiàng)構(gòu)成的語(yǔ)義系統(tǒng)。例如: “師傅、徒弟”構(gòu)成一個(gè)語(yǔ)義場(chǎng) “上、下、左、右”也構(gòu)成一個(gè)語(yǔ)義場(chǎng) 語(yǔ)義場(chǎng)的確定與本體論(Ontology)
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)2圖形與幾何第7課時(shí)圖形的位置練習(xí)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)2圖形與幾何第1課時(shí)圖形的認(rèn)識(shí)與測(cè)量1平面圖形的認(rèn)識(shí)練習(xí)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)1數(shù)與代數(shù)第10課時(shí)比和比例2作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)4比例1比例的意義和基本性質(zhì)第3課時(shí)解比例練習(xí)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)3圓柱與圓錐1圓柱第7課時(shí)圓柱的體積3作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)3圓柱與圓錐1圓柱第1節(jié)圓柱的認(rèn)識(shí)作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)2百分?jǐn)?shù)(二)第1節(jié)折扣和成數(shù)作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)1負(fù)數(shù)第1課時(shí)負(fù)數(shù)的初步認(rèn)識(shí)作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)上冊(cè)期末復(fù)習(xí)考前模擬期末模擬訓(xùn)練二作業(yè)課件蘇教版
- 2023年六年級(jí)數(shù)學(xué)上冊(cè)期末豐收?qǐng)@作業(yè)課件蘇教版
- 2023年六年級(jí)數(shù)學(xué)上冊(cè)易錯(cuò)清單十二課件新人教版
- 標(biāo)準(zhǔn)工時(shí)講義
- 2021年一年級(jí)語(yǔ)文上冊(cè)第六單元知識(shí)要點(diǎn)習(xí)題課件新人教版
- 2022春一年級(jí)語(yǔ)文下冊(cè)課文5識(shí)字測(cè)評(píng)習(xí)題課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)4數(shù)學(xué)思考第1課時(shí)數(shù)學(xué)思考1練習(xí)課件新人教版