作者簡介:蘇明陽
學歷:碩士研究生
研究方向:翻譯語料庫,計算機輔助翻譯
發表期刊:《外語研究》2007 年第 5 期
摘要:翻譯記憶技術應用于計算機輔助翻譯,其思想可以追溯到二十世紀七十年代,而翻譯記憶系統的具體實現則是在二十世紀九十年代初。經歷了近二十年的發展,當今業界出現的翻譯記憶系統已有數十種。本文從翻譯記憶模型、翻譯記憶檢索和翻譯編輯環境三個角度,對當前的翻譯記憶系統進行了梳理和劃分,描述了翻譯記憶系統的現狀,提出了當前翻譯記憶及翻譯記憶系統的局限性,總結了其發展趨勢,并對我國翻譯記憶研究與應用提出了建議。
Abstract: The idea of implementing translation memory (TM) in computer-aided translation (CAT) can be traced back to the 1960s, while translation memory software did not come into being until the beginning of 1990s. After nearly 20 years of development, dozens of translation memory systems are now competing in the arena of translation and localization industry. In this paper, the author first presents the overall state of the art in TM systems with categorization from the perspectives of TM architecture, TM retrieval and translation environment; then gives a brief summary on the limitation as well as its trend of development. As the conclusion, suggestions on TM research, TM system development and CAT teaching are given to better the relevant research and application in China.
關鍵詞:計算機輔助翻譯翻譯記憶翻譯記憶系統
1. 翻譯記憶與翻譯記憶系統
翻譯記憶( translation memory )是計算機輔助翻譯( computer-aided translation , CAT )技術之一,是譯者工作站( translator's workstation )的重要組成部分。 Bowker 將翻譯記憶定義為一種用于儲存原文本及其譯文的語言數據庫 (Bowker 2002 : 93) 。其工作原理為: “ 用戶利用已有的原文和譯文,建立起一個或多個翻譯記憶庫,在翻譯過程中,系統將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落),給出參考譯文,使用戶避免無謂的重復勞動,只需專注于新內容的翻譯。翻譯記憶庫同時在后臺不斷學習和自動儲存新的翻譯譯文,擴大記憶量(方夢之 2004 : 341 )。 ” 對于系統提供的參考譯文,譯者可以完全照搬,也可以修改后使用,如果不滿意可以棄之不用。
使用翻譯記憶輔助譯者進行翻譯的系統,目前常被籠統地稱作計算機輔助翻譯系統。這種認識略嫌以偏概全,廣義的計算機輔助翻譯工具還包括電子辭典、對齊工具、術語管理系統、平行語料庫等,有時還將機器翻譯包括在內。因此,將主要使用翻譯記憶技術的計算機輔助翻譯系統命名為翻譯記憶系統更為合理。
根據 Hutchins ( 1998 : 287-307 ),翻譯記憶的思想最早可以追溯到 1971 年,當時供職于聯邦德國國防部翻譯服務處的 Krollman 提出了 “ 語言數據庫 ” ( linguistic data banks )的設想,其子庫之一即為 “ 翻譯檔案 ” ( translation archive )。七十年代后期到八十年代初, Peter Arthern 、 Martin Kay 與 Alan Melby 等人分別研究和完善了翻譯記憶的理論,將其視為當時仍處于理論構想的譯者工作站中的重要組件。八十年代后期,個人計算機技術的發展與普及為翻譯記憶和譯者工作站的實現提供了可能。第一個具備翻譯記憶功能的譯者工作站 ALPS ( Automated Language Processing Systems )在此期間問世。到了九十年代,翻譯記憶隨譯者工作站系統的市場化為業界所接受,出現了包括 Trados , IBM TM/2 以及 Transit 在內的多種翻譯記憶系統,應用于文本重復性強且對術語一致性和翻譯效率要求較高的領域,如歐盟文件翻譯和軟件本地化行業等。 1990 年,本地化行業標準組織( Localization Industry Standards Association , LISA )成立,于 1998 年基于可擴展標記語言( eXtensible Markup Language , XML ),制定了中立、公開的翻譯記憶交換標準 TMX ( Translation Memory eXchange ),統一了翻譯記憶的存儲格式。幾次小幅度修訂后, LISA 于 2007 年 3 月公布了 TMX 2.0 草案接受業界的評議。如今,翻譯記憶技術對翻譯的助益已經得到公認,翻譯記憶系統的使用也不再局限于專門的語言機構和語言服務商,部分翻譯公司開始要求譯者用特定的翻譯記憶系統進行翻譯。
2. 翻譯記憶系統的分類與現狀
根據 Hutchins 的統計( 2007 : 126 ),截止到 2007 年 6 月,市場上的翻譯記憶系統(在其文章中定義為 translation memory system/component )如下: Across, An-Nakel El-Arabi, CATALYST, DéjàVu, ESI Professional, ESTeam Translator, ForeignDesk, Heartsome TMX Editor, Heartsome XLIFF Translation Editor, LogiTerm, LogoVista X Pro, m2T, Memory Explorer, MemorySphere, MetaTexis, Multilizer, MultiTrans, ProMemoria, Sakhr Enterprise Translation, SDL ContextTM, Similis, Trados GXT, Trados TM, Tr-AID, TraNew, TranSmart, Visual Localize, WordAlign, WordFast 。(此外,還存在部分新出現或未被收錄入上述列表的系統。)
翻譯記憶系統的分類目前尚無定論,本文擬從記憶模型、檢索方式和編輯環境的角度,對市場上的翻譯系統進行梳理。
2.1 翻譯記憶模型
翻譯記憶模型即翻譯記憶的儲存方式,根據國內研究者的分類(王華偉、崔啟亮 2005 : 107 ),目前翻譯記憶模型共有兩種:其一是數據庫模型。在數據庫模型下,翻譯記憶以 “ 翻譯單元 ” ( translation unit )的形式儲存,源語言句段與目標語言句段精確對應。目前絕大多數翻譯記憶系統使用的都是這一模型。另一種是引用模型。這種模型并不將源語言句段同目標語言句段成對保存為翻譯單元,而是利用 “ 雙語文本字符串 ” ( Character-string-in-bitext , CSB )檢索技術( Gow 2004 : 34-37 )檢索并引用其在文檔中所出現的位置。采用這種模型的翻譯記憶系統有 MultiTrans 、 LogiTrans 和 STAR Transit 等。這兩種模型各有優劣:引用模型建立大型翻譯記憶庫時更為快捷;用戶檢索的任何結果都附有上下文語境;雙語文本保持完整,可作為譯者背景閱讀材料或培訓資料。而數據庫模型中的數據更易于管理和維護;翻譯記憶為即時更新,能夠識別并處理同一文本中的重復性文本,而不像引用模型中的翻譯記憶必須在當前文本翻譯全部完成后才能更新為翻譯記憶。此外,目前的翻譯記憶交換標準 TMX 是基于數據庫模型的,這使引用模型翻譯記憶較難共享與交換。
2.2 翻譯記憶檢索
Lagoudaki 認為,翻譯記憶系統之間最重要的區別在于匹配檢索技術,她將當前的翻譯記憶匹配檢索技術歸結為兩類:基于字符串的匹配檢索和語言學知識增強匹配檢索( Lagoudaki 2006 : 4 )?;谧址乃阉鞣绞绞欠g記憶檢索的傳統方式,當前的翻譯記憶系統中絕大多數都是基于字符串的檢索,借用自然語言處理領域中的 “ 編輯距離 ” ( edit distance )比較字符串之間的相似程度,并用一個百分比表示匹配率。這種檢索方式僅考慮到語言的形式而不涉及語言的意義,檢索精確度不高。曾有研究者在 Trados 中用以下三個句子進行了測試( Planas & Furuse 1999 : 331-339 ):
The wild child is destroying his new toy.
The wild chief is destroying his new tool.
The wild children are destroying their new toy.
系統給出的結果是( 2 )與( 1 )的匹配率高于( 3 )與( 1 )的匹配率,然而( 1 )與( 3 )之間僅僅是主語單復數的不同,從意義上來說更為相近。
使用語言學知識增強檢索技術,是翻譯記憶系統發展的新趨勢,但實際應用這種技術的系統為數不多。其中, Similis 在句段切分后運用詞頻統計、 N-gram 模型將句段進一步切分為語塊( chunk ),借助于單語字典和語法范疇識別算法進行語法標注( Planas 2005 )。而一款名為 Masterin 的翻譯記憶系統據稱可以根據翻譯記憶庫(知識庫)中的例子更為靈活地切分源文本的句段,并對每個句段都進行語法信息標記,構成一個 “ 翻譯模式 ” ( translation pattern )供深層檢索。同時出現多個翻譯記憶匹配時,系統還會結合內置字典給出的語義、使用頻率和領域信息進行篩選比較。若無匹配,系統還會綜合利用庫中已有資源構建模糊匹配提供給譯者( Gronroos 2005 )。
利用語言學知識增強的匹配檢索技術目前也被非正式地稱為 “ 第二代翻譯記憶技術 ” ,它在匹配檢索能力和匹配精度上較基于字符串的匹配檢索技術有所改善。但 “ 第二代翻譯記憶 ” 更依賴于特定語言的語言學知識與資源,而建立一個能有效運用于翻譯的語言學知識庫并非易事。
2.3 翻譯編輯環境
翻譯編輯環境是指譯者進行翻譯工作的文字處理程序環境。依翻譯編輯環境不同,目前所有的翻譯記憶系統可分為嵌入式和獨立式兩類。嵌入式系統需要借助與文字處理程序 Word 為工作界面,安裝后會創建一個新的 Word 模板,借助于 Word 中的 VBA 功能增加用于翻譯記憶操作的工具欄和宏命令。譯者仍然在 Word 中進行文檔翻譯。簡單的嵌入式系統(如 Wordfast )可以僅僅是一個 Word 模板文件,復雜的嵌入式系統(如 Trados )還有外部程序( workbench )同內置的 Word 模板相連接,提供更為高級的功能。獨立式系統的翻譯過程不使用 Word 等外部文字處理程序作為編輯器,全部翻譯工作都在系統內進行。翻譯之前通過各種內置過濾器( filter )將相應格式的文檔中的源語言導入,在系統內部完成翻譯后導出為原文檔格式的譯文。一些獨立式系統(如 Catalyst )專門面向軟件的本地化,雖屬翻譯記憶系統范疇,但已視為本地化工具( localization tool )。兩類系統雖能實現相同的功能,但在操作方式、工作流程等方面存在較大差別,篇幅所限,在此不做詳述。根據翻譯編輯環境的不同,將筆者實際操作過的翻譯記憶系統分類如下:
嵌入式
獨立式
純 Word 模板
Word 模板加外部程序
獨立式文檔翻譯系統
本地化工具
MetaTexis 2003 Tr-Aid 2.0 Wordfisher 4.45 Wordfast 5.1
Trados 7.0 雅信 3.5 朗瑞 1.0 TransAssist 1.5
Across 3.5 Aidtrans 2.0 Déjà Vu 7.5 Heartsome TMX/XLIFF Editor 6.2 IBM Translation Manager 6.0 MemoQ 1.0 SDLX 2004 Similis 2.6 Transit 3.0
Catalyst 6.0 Multilizer 6.2 Passolo 6.0
3. 目前翻譯記憶技術和翻譯記憶系統的局限性
3.1 翻譯記憶技術本身的局限
首先,翻譯記憶基于以下假設:已翻譯過的源語與目標語對照的文本可再利用于翻譯新的源語文本,然而現實中的翻譯活動大多缺乏重復性,只有在某些限定的領域中,文本的重復率才能達到一定的比率,從而能夠有效地利用翻譯記憶。由于語言的無限生成能力,即使翻譯記憶容量再大,模糊搜索能力再強,依然無法保證在新的翻譯工作時總能提供翻譯記憶。
其次,兩種翻譯記憶的模型互不兼容且各有不足之處。兩種模型各自的缺點中,有的存在互補性,如原文和譯文的完整性在數據庫模型下被 “ 碎片化 ” ,而在引用模型下可以得到很好的保留。有的缺點則在兩種模型下均沒有好的解決方案。如對語塊( chunk )或亞句段單位( subsentential segment )的檢索,數據庫模型下的翻譯記憶以句段為單位,檢索無法深入到句段以下的層次;而引用模型下檢索雖不受翻譯單元的限制,產生的不相關結果卻相對( noise )較多( Gow 2003 : 38 )。
此外,當前的翻譯記憶大多不具備語言學標注,作為翻譯記憶儲存交換標準的 TMX ,也未針對語言學標注進行擴展或規定。翻譯記憶如同語料庫中的 “ 生語料 ” ,其中包含的翻譯資源得不到充分挖掘,限制了其深度應用。
3.2 翻譯記憶系統的局限
第一,如前所述,翻譯記憶檢索的算法基于語言形式而非意義,檢索深度和精度不高。譯者對于檢索的控制性弱,檢索時可配置的選項較少。同時匹配率的設置過于概括,僅使用百分制比較句子相似度不甚合理。
第二,由于商業原因,翻譯記憶系統之間差異較大,在系統要求、所支持的文件格式、提供的功能、價格和售后服務等方面均不相同。專業譯者有時不得不安裝多個系統以解決翻譯過程中出現的各種問題。此外,出于市場競爭考慮,各類翻譯記憶系統雖然均支持 TMX 格式,但為增加用戶粘性,都在各自系統中添加對數據(翻譯記憶、術語等)更詳細的描述與屬性,在數據轉移或系統更換時有可能會造成數據流失。
第三,使用翻譯記憶系統進行翻譯同譯者所熟悉的傳統翻譯過程區別較大,需要較長時間學習并掌握。翻譯記憶系統也會對翻譯過程產生一些負面影響,如:譯者可能會避免使用指代以遷就翻譯記憶,提高匹配率( Heyn 1998 : 135 ),而以句段為翻譯單位讓譯者容易失去語篇觀念等。
此外,翻譯記憶系統往往價格昂貴,前期投入較高,使不少有此需求的個人和小型單位用戶望而卻步。雖有少數開源系統可供自由使用,但均為純 Word 模板類型的簡單的嵌入式系統。
4. 翻譯記憶技術和翻譯記憶系統的發展趨勢
自第一個翻譯記憶系統問世至今已有近 20 年,此間,已存的翻譯記憶系統升級換代,新的翻譯記憶系統層出不窮。通過對可獲及的翻譯記憶系統進行歷時與共時的研究,筆者認為,雖然現在的翻譯記憶系統較過去增加了諸如對齊、項目 / 流程管理、質量保證和術語提取等多種外圍功能組件,但其核心翻譯記憶技術缺乏突破性進展,檢索能力沒有質的飛躍。展望將來,翻譯記憶技術與翻譯記憶系統存在如下發展趨勢:
集中化趨勢。將翻譯記憶與術語等翻譯資源集中儲存在中央服務器的數據庫中,不同權限的工作站通過網絡連接到中央服務器進行按需檢索。翻譯資源的集中一方面可以使翻譯記憶匹配和詞語索引更全面可靠,檢索和維護更簡單;另一方面也可以更方便地實現對翻譯資源知識產權的保護,適應信息情報保密與安全的需要。加拿大蒙特利爾大學 RALI 實驗室的翻譯記憶檢索庫 TransSearch 目前已實現商用,其經驗可供借鑒。
深加工翻譯記憶的趨勢。翻譯記憶,從某種程度上而言就是對齊后的平行語料,而目前翻譯記憶所挖掘出的僅僅是譯文中表層的很少一部分的知識與經驗。因此,目前研究者們都在關注如何結合語料庫的研究方法進一步利用并完善翻譯記憶。
與機器翻譯相結合的趨勢。翻譯記憶屬于計算機輔助翻譯,是研究機器翻譯的過程中出現的一種折衷。高質量的、可作為雙語語料庫的翻譯記憶可以應用于基于統計和基于實例的機器翻譯系統。
5. 對我國相關研究與應用的思考與建議
5.1 翻譯記憶技術研究
我國學術界對國外計算機輔助翻譯技術與工具的評介早已有之,但大多局限在機器翻譯和計算機輔助翻譯比較上,對計算機輔助翻譯的介紹過于概括,缺乏新意,具體到翻譯記憶技術和翻譯記憶系統的應用研究更不多見。然而,在翻譯服務行業中,翻譯記憶系統為大多數本地化從業者,專職翻譯以及兼職翻譯所熟知,并在部分從業者中得到了合理應用,提高了工作效率與翻譯質量。這些實際使用者對當前國內外主流的翻譯記憶系統乃至其他計算機輔助翻譯工具有著豐富的使用經驗,但由于缺乏理論研究氛圍,或忙于本職工作無暇研究,對翻譯記憶系統的認識與評價往往注重于實際操作經驗,主要以技巧心得的形式在互聯網上流傳。這就形成了整體上 “ 言者不盡知,知者未盡言 ” 的局面,一方面誠然是由于一般文科學者缺乏信息技術敏感性所致,另一方面也是翻譯理論研究與實踐脫節的一種具體體現。
筆者認為,為改變這種局面,應當引介國外相關學術著作與文章,追趕同國外翻譯記憶技術乃至計算機輔助翻譯技術研究之間并不巨大的差距。值得注意的是,香港和臺灣在計算機輔助翻譯的研究和應用上起步早、應用廣、同國際聯系緊密,取得了不少成果。大陸研究者應當與其加強交流,相互借鑒。此外,隨著翻譯研究的跨學科性越來越鮮明,計算機輔助翻譯研究作為信息技術和翻譯研究的結合需要所有相關領域研究者的合力協作。具體到翻譯記憶技術上,除了翻譯研究者之外,還需要自然語言處理、語料庫、軟件工程學等諸多領域專家學者的共同努力,重點在翻譯記憶的語塊識別、翻譯記憶與平行語料庫建設、翻譯記憶標準擴展、翻譯記憶系統設計等方面加強研究與合作。 2007 年 5 月,北京大學軟件與微電子學院、北京大學計算語言研究所與香港中文大學電腦輔助翻譯系啟動了科研與教學合作,在學術機構間交流和跨領域合作上邁出了第一步。
5.2 翻譯記憶系統開發
目前我國自主開發的較為成熟的翻譯記憶系統有雅信 CAT 系統,華建機器翻譯系統等。其中,筆者了解并實際使用過雅信 CAT 系統。該系統采用數據庫儲存模型,基于字符串檢索,編輯環境同 Trados 類似,為嵌入式 Word 模板加外接程序。雅信 CAT 系統的特色是針對國內譯者實際需求,內置了大容量的中英專業詞庫,能夠進行中文自動分詞,并在此二者基礎上具備中英機器互譯功能,這是國外翻譯記憶系統目前無法做到的。當然,作為國內翻譯記憶系統的典型代表,雅信尚非完美,在很多方面仍需改進。
針對今后翻譯記憶系統的研發,筆者建議:一、優先采用數據庫模型的翻譯記憶,支持 TMX 標準,同國際接軌。同時要對數據庫模型的缺點有清醒的認識,尋求克服其缺點的對策,條件允許情況下可以對結合兩種模型架構的系統進行探索性研究。二、順應 “ 第二代翻譯記憶 ” 的趨勢,結合中文自動處理技術建立適用于中文翻譯記憶檢索的算法、標注體系和語言知識庫。只要字符集支持,基于字符串檢索的第一代檢索方式可以應用于任何一種語言,包括以中文為源語或目標語的翻譯。然而利用語言學知識增強翻譯記憶檢索的 “ 第二代翻譯記憶 ” 技術則需要真正了解中文,通曉中文自動處理的國內學者的研究才能實現。三、翻譯編輯環境同翻譯記憶系統使用者最為密切相關。其友善性一向被用戶注重,卻往往容易被系統開發者忽視。據調查( Lagoudaki 2006 : 1 ),開發人員在系統設計之前很少向用戶征詢意見,而往往是在系統已經基本定型,開始測試時才給用戶提出意見的機會,而此時的反饋很少能使開發者對系統做出相應更改。由于嵌入式系統和獨立式系統差異較大,因此在翻譯編輯環境的設計時,應當廣泛聽取使用者及潛在使用者的意見,在此基礎上針對用戶需求選擇形式進一步完善。
5.3 翻譯記憶系統的教學
在翻譯教學的學歷教育中增加計算機輔助翻譯與翻譯記憶系統應用課程,國內已有學者對此進行專門的研究與探索: “ 通過網上檢索香港中文大學可以發現,其翻譯專業目前的課程體系設置中列有 Computer Translation Project 、 Information Technology and Computing 、 Introduction to Computer-aided Translation 等課程。但據筆者粗略調查,大陸的高等院校,真正在翻譯專業的本科和碩士階段全面開始 CAT 課程的還基本沒有,例外的是北京大學的語言信息工程系,提供計算機輔助翻譯專業的碩士學位課程(徐彬 2006 : 63 )。 ” 并且首度明確提出應將計算機輔助翻譯課程納入我國翻譯專業課程體系設置。非學歷翻譯培訓方面,據筆者所知,國內目前有北京大學的 “ 計算機輔助翻譯高級研修班 ” (已于 2007 年 4 月開課)以及 SDL-Trados 公司對其旗下產品的應用培訓(目前已舉辦兩期)和其他推廣性培訓活動。
通過將北大語言工程系計算機輔助翻譯碩士專業培養方案和課程計劃與香港中文大學翻譯系電腦輔助翻譯碩士課程簡介相比較可以看出,前者的培養目標是使學生成為 “ 具備超越其他翻譯師的信息技術的應用能力,掌握機器翻譯和機器輔助翻譯的原理和使用技巧,可自由靈活地進行系統定制,從而最大限度地提高翻譯工作的效率;或直接參與語言信息處理系統和多媒體內容信息處理系統的研發工作(俞敬松 2006 ; 1 )。 ” 后者在 2005 年稱 “ 課程取向將加強翻譯的訓練和軟件的理論和應用,使課程更具實用性,也就是從 ‘ 電腦翻譯 ' 趨向 ‘ 電腦輔助翻譯 ' ,以適應世界潮流和社會的需要,同時配合翻譯系課程專業化的目標 ” (方梓勛 2005 : 2 )。香港中文大學的這一專業通過課程的組合提供了三種修讀模式:翻譯實踐、電腦輔助翻譯、電腦科學,并于 07 年除已有的兩年兼讀制之外又開設了一年全日制課程供學生更為靈活的學習??梢钥闯?,同香港中文大學應用性的培養目標與課程設置相比,北大開設的計算機輔助翻譯碩士專業增加了對技術研究與系統開發的側重,意在培養高層次的 “ 同時擁有兩個領域技能的寶貴人才。 ”
然而,僅憑一所或幾所高校開設計算機輔助翻譯專業并不能滿足市場對通曉計算機輔助翻譯工具、能熟練使用翻譯記憶系統進行實際工作的譯員的需求。況且,高校計算機輔助翻譯專業還要承擔培養科研與開發人才的任務,僅培養計算機輔助翻譯工具的使用者未免大材小用。計算機輔助翻譯作為當今翻譯實踐中的一種重要手段,應該定位為譯者的常備技能進行培養。 2007 年 3 月 30 日,國務院學位委員會印發了《翻譯碩士專業學位設置方案》,以培養注重翻譯實踐能力的碩士人才。筆者認為,應該借此契機將計算機輔助翻譯課程納入翻譯碩士專業課程設置,并將翻譯記憶系統的應用作為筆譯課程的必修科目之一。還可將計算機輔助翻譯作為選修課引入本科翻譯專業課程設置,向學生做一般性介紹。
Copyright @ 2005-2020 南京同傳翻譯公司 版權所有