該負責人介紹,去年,百度探索翻譯本土化,推出粵語和普通話互譯,用戶反饋不錯。今年3月底,百度文言文翻譯正式上線。
百度文言文翻譯的基本原理,是機器在互聯網上收集海量文言文翻譯數據,進行模仿學習。“整個過程看似簡單,實則復雜!痹撠撠熑苏f,古文不單是“之乎者也”,不僅常涉及一詞多義,句子間的韻律也非常重要。
他舉例,“從前有個山,山里有座廟,廟里有個老和尚,喜歡講故事”這段話,最開始機器的翻譯結果是“昔有山,山中有座廟,寺中有一老僧,好講故事”,“讀起來缺失古文的流暢!焙髞,團隊收集了大量文筆優美的文言文名篇,如王勃的《滕王閣序》、《詩經》,讓翻譯系統學習,完成韻律模型,F在,輸入這段文字,得到的結果是“昔有座山,山有座廟,廟有老僧,好講故事”。
該負責人說,相較于英文翻譯,現代文翻譯為文言文的語料很少。比如現代文中的一些新詞、熱詞,在古代就沒有對應說法。為此,他們聘請專人進行質量評估,幫助機器翻譯優化。比如,“親愛的”這個詞,百度翻譯將其翻譯為“卿卿吾愛”,“就是通過人工干預的方法實現的!
他說,百度開發文言文翻譯,一是繼承和發揚傳統文化,二是幫助學生學習古文!坝辛诉@樣一個好玩的工具,文言文不再晦澀難懂。”
舒婷《致橡樹》節選:
我如果愛你
絕不像攀援的凌霄花,
借你的高枝炫耀自己;
我如果愛你
絕不學癡情的鳥兒,
為綠蔭重復單調的歌曲
百度文言文翻譯:
我若愛子
不如攀援之凌霄花,
借汝之高自矜;
我若愛子
不學癡之鳥,
為陰復單之歌