我国自主研发藏汉在线翻译系统今年将面世
中国西藏网讯 “有没有藏汉翻译的软件,请推荐一款,急用!” 网民@热血永狂0000在某网页上提出了这样的求助,然而,这个问题从2014年提出至今还没有一个答复。不过,据西藏大学现代教育技术中心主任尼玛扎西介绍,这个问题即将得到解决,“我们的阳光藏汉机器翻译系统将在今年与网民用户见面,届时可以为很多需要翻译的网友提供方便,工作效率可节约80%。”他说。
阳光藏汉翻译系统使用界面
据西藏自治区科技厅介绍,2012年西藏自治区重点科研项目《基于短语的藏汉统计机器翻译关键技术研究》取得标志性研究成果——《阳光藏汉机器翻译系统》获得成功应用。该项目在藏语自动分词与词性标注、藏语语料库、基于短语的藏汉统计机器翻译技术等领域进行了深入研究,历时近3年时间。
打开这款藏汉在线翻译系统的界面,输入藏文段落后,在很短时间内即可获得相应汉语译文,准确度比较高。据尼玛扎西介绍,“阳光藏语自动分词系统”的分词速度达到每秒1000个藏文单词,在藏文现代公文领域的分词准确率达到95%。“在技术研发过程中,我们面临着藏文分词与藏汉翻译两大技术难点,目前我们还在不断丰富语料库、不断完善翻译技术。”在尼玛扎西看来,这个系统就像一个牙牙学语的小孩,要不停地教给它各领域各行各业的知识,它才可以说出更漂亮的句子来。
研发小组正在忙碌着 摄影:张丽娜
为了丰富语料库,西藏大学研发队伍还专门搜集网上、媒体、纸质书籍等信息源进行翻译、书写等加工,藏语语料库建设了约300MB的藏语通用语料库,包括约10MB藏语训练语料、30多万句藏汉双语精确对照语料等。
藏文距今已有1300多年的历史,是世界上古老的文字之一,也是广大藏族群众基本的交流工具。随着当计算机和信息技术在全球普及,电脑、移动电话和互联网在西藏的使用更加频繁,藏文的信息化成为一种迫切需要解决的问题。
“藏文信息化也是近20年来才出现的新现象,从简单输入法到各项标准的制定,从字处理到句处理、段处理,是一种社会需求的表现、技术发展的必然。”20多年间,尼玛扎西一直领衔西藏藏文信息化研究队伍,他陆续主持制订出藏文编码国际、国家标准,研发出藏文计算机平台、藏文计算机办公套件、藏文移动电话、藏文短消息发布平台、藏汉双语远程教育系统等一系列填补国内外空白的信息产品。
研发小组的具体负责人拥措仍然在忙碌着,“这个项目是小组的近30名成员利用近3年时间加班加点协作完成的,现在我们仍然需要努力,让它的准确率更高,不断增加它的学习次数。”拥措介绍说。为了辅助藏语自动分词与词性标注,该研究项目修订完善了《信息处理用藏语词类标记规范》,使之更符合藏文自动分词、精确标注和藏汉机器翻译的实际需求。研究团队还研发了用于辅助藏语自动分词与标注的藏文电子词典,包括10万词条的《机读词典》和《人读词典》。
“现在在公文领域这款机器准确率比较高,今后我们还将向文学领域、宗教领域发展,使其更完善。我们的设想是,当一名游客来到西藏,她遇到自己感兴趣的藏文时,打开手机上的APP翻译软件就能够获知该藏文是什么意思。”尼玛扎西将他带领的团队做出的藏文信息化软件都取名“阳光”,意为可以为更多的人带来温暖与服务。(张丽娜)
使用藏汉翻译软件操作极其便捷 摄影:张丽娜