汉英双语语料库的设计原则

日期:2017-11-15 / 人气: / 来源:http://www.rzfanyi.com/ 作者:译声翻译公司

近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。下面是几个双语语料库几

近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。下面是几个双语语料库几个设计原则。

 

1 语料库的加工深度

语料库不是任意文本的任意堆积,为了发挥语料库的作用,通常都需要对语料库进行一定的加工,进行何种加工和加工深度如何通常和应用目标有关。对于汉英双语语料库而言,基本的加工包括对语料进行各级对齐工作,其中最为重要的是句子一级的对齐,这是各种应用对双语语料库的一个最基本的需求。其他的加工包括:对汉语部分进行切词、词性标注以及注音;对英语部分进行断词、形态还原和词性标注;汉英双语语料在词汇一级和短语一级对齐。对双语语料库的加工越多,双语语料库可以提供的信息也就越多,但同时也意味着工作量的剧增。

 

根据工作的需要,目前我们主要进行句子一级的对齐工作,但在制定规范时也充分考虑了进行其他可能的加工。

 

2 语料库编码

双语语料库收录的文本通常不只一个来源,对汉英双语语料库而言更是如此,相关可用的电子文本远远不如单语文本多。要建立一个相对大规模的双语语料库,多渠道搜集语料就是唯一的选择。这同时带来一个问题就是语料文本格式各异,难以统一处理和管理。同时,作为一个基础资源,经过加工处理的语料库也需要以一种和应用以及平台无关的形式存在而支持相对广泛的应用。为此需要对双语语料库进行统一编码,从而方便双语语料库的管理、统一处理、共享和交换。

 

目前在信息处理界普遍使用的XML 语言作为编码的元语言,由于XML 语言的普及和业界的广泛支持,基于XML 语言的编码体系将容易获得广泛的软件支持。

 

 

3 语料库文本收录原则

对于语料库文本收录,通常首先要考虑的问题是语料的平衡性,理想的情况是收入语料库的文本在题材、语体、时间跨度等方面有一个合理的平衡,使得语料库具有所谓的平衡性,但平衡原则往往难以保证,一方面语料的平衡与否缺乏可以操作的评价办法;另一方面语料库的建设通常都有潜在应用目标,单纯追求平衡的原则也并无必要;

 

在建设汉英双语语料库时,由于涉及两种语言,高质量的双语语料远远不如高质量的单语语料那样容易收集,平衡性则更难保证,因而我们的原则首要强调语料的质量,要收入语料库的文本,其文字质量和译文质量需要得到认可,在此前提下,再进一步考虑语料的代表性。

 

4 语料库的描述内容

在双语语料库描述何种信息将直接关系到语料库的使用问题,为了有效支持汉英双语语料库在机器翻译研究中的应用以及兼顾其他应用,目前汉英双语语料库中主要标记了下面的信息:

(a)文本属性信息,描述了收入语料库中的汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息。

(b)文本结构信息,标记了收入语料库中汉英文本的标题、子标题、段落、句子的边界信息。

(c)双语对齐信息,标记了收入语料库中汉英文本在句子一级的对齐互译关系。

 
文章来源:http://www.rzfanyi.com/6645.html
Tag推荐:汉英双语  

现在致电 158-9898-6870 OR 查看更多联系方式 →

Go To Top 回顶部