汉英双语语料库的设计原则

日期:2017-11-15 / 人气: / 来源:http://www.rzfanyi.com/ 作者:译声翻译公司

近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。下面是几个双语语料库几个设计原则。

 

1 语料库的加工深度

语料库不是任意文本的任意堆积,为了发挥语料库的作用,通常都需要对语料库进行一定的加工,进行何种加工和加工深度如何通常和应用目标有关。对于汉英双语语料库而言,基本的加工包括对语料进行各级对齐工作,其中最为重要的是句子一级的对齐,这是各种应用对双语语料库的一个最基本的需求。其他的加工包括:对汉语部分进行切词、词性标注以及注音;对英语部分进行断词、形态还原和词性标注;汉英双语语料在词汇一级和短语一级对齐。对双语语料库的加工越多,双语语料库可以提供的信息也就越多,但同时也意味着工作量的剧增。

 

根据工作的需要,目前我们主要进行句子一级的对齐工作,但在制定规范时也充分考虑了进行其他可能的加工。

 

2 语料库编码

双语语料库收录的文本通常不只一个来源,对汉英双语语料库而言更是如此,相关可用的电子文本远远不如单语文本多。要建立一个相对大规模的双语语料库,多渠道搜集语料就是唯一的选择。这同时带来一个问题就是语料文本格式各异,难以统一处理和管理。同时,作为一个基础资源,经过加工处理的语料库也需要以一种和应用以及平台无关的形式存在而支持相对广泛的应用。为此需要对双语语料库进行统一编码,从而方便双语语料库的管理、统一处理、共享和交换。

 

目前在信息处理界普遍使用的XML 语言作为编码的元语言,由于XML 语言的普及和业界的广泛支持,基于XML 语言的编码体系将容易获得广泛的软件支持。

 

 

3 语料库文本收录原则

对于语料库文本收录,通常首先要考虑的问题是语料的平衡性,理想的情况是收入语料库的文本在题材、语体、时间跨度等方面有一个合理的平衡,使得语料库具有所谓的平衡性,但平衡原则往往难以保证,一方面语料的平衡与否缺乏可以操作的评价办法;另一方面语料库的建设通常都有潜在应用目标,单纯追求平衡的原则也并无必要;

 

在建设汉英双语语料库时,由于涉及两种语言,高质量的双语语料远远不如高质量的单语语料那样容易收集,平衡性则更难保证,因而我们的原则首要强调语料的质量,要收入语料库的文本,其文字质量和译文质量需要得到认可,在此前提下,再进一步考虑语料的代表性。

 

4 语料库的描述内容

在双语语料库描述何种信息将直接关系到语料库的使用问题,为了有效支持汉英双语语料库在机器翻译研究中的应用以及兼顾其他应用,目前汉英双语语料库中主要标记了下面的信息:

(a)文本属性信息,描述了收入语料库中的汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息。

(b)文本结构信息,标记了收入语料库中汉英文本的标题、子标题、段落、句子的边界信息。

(c)双语对齐信息,标记了收入语料库中汉英文本在句子一级的对齐互译关系。

 
文章来源:http://www.rzfanyi.com/6645.html
Tag推荐:汉英双语  
翻译知识相关问答
问:翻译单价怎么计算?
答:我们的费用计算标准是基于中文字符数的,对于此种情况应将外文字数折合成中文字数,然后以折合后的中文字数进行计算;若是外文需要译成中文的话,以最终的中文字数为准。 折算标准:单字节转化为双字节时乘以2。如1000个英文或法文单词则应以1000*2=2000个中文字符数来计算。   我们的折算标准的依据来自于中华人民共和国出版社相关规定,出版社关于单字节到双字节的转化标准为1.8—2.2,即一个单字节的西文字相当于1.8到2.2个中文字。
问:什么是 “会议翻译”(Conference Interpreting)?
答:会议口译(conference interpreting)处于各种口译的专业高端。会议口译包含同声传译和交替传译两种口译模式。 一般来说这里的会议特指规模和级别比较高的国际会议。
问:你们是在用机器进行翻译吗?
答:不是,机器翻译远远没有达到人们能正常阅读的翻译水平,我们的翻译服务都是以翻译人员的手工翻译为主,先进的翻译记忆软件为辅。
问:还没有谈好价格,我发文件给你干嘛,万一泄露出去了呢?
答:首先我们是一家正规的,有翻译营业资质的老牌翻译公司,公司有10年历史了。请相信我门的职业道德。如果文件系属机密性文件,您可以隐掉相关信息后给我们,我们也会事先跟您签好保密协议,我们有一系列的保密性措施。 实在还不放心的话,可以截取文件给我们,我们不可能去传播您的信息,我们要的是分析文件难易程度以及所需费用时间等。
问:怎么知道你们推荐的译员符合要求呢?
答:首先,我们的精选译员都是按级别划分的,我们会根据您的会议主题,场合级别,难度等物色最合适的候选译员。我们每年都上百场同传及会议经验,涉及不同行业,也练就了我们精准的眼光。其次,对我们推荐的译员,您可以通过简历了解他/她们的背景以及相关经验,每位译员的简历都是100%真实的, 如有要求,您还可以通过三方通话对译员的口音,语言水平做进一步的了解。
问:阿拉伯语说明书能翻译好吗?
答:译声翻译公司主张聘用母语级人士为您定制说明书,根据源语言的不同,母语级人士有时会直接参与翻译,有时会参与审校。这样一来,翻译的质量能够得到保证,还能够让客户享受优质服务的同时,帮助客户赢得更多的客户源。
问:能否请详细阐述译文的用途?
答:只有充分了解译文的用途,才能根据这种要求指派风格相符的译者,使译文在最大程度上影响受众,达到预计的目标。所以,请耐心的告诉我们,看译文的都是哪些人。
问:口译一天多少钱?
答:1、按语种收费,如常见英、日、法等常见语种价格都在1000-1500这个范围,像一些小语种如印尼语口译,这些就收费会高很多。 2、按口译类型收费,如常见的陪同翻译与同声传译之间的价格相差会在几千元之间 3、按口译性质收费,如技术非常专业的,电力软件普及。
问:论文英译中收费标准?
答:一篇近3000单词的英文论文英译中的翻译费用一般在700元以上,译为中文后中文字数约为5000字。
问:我们是做心脏心电方面的,一般的翻译恐怕做不了吧?
答:首先,译者和读者必须使用同一种语言,除了以XX语为母语的人外,没有可以确保能了解复杂评议的种种细微差别; 文件技术性很强,译者更应该了解透彻,我们的译员不仅具有一定的医疗专业背景,而且对原文也有出色的理解力。 因为所属专业性较强,所以请尽量放宽文件期限,并尽量提供专业方面的支持,让译员从容地查阅每一个专业术语,确保得到你想要的译文。

相关阅读 Related

现在致电 158-9898-6870 OR 查看更多联系方式 →

Go To Top 回顶部
  • 扫一扫,微信在线