专利翻译技术虽说不上日新月异,但也算得上持续进步。在笔者从业知识产权的十年间,使用得最多的方法为人工翻译和CAT(计算机辅助翻译)辅助翻译,其中人工翻译是指主要依赖人工进行语言组织,可能辅以在线资料、词典和翻译工具作为参考的翻译方式;CAT辅助翻译是指借助Trados、Ai-trans等主流效率软件进行已翻译语句的记忆再现的半自动翻译方式。
近年来,得益于深度学习在自然语言处理(NLP)领域的发展,由各种在线翻译工具得出的翻译结果的可参考度越来越高,但也仅能参考而已。其部分翻译结果,特别是在专利文献中的长句、多定语限定的句子的翻译,其逻辑准确度随着句子复杂程度的上升而直线下降。大部分译员发现,在线翻译工具只能作为参考,无法直接用于翻译,甚至无法基于在线翻译进行校对。由此,即使基于深度学习NLP技术的在线翻译,一直未能成为第三主流翻译方法。
然而,经笔者研究发现,在线翻译的质量,除了受该在线翻译背后的NLP引擎处理能力的影响,还较大地受原文质量的影响。在进行合适的数据预处理后,在线翻译的质量明显要更好。本文将通过若干实例,为此探究结合数据预处理的基于NLP技术的专利翻译方法,并进一步探究基于深度学习或其他机器学习类型的NLP技术在未来成为另一主流翻译方法之一的可行性。
以下将根据专利翻译的一般处理过程,结合数据预处理来讲解基于NLP技术的专利翻译方法的步骤:
1、不用考虑翻译方法,先快速阅读一遍全文
如果你发现一篇待翻译的原文中没有笔误、不通顺、不清楚、不简明、术语不统一、逻辑错乱等影响翻译准确度的问题,那一定是因为你阅读了全文后,才得出的这样的结论。
不论随后使用何种翻译方法,均建议先阅读全文,这里花费大约15-30分钟的时间成本,可换取对背景技术、各个实施例、各个权利要求的整体和基本的认识,以及可用于评估随后数据预处理的工作量。
2、采用译文的表达思维对说明书内容进行理顺
相对于边译边理顺,先对说明书内容进行理顺能为日后(有时真能花上1-2天)带来何种获益呢?笔者认为,可包括但不限于以下益处:
01
留下修订文件:在阅读和理解过程中,针对上述的可能影响翻译准确度的问题,可进行全文的调整和修订,从而留下珍贵的可追溯的修订文件,不但可用于本文下面提到的翻译步骤,还可作为调整理顺的客观依据反馈至客户或校对人员,以及可作为日后撰写优化培训的素材;
02
减少反悔成本:对于生僻和复杂的技术方案,如果采用边译边理顺的方法,译员对原文的理解是碎片化、局部化的,往往看到下文才发现对上文的理解有误,或才发现有更合适的术语,这样必须对已译内容进行重译,产生反悔成本;
03
展开全文
提高翻译质量和效率:在对全文进行综合理解和理顺后,翻译时的上下文逻辑连贯性会更好,术语的选用会更贴近原含义且更统一,思维和记忆会更顺畅,最终使得翻译质量和效率会更高。
实际上,也不必过于担心时间成本,因为专利文件不同于小说,即使篇幅很长的专利文件,其“核心剧情”一般为独立权利要求1,其他的“故事内容”均围绕该“核心剧情”展开。
一些以中文思维看来没有问题的表达,转换成英文后,将产生不同程度的不清楚、不通顺、不简明等问题,因此需以英文角度来理顺。而一些严重的不通顺、不清楚、逻辑错乱的问题,不论用何种语言的思维,往往都是有问题的。具体理顺的技巧包括但不限于:
01
术语和表达的替换:
例01:为了更清楚、更简明
理顺前:…, in particular to a pot cover and a cooker thereof.
理顺后:…, in particular to a pot cover and a cooker.
理顺前:The slot can be inserted into any position on the edge of the pot mouth of the pot body.
理顺后:The slot can be inserted into any position of the edge of the opening of the pot body.
理顺前:The pot wall of the pot body…
理顺后:The wall of the pot body…
例02:为了术语和表达一致性
例03:为了符合译文的专利语言表达习惯
02
逻辑关系的调整
有些调整是根据本领域常识,有些则是根据上下文。大部分的调整均是为了使得逻辑的表达以英文思维看来更清楚简明。
例04:
理顺前:…, the file in the drive letter is synchronized with the file in the corresponding disk.
理顺后:…, so as to realize a synchronous operation between the file in the drive letter and the file in the corresponding disk.
**注,由于NLP引擎内的容错和纠正功能,当它认为原文存在阻碍通顺表达的内容时,可能会忽略那些阻碍理解的内容;或当它识别出一些惯用通俗而非标准的表达时,将可能对这些表达进行调整。例如此句中,在理顺前直接翻译,NLP引擎忽略了单独的“实现”和“操作”,而将“实现”和“同步”融合为“与…同步”并选用了被动表达。或许在未来,即使我们不再进行数据预处理,基于AI的NLP引擎也能推导出准确的译文。
例05:
例06:
理顺前:Filter the invisible files or directories when the enumeration results are returned, and only return the filtered results to the file system driver.
理顺后:When enumerating the returned file operation results, the screened and hidden files or directories are filtered, and only the filtered results are returned to the file system driver.
例07:
理顺前:The established drive letter refers to the drive letter created by the currently logged-in user in 1004 and corresponding to the cloud terminal.
理顺后:The designated drive letter refers to the drive letter of the disk created by the currently logged-in user in step 1004 and corresponding to the cloud terminal.
在下一篇文章中,笔者将详细介绍,如何使用已预处理的数据,进行基于NLP技术的实时AI翻译与数据后处理,可简要概括为以下流程:
S1:原文全文理解和预修订;
S2:AI辅助翻译;
(1) AI预翻译>原文实时优化>AI再翻译>译后微调;
(2) 实时优化包括添加单复数标注和调整语序组织等;
(3) 先译权利要求以确定核心词汇和表达,后翻译说明书;
S3:后处理;
(1)术语替换;
(2)检查多译漏译。
本文仅基于笔者经验的翻译技巧分享,并非决定性的翻译原则或准则,欢迎读者们参考使用。
国际代理部
林伟峰
林伟峰
国际部经理
林伟峰先生加入嘉权后,一直专注并擅长于计算机软硬件、传感器、微电子、光电技术等领域的专利申请,主要负责涉外专利申请代理、撰写、翻译及审查意见答复等工作,并为客户提供咨询检索服务。
2017、2018均代表嘉权参加INTA(国际商标协会)年会相关活动。
2018年赴美国Vivacqua Law事务所参加长达三个月的专利实务培训,主要包括美国专利申请理论、美国专利申请实务、美国专利诉讼旁听课、美国专利商标局专项课程,囊括了专利申请文件撰写、权利要求书撰写、专利答辩策略等内容。尤其是考虑到中国专利进入美国市场的各种“水土不服”,专门学习“中国专利进入美国的适应性修改”课程。
后负责嘉权涉外代理人有关美国专利方面的培训工作,主要包括美国专利实务中的检索、撰写、翻译、答辩、侵权分析、维权讼诉等,同时还负责传授商务礼仪、口头交流、书面沟通等方面知识,进一步扩展涉外代理人在国内获得的基础知识和基础经验。