PDF文本翻译中表格处理的方法比较

所属栏目:戏剧与影视学论文 发布日期:2018-12-12 15:48:00 论文作者:佚名
李则颖【摘 要】笔者汇总多次表格翻译时可能使用的工具和方法,通过近期PDF书籍翻译时遇到的批量表格为例,对从简单原始操作到利用工具手动编辑绘制(不考虑CAT软件在表格翻译上可发挥的最佳效果)加以说明。笔者希望不负此前在表格翻译处理上所耗时间

李则颖

【摘 要】笔者汇总多次表格翻译时可能使用的工具和方法,通过近期PDF书籍翻译时遇到的批量表格为例,对从简单原始操作到利用工具手动编辑绘制(不考虑CAT软件在表格翻译上可发挥的最佳效果)加以说明。笔者希望不负此前在表格翻译处理上所耗时间,利用该文总结对比所列方式,以期今后翻译遇到各式表格时能较快选择最适方案,使翻译之外的处理效率最大化。

【关键词】表格翻译;PDF文件;转换;排版

中图分类号:H159 文献标志码:A 文章编号:11007-0125(2018)15-0226-02

(一)试想无软件辅助下会如何解决表格问题?第一,在word内新建表格手动录入数据;第二,若表格可选且光标滑动有序(图1),直接在pdf内复制表格选择性粘贴到word,后利用word“文本转表格”一键搞定;第三,word13等版本直接转换打开pdf,后批量替换更改;第四,复制图2表格到word,选中“显示标记”按钮(各版本word中样式不一,但均位于“段落”框)得到含格式标记的文本(标记高亮如图3),识别真空格(如Type和of中间)和制表符(^t,如data和50中间),利用替换功能自填制表符,最后“文本转换为表格”(注意此处选“制表符)得图4。上述操作处理单张表格时确有优点。

以下借助工具批量处理左图5表格样式。图中可知各行列非等距,还应照顾页眉页脚和表格倒置的版面。考虑到格式特殊性和后续批量替换翻译等问题,先将含表格的页面单独提取成独立pdf(避免整体文档转换时仅表格页错乱)。以下为表格处理时可能出现问题的阶段及基于各个工具的产出效果:

(一)直接利用PDF软件或在线工具实现pdf转excel表格(处理简单表格时也可直接复制粘贴后微调)。优点:避免复杂表格转为word时因页面内除表格外因素而造成的紊乱;缺点:需重新制作页眉、页脚和角注等要素。

(二)同(一)实现pdf转word文档(优缺点与(一)中相反,另可免去下文操作(三))

A.Nitro Pro 9

转为excel识别率高,缺点是无法识别不齐整的表格数据,如单列有多层的标题栏(下图6,上下分别为原图和识别图)是此次表格处理的难点和特殊性;纵列数据偏移。转为word可直接使用(除标题栏稍偏移外)。

B.Adobe Acrobat X Pro

转为excel标题栏效果差。转为word需微调但不影响直接使用。

C.ABBYYFineReader 12 Corporate,或有每日上传上限的在线免费版http://ocr.abbyy.cn/

内容上无法识别符号如箭头;i与1之间识别度低;无法识别。转为word时最严重的问题还是与下文的DE问题类似,只是反应在硬回车上;转为excel时数据不齐整、单元格边框不匹配、遗漏分割等美观问题。尽管问题不乏,但我们必须熟知ABBYY与众不同的优点:1.处理扫描版格式时,该软件OCR(光学字符识别)功能的高识别度不容置疑;2.处理更加复杂图表时,可根据提示的疑似错误字符直接以对照模式修改,方便直观;3.可自动按照识别类型(表格、文本、背景图片等)手动调整识别区域,提高生成率。

D.cloudconvert(免费)

仅支持转为word,识别准确率和结构上都较为匹配,但识别规则可能仅依从源表的排列模式,对于需合并但分行的信息之间仍存在软回车,这对后续批量替换翻译极为不利。

E、smallpdf(免费)

转为excel时按照表格数量会自动生成多个工作簿,增加了合并工作簿的操作(使用VBA功能或第三方工具);转为word时页面效果优于cloudconvert,但存在相同问题。

F.桌面出版(DTP)软件Adobe Illustrator

打开翻译pdf的表格所在页,利用直接编辑功能(Nitro和acrobat也可不同程度直接编辑)和无法编辑部分重新制作的优势,变更和绘制(注意pdf待译和译出字体的间距倾斜加粗等系列问题),完成后保存为EPS(Encapsulated PostScript)格式,便可直接插入word中使用。缺点显然易见,即处理的精细度与批量的冲突,一次只可编辑一张表格,所以仅在表格极为复杂且格式非单一时可考虑使用。按此流程处理则不再仅限于文本翻译,可归为本地化。

(三)表格翻译在excel中完成后插入word

少量表格时,复制粘贴需要注意空格会以方框样式呈现,手动一次性替换即可;或可将excel另存为网页格式,后打开方式选word即可。

(四)与表格翻译相关含分节符或分栏符的格式文本

分节符本是为了强制中断前文格式而改成所需格式,该优点在处理文档翻译时却摇身成了麻烦。所以此类格式文本的问题是各栏文本间距可调以及底部文本连续性,如照此也利用分节符或分栏符,可能又需要更改适应的中文字体、行距等,且任何更改可谓牵一发而动全身(使用频率最高的是“下一页”分节符)。而我建议重新创建表格,利用表格约束文本布局,使其错落有致。

鉴于笔者遇到表格翻译的次数及样式种类有限,以上总结均非具普遍性,仅作自身和其他译员的参考,期望得到指正与建议。此外,仍有未尝试的各类方法待笔者学习,如Kutools for Excel對于重新排列直接粘贴性表格数据的作用,其他含OCR功能的软件如onenote等。更者,CAT工具处理各类表格的能力及为此所需做的导入前表格处理准备。笔者在此愿翻译市场上优秀软件的完善和兴起,更望译者不止于翻译,能为自己营建更高效的翻译环境。

参考文献:

[1]陈永杰,邢宝山,张祥合,李桃.利用Adobe Acrobat7.0实现PDF格式文件的转换[J].编辑学报,2006.

[2]于晓燕.把PDF文档应用于电子排版领域[J].自动化技术与应用,2005.

[3]田玲. Word表格文件转换成Excel表格文件中的“选择性粘贴”命令应用研究[J].计算机光盘软件与应用,2014.

星火论文网是业内有序经营时间较长的综合性论文网站之一,因为专注,所以专业。论文写作辅导的老师全部是由武大、浙大、华中科大、中科大、西南交大、复旦等高校名牌院校的硕士及博士生,目前已为上千位客户解决了毕业论文写作的困扰、职称论文发表的难题。自成立以来,客户一直放在我们的首要位置,客户满意是星火论文网的终极目标,在络绎不绝的好评声成就了星火论文的品牌。历经12载,打造了一个硕士论文、本科论文及职称论文发表的平台网站。拥有海量的高质量的原创论文,可以提供经济、管理、法律、医学、会计、体育、历史、教育教学、建筑等专业的毕业论文范文参考及硕士论文写作等服务。服务范围:论文发表、论文写作及外文翻译等等!
27926090 13943037437