知云文献翻译工作原理

知云文献翻译工作原理是选中pdf中的一段话时软件会复制出选中的文字,并对文字做一些修剪(比如去掉非段落换行),然后传输给翻译引擎翻译,并显示在右侧侧边栏中。如果无法选中pdf上的文字或者虽然可以选中,但复制出来的文字是乱码的、布局错乱的、丢失空格的等情况就会导致翻译异常。知云文献翻译支持阅读翻译标准编码的文字型PDF。非标准编码及图片型pdf均不可直接阅读翻译,需要先用ocr软件转换成标准编码的文字型pdf后才可使用知云文献翻译阅读翻译。

标准编码的文字型pdf

pdf中可以正确的选中文字、复制它,并粘贴到记事本中之后看到的文字和pdf中相同。
image.png

非标准编码的PDF

非标准编码的pdf:有些pdf虽然肉眼看上去是正常的,但可能无法选中文字或虽然可以选择文字但布局错乱,或复制出的文字乱码。以下非标准编码的PDF无法直接使用知云文献翻译翻译阅读。但都可以通过使用OCR软件转换这些故障pdf成标准编码的pdf,然后再使用知云文献翻译。

1、图片格式的pdf。
使用文本工具无法选中pdf上的文字。这类pdf可能是书籍扫描成图片,然后再转换制作而成的pdf,也可能是pdf发布者为了防止读者复制其中的文字,先将文档转成图片,然后再由图片转换制作而成的pdf。还有一些pdf虽然放大不失真,但是pdf制作者将文字全部转曲了(“文字转曲”是印刷术语),即文字不在是字而是形状。这类pdf特点是人眼能看到上面的文字,但文本工具无法选中上面的文字。
完全无法选中.gif

2、pdf布局错乱
下面这个pdf内部文本框布局错乱,选中一栏文字的时候把对侧栏的文字一起选中了,提取的文字就不连贯,翻译不会正确。
布局错乱.gif

3、pdf内部文字复制出来乱码
pdf打开用肉眼观看是正常的,但是选中后复制到记事本或word中文字是乱码的。这类pdf无法直接使用知云文献翻译翻译。
文字乱码1.gif
下图所示pdf选中后翻译全部是“甄”字。同时从pdf中选中一段话,然后复制并粘贴到记事本中,也全都是“甄”字。而不是正常的英文。
汉字乱码.gif
image.png

4、前面行号一起选中
行号一起选中.gif
5、复制出的文字没有空格或部分没有空格
看下图右侧原文区域,文字单词之间没有空格,会导致翻译异常。
标准编码的文字型PDF定义及非标准编码PDF类型 - 图8

win系统用户解决方案

如果你是WINDOWS操作系统,
直接下载:PDF-XChange.PRO.v9.1.356 直装版(250M),安装后就是没有功能限制的版本。下载地址任选一即可。

下载地址1:https://cloud.06dn.com/s/QO8SJ
下载地址2:https://cowtransfer.com/s/dbd29df51b984b
下载地址3:
https://sharewh.chaoxing.com/share/77b4857b-6359-43d9-bace-d61714fff21c?t=3

下载后如下图所示,在exe文件上右键-以管理员身份运行的方式安装。安装之前请务必退出电脑右下角的安全卫士、电脑管家之类,以免破解补丁被阻止或限制权限导致失败。
2021-09-08_121708.png
image.png
下面两张图是安装过程中的关键步骤截图。安装后软件是简体中文版本的。
2021-09-08_121726.png
2021-09-08_121812.png
桌面会生成3个快捷方式图标。中间红色的是主程序。其他两个是一些附带工具(批量转OFFICE为pdf或批量ocr等,你可以不用)。
2021-09-08_121931.png

双击中间红色的软件图标打开软件。
image.png
2021-09-08_103429.png

转换故障pdf 的方法:

用PDFxchange打开那个故障pdf文件。
2021-09-08_103500.png

下图所示本案例文件复制的文字是乱码的,我们用pdfxchange来转换一下。
2021-09-08_104056.png

打开“转换”选项卡,点击“识别页面”。
2021-09-08_104137.png

对于英文文档的OCR识别选项如下图所示。首次设置后以后会记住,不需要重新设置。
2021-09-08_104203.png
点击确定后开始转换,转换时间长短和cpu、内存大小、文档页数有关,一般20页左右pdf文档转换时间在30秒以内。如果几百页的扫描版书籍转换可能需要20分钟或更长。
2021-09-08_104356.png
转换完成会生成新的pdf,如下图。请将它保存到你电脑上,之后使用新的pdf文件进行知云文献翻译软件阅读翻译。
2021-09-08_104513.png

对比效果:

转换之前
2021-09-08_113006.png

转换之后
2021-09-08_115619.png