pdf.png 向右.png OCR识别异常记录.png

以下内容均来源:
知云文献翻译帮助文档
https://www.yuque.com/xtranslator/zy/qnizp1


PDF类型

分标准编码的文字型pdf 和 非标准编码的文字型pdf

标准编码的文字型pdf

pdf中可以正确的选中文字、复制它,并粘贴到记事本中之后看到的文字和pdf中相同。
image.png

非标准编码的pdf

有些pdf虽然肉眼看上去是正常的,但可能无法选中文字或虽然可以选择文字但布局错乱,或复制出的文字乱码。以下非标准编码的PDF无法直接使用知云文献翻译翻译阅读。但都可以通过使用OCR软件转换这些故障pdf成标准编码的pdf,然后再使用知云文献翻译。

1、图片格式的pdf。

使用文本工具无法选中pdf上的文字。这类pdf可能是书籍扫描成图片,然后再转换制作而成的pdf,也可能是pdf发布者为了防止读者复制其中的文字,先将文档转成图片,然后再由图片转换制作而成的pdf。还有一些pdf虽然放大不失真,但是pdf制作者将文字全部转曲了(“文字转曲”是印刷术语),即文字不在是字而是形状。这类pdf特点是人眼能看到上面的文字,但文本工具无法选中上面的文字。
完全无法选中.gif

2、pdf布局错乱

下面这个pdf内部文本框布局错乱,选中一栏文字的时候把对侧栏的文字一起选中了,提取的文字就不连贯,翻译不会正确。
布局错乱.gif

3、pdf内部文字复制出来乱码

pdf打开用肉眼观看是正常的,但是选中后复制到记事本或word中文字是乱码的。这类pdf无法直接使用知云文献翻译翻译。
文字乱码1.gif
下图所示pdf选中后翻译全部是“甄”字。同时从pdf中选中一段话,然后复制并粘贴到记事本中,也全都是“甄”字。而不是正常的英文。
汉字乱码.gif
image.png

4、前面行号一起选中

行号一起选中.gif

5、复制出的文字没有空格或部分没有空格

看下图右侧原文区域,文字单词之间没有空格,会导致翻译异常。
📔PDF - OCR软件转换编辑 - 图13

Win系统用户解决非标准编码pdf

如果你是WINDOWS操作系统,
直接下载:PDF-XChange.PRO.v9.1.356 直装版(250M),安装后就是没有功能限制的版本。下载地址任选一即可。

  • 下载地址1:

https://cloud.06dn.com/s/QO8SJ

  • 下载地址2:

https://sharewh.chaoxing.com/share/77b4857b-6359-43d9-bace-d61714fff21c?t=3

  • PDF编辑软件:PDF-XChange Editor Plus/Pro 9.2.358 便携版

链接:https://pan.baidu.com/s/1yBQl5IQCQdSegw0qq30ISg 提取码:k2no

下载后如下图所示,在exe文件上右键-以管理员身份运行的方式安装。
2021-09-08_121708.png
image.png
下面两张图是安装过程中的关键步骤截图。安装后软件是简体中文版本的。
2021-09-08_121726.png
2021-09-08_121812.png
桌面会生成3个快捷方式图标。中间红色的是主程序。其他两个是一些附带工具(批量转OFFICE为pdf或批量ocr等,你可以不用)。
2021-09-08_121931.png
双击中间红色的软件图标打开软件。
image.png
2021-09-08_103429.png

转换故障pdf 的方法

用PDFxchange打开那个故障pdf文件。
2021-09-08_103500.png

下图所示本案例文件复制的文字是乱码的,我们用pdfxchange来转换一下。
2021-09-08_104056.png

打开“转换”选项卡,点击“识别页面”。
2021-09-08_104137.png

对于英文文档的OCR识别选项如下图所示。首次设置后以后会记住,不需要重新设置。
2021-09-08_104203.png
点击确定后开始转换,转换时间长短和cpu、内存大小、文档页数有关,一般20页左右pdf文档转换时间在30秒以内。
如果几百页的扫描版书籍转换可能需要20分钟或更长。
2021-09-08_104356.png
转换完成会生成新的pdf,如下图。请将它保存到你电脑上,之后使用新的pdf文件进行知云文献翻译软件阅读翻译。
2021-09-08_104513.png

对比效果

转换之前

📔PDF - OCR软件转换编辑 - 图27

转换之后
2021-09-08_115619.png


OCR.png

OCR软件

介绍及功能强大的几款OCR软件(win|mac)

OCR是什么 ?

OCR (Optical Character Recognition,光学字符识别)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。通俗的说就是识别图片上的文字,然后提取出来,变成可编辑的文档

虽然使用知云文献翻译阅读的是PDF而不是jpg等图片格式。但是OCR软件可以把图片类型的pdf和非标准编码的pdf通过类似于人眼一个个字识别的方式转换成标准的文字型pdf。转换完成之后另存的pdf,因为是标准编码的文字型pdf,因此可以使用知云文献翻译来阅读翻译。

OCR软件有哪些?

OCR软件不是指一个软件的名称,而是指一类软件。这类软件很多。但由于我们阅读的是pdf文档,一般是页数比较多的比如10页、20页,甚至1000页。因此那些只能一张张图片进行OCR转换的软件不适合我们使用,再这里就全部排除掉不做讲解了。很多pdf阅读器都号称有ocr功能,但大部分OCR转换效果比较差,这里就不列举出来了。

目前主流的OCR软件包括:万兴pdf专家;PDF Xchange editor;Readiris Pro;Abbyy Finereader

最推荐的OCR软件

Windows系统

万兴pdf专家;PDF Xchange editor;Abbyy FineReader15;Readiris pro
由于万兴pdf专家需要收费购买。这里提供 pdf xchange editor下载,它只有win版本。下载后压缩包内有安装方法。安装时请不要修改安装路径,否则解锁会失败。下方有下载链接提示.jpeg

0 Adobe Acrobat

Winhttps://pan.baidu.com/s/1PG33IupX17rqU0KimZ1pJw?pwd=a5ig 提取码:a5ig
Machttps://pan.baidu.com/s/1dYxUkgftonYBOm8-r_nf9Q?pwd=76xa 提取码:76xa

1 PDF-XChange

64位:PDF-XChange-PRO-v9.0.354-64bit
百度网盘链接:https://pan.baidu.com/s/1_yJtULtskADlh-cRkJ9iRA 提取码:zpht
奶牛快传链接:https://cowtransfer.com/s/99ec1f054f1443
备用地址:https://sharewh.chaoxing.com/share/272e57bd-d384-48af-9ad3-fa4e6f2e03d2?t=3

32位:PDF-XChange-PRO-v9.0.354-32bit
百度网盘链接:https://pan.baidu.com/s/1CnJZ8385w4_AMskSTmgvXw 提取码:fmv8
奶牛快传链接:https://cowtransfer.com/s/b5692483eeee4b
备用地址:https://sharewh.chaoxing.com/share/272e57bd-d384-48af-9ad3-fa4e6f2e03d2?t=3

PDF编辑软件:PDF-XChange Editor Plus/Pro 9.2.358 便携版
链接:https://pan.baidu.com/s/1yBQl5IQCQdSegw0qq30ISg 提取码:k2no

PDF-XChange-PRO-v9.1 直装版:安装后可直接使用不需要额外破解等操作。更推荐。
下载地址1:
https://cloud.06dn.com/s/QO8SJ
下载地址2:
https://sharewh.chaoxing.com/share/77b4857b-6359-43d9-bace-d61714fff21c?t=3
下载地址3:
链接:https://pan.baidu.com/s/1r8OdlUi_Clz4SQdHbndeUQ 提取码:1o6k

2 万兴PDF

万兴PDF Wondershare PDFelement Professional 8.2.23.1077
万兴PDF(Wondershare PDFelement) 8.3.5.1199
链接:https://pan.baidu.com/s/19bel04-6Ho52IjEfvRMopQ 提取码:bwow
使用方法

  1. 解压文件
  2. 运行 Setup.exe 安装
  3. 运行 Host Block.bat
  4. Crack 文件夹下的文件复制到 C:\Users\<用户名>\AppData\Roaming\Wondershare\PDFelement\Config\WSID

万兴PDF专业版V8.3.3.1191中文永久激活版
链接:https://www.aliyundrive.com/s/tGRpaVJr3QQ

3 Abbyy FineReader15

ABBYY FineReader 15.0.18.1494 Corporate Multilingual
链接:https://pan.baidu.com/s/1RV2uYjknBSBq8—1rDmGUg 提取码:imi7

4 Readiris pro

Readiris Corporate v17.2.9
链接:https://pan.baidu.com/s/1cDF3OhPRHV5LLhEIvvRjsw 提取码:o0nh
使用方法
1、安装完软件后运行Readiris Corporate Keygen 注册机会生成一个 lservrc 文件;
2、把这个 lservrc 授权文件复制替换到C:\ProgramData\Readiris17Corp\
快捷键Win+r,输入 C:\ProgramData 就可以进入这个目录了。

苹果Mac系统

万兴pdf专家mac版;Readiris mac;ABBYY FineReader 15
下方有下载链接提示.jpeg

1 Readiris Pro_17.1

mac版:234M
如果安装了无法打开,非软件本身问题,而是mac系统通用性问题,网上搜索你打不开时跳出的错误文字,一般可以搜索到解决方法。
百度网盘链接:https://pan.baidu.com/s/1FmX9-EmXYY8PJQfCtx5VJg 提取码:9981
奶牛快传:https://cowtransfer.com/s/443c090ea74348
直链下载工具下载:http://down.xtranslator.cn/s/XeE1yuD/amy/macsoft/Readiris_Pro_17.1.4.dmg
Readiris Corporate PRO 17.1.2 - Mac文字OCR识别工具
链接:https://pan.baidu.com/s/1_W2Sd-G6cvMwPC—S4UFow 提取码:zgce

2 ABBYY FineReader 15

ABBYY FineReader OCR Pro for Mac 12.1.14
链接:https://pan.baidu.com/s/1M-8DzJJQUO0POxikFPn6lw 提取码:yev2

3 万兴PDF专家

(PDFelement)for Mac 中文
链接:https://pan.baidu.com/s/1YCI78klFNeSat-7aTFK_CQ 提取码:a9dy

4 Adobe Acrobat

Machttps://pan.baidu.com/s/1dYxUkgftonYBOm8-r_nf9Q?pwd=76xa 提取码:76xa

各个软件介绍

1 万兴PDF专家

中国产。有win版本和mac版本。
港股上市公司。主要市场在欧美。近几年也开始发展国内市场了。综合转换质量非常棒,个人对比使用万兴和abbyy finereader感觉万兴更好用。如果购买需要购买专业版,而不是标准版。专业版才包含OCR功能。软件不绑定电脑,即电脑坏了,到新电脑上激活即可,只要同时使用不操作2个电脑即可。mac版本和win版本激活码不通用(购买的win激活码只能在win系统使用。购买的mac激活码只能在mac系统使用)。大家也可以自己网上找破解版。我们不提供。

image.png

如果大家要购买正版的万兴pdf专业版,可以使用下面的优惠卷微信扫码购买绝对是可以便宜50元的。而且知云保证没有从中间拿回扣,完全是给用户争取的福利。
50元优惠卷.jpg

2 PDF Xchange editor

加拿大产
有win版本。没有mac版本(或者难以找到mac版)。OCR组件使用的abbyy公司的,所以OCR转换效果也非常棒。国内无代理,可找破解版。目前最新版9.0。有中文版。英文文档转换效果好。中文文档OCR转换效果欠佳。
国内没有代理,难以买到正版。

image.png

3 Abbyy fineReader

俄罗斯产。有win版本和mac版本。mac版本非常烂,很难用。
OCR转换能力首屈一指。不过软件比较贵。标准版1358元。只支持一台电脑,支持重装或更换三次电脑,不支持更新到更加新的版本。比如15.0不支持免费更新到16.0。软件使用流程及转换效果上并不比万兴PDF专家更强。不建议购买。国内由苏州一家公司代理,国内网站不容易找到破解版。梯子国外可以找到。我们不传播破解版。如有需要可以自己寻找破解版。
国内有代理,可买到正版,但贵,软件整体使用感受不如万兴pdf专家。不值得购买正版。
image.png
image.png

4 Readiris

比利时的公司产品。有win版本和mac版本。
有中文版。OCR功能很不错。尤其是对英文语言的文档。尤其是mac 系统下这款软件很好用。win 和mac版本都可找到破解版。
国内没有代理,难以买到正版。
image.png
20210128114742.png


OCR识别管理.png

Win OCR转换方法

1 Abbyy FineReader15 win OCR转换方法

所有非标准编码的pdf均可使用此OCR软件转换
比如:下面这个pdf由于选中一侧栏文字的时候,对侧栏文字一起选中,导致翻译异常。这个pdf需要用OCR软件转换。
20210127165615.png
20210127164530.png

打开Abbyy FineReader15 ,然后工具菜单,OCR编辑器。

20210127163150.png

在打开的OCR编辑器窗口中,先确保选择了正确的OCR语言,如下图。 大部分中文或英文的文档都可以选中“简体中文和英语”,包括存英文的文档。 然后点击工具栏上的“打开”按钮。打开要进行OCR转换的非标准编码PDF文档。

20210127163240.png

软件会立即开始转换。时间长度和电脑配置及文档页数有关系。但一般10几页的文献时间很短,不会超过1分钟。

20210127163313.png

转换完成后按下图点击,点击“另存为可搜索的PDF文档”

20210127163348.png

在弹出的保存窗口中,自己命名文件。另外在“选项”按钮中点开,建议设置“页面图像上方的文本”, 意思是把OCR识别的标准文本放在PDF的最上层。

20210127163515.png
20210127163552.png

下图是默认(左侧)和设置为“页面图像上方的文本”的对比。下图左侧 pdf文字有毛刺感。右侧文字显示更加圆滑。

20210127164412.png

将转换另存的pdf文档用知云文献翻译打开阅读翻译:

20210127165453.png

新建软件左上角的“新建任务”,可以开始另外一个pdf文件的OCR转换。
📔PDF - OCR软件转换编辑 - 图50

2 万兴PDF专家 win版OCR转换流程

所有非标准编码的pdf均可使用此OCR软件转换
万兴pdf专家十分好用,有win版本和mac版本。
OCR流程案例
比如:下面这个pdf,纯图片型,完全无法选中上面的文字。需要用OCR软件转换成标准文字型pdf后再使用知云文献翻译。
20210127170044.png

打开万兴pdf专家软件。

20210127170114.png

点击“打开文件”按钮,打开要转换的pdf文件。

20210127170200.png

然后依次按下图点击:转换-OCR,选择正确的语言。然后点击“确定”。

20210127170246.png

OCR转换时间根据电脑配置、页数不同。一般的文献时间很短估计就20秒左右。几百页的pdf书籍可能转换半小时或更长。

20210127170311.png

转换完成后会自动生成一个OCR结尾的文件并在软件中打开,你点击“保存”按钮保存到电脑中。

20210127170324.png

然后使用知云文献翻译打开这个转换好的pdf文件,看下图,可以正常选中左侧一栏了吧。

📔PDF - OCR软件转换编辑 - 图57

3 PDF XChange editor win版 OCR转换流程

所有非标准编码的pdf均可使用此OCR软件转换。
本软件转换英文文档效果很好转换中文文档效果不佳
比如下面这个pdf,获取的文本是乱码的导致翻译故障。需要将这个pdf进行ocr转换后再翻译。
20210127172040.png

打开PDF XChange Editor。

20210127172119.png

软件左上角打开图标点击打开要转换的pdf文件。然后再“转换”选项卡-“识别页面” ,

20210127172207.png

这个页面需要注意选择正确的文档语言。这个是英文文档。选中默认的English。 下拉中没有中文,如果是中文文档,需要点击右侧 添加/更新语言 下载中文OCR包。 另外请去掉“忽略页面中存在的文本”的勾,如下图那样。 其余按我下图框选的选择。

20210127180735.png

转换好后,点击保存按钮,保存转换好的pdf。

20210127172512.png

然后用知云文献翻译打开转换好的pdf,看正常了吧。

📔PDF - OCR软件转换编辑 - 图63

4 Readiris pro win版 OCR转换流程

所有非标准编码的pdf均可使用此OCR软件转换。
本软件转换英文文档效果很好转换中文文档效果一般
比如,下面这篇pdf完全无法选中文字。我们需要使用OCR软件进行转换。
完全无法选中.gif

双击打开Readiris 17。

20210128114541.png

首先确保选择正确的文档语言,我们这篇文章是英文的,所以我们选中英语。然后点击左侧的“从文件”,打开要转换的pdf文件。

20210128114637.png

一旦文件打开到软件中,软件会立即开始OCR转换。速度很快。 一般十几页的文献估计20秒左右可以转换完成。几百页的书籍可能要转换20分钟或更长。

20210128114742.png

转换完成后点击保存转换好的pdf,如下图。

20210128114824.png

然后使用知云文献翻译打开转换好的pdf,你看,可以选择上面的文字了吧。

📔PDF - OCR软件转换编辑 - 图69

Mac版 OCR转换流程

1 万兴PDF专家MAC版 OCR转换流程

所有非标准编码的pdf均可使用此OCR软件转换。
中文、英文文档均可转换。
比如下面这个pdf文档空格丢失导致翻译故障。需要OCR转换后再阅读翻译。
20210128122325.png

打开万兴pdf专家mac版本,软件名字叫:pdf element。打开后点击“打开文件”。然后依次浏览文件夹找到要转换的pdf文件打开。

20210128122554.png

然后看下图点击找到“OCR文本识别”选项

20210128121906.png

选择正确的文本语言。英文文档就选择English。然后“执行OCR”。

20210128121942.png
20210128122012.png

直线完成后点击“打开”按钮。

20210128122042.png

这时会打开转换好的pdf,将之保存,并重新命名。注意屏幕上有两个pdf,一个是转换之前的pdf,一个是转换之后的pdf。不要搞错了。

20210128122115.png

用知云文献翻译mac 打开转换好的pdf 阅读翻译,你看正常了吧。

20210128122404.png

2 Readiris pro Mac版 OCR转换流程

所有非标准编码的pdf均可使用此OCR软件转换。
中文、英文文档均可转换。中文文档转换效果略差
比如,下面这个pdf文档布局错乱,选中左侧栏的时候会把右侧栏一起选中。这个pdf文件需要用ocr转换修复后才能使用知云文献翻译阅读翻译。
20210128131140.png

打开Readiris MAC版。

20210128131735.png

首次打开软件,文档语言默认是中文的。由于我们大多数看的是英文文档,所以需要将文档语言改成英文。点击下图红框所示位置。

20210128131917.png

主要语言选择“英语”,次要语言 不必选择。因为那些语言太多小众了。然后点击“确定”

20210128131236.png

然后点击“文件”按钮。打开要转换的pdf文件。

20210128131258.png

打开的时候 软件会询问你是否要全部页面都转换,还是转换某些页面。如果全部都转换就直接点击“确定”。

20210128131340.png

一旦点击确定,就开始转换了。过程挺快。

20210128131352.png

转换完成后点击下图所示图标,保存转换好的pdf文档。请务必记住你保存到什么位置了哦。以免后面找不到了。

20210128131416.png

用知云文献翻译mac打开转换好的pdf文档,你看,正常了吧。

20210128131604.png

如果你要接着转换其他pdf文档,请点击“新建”按钮。而不用直接点击”文件”,否则后面的pdf会和前面的pdf融合成一个pdf。

20210128131441.png

点击新建后问你是否要删除打开的文档,点击“是”。软件只是把打开的工程文档不保存,并不会删除你文件夹中的文件的。

20210128131519.png

然后就回到了你熟悉的画面,先确保接下来要转换的文档语言是否是英文。如果是,就直接点击“文件”,开始下一个循环啦!

20210128131532.png