折腾与PDF优化艺术

投稿:@友人G 编辑:@Sunday

折腾与PDF优化艺术

与PDF的缘起

第一次接触PDF格式是在高中,当时教室里都已经配备了希沃一体机,化学老师就将从各处搜集来的试卷扫描为PDF,导入OneNote后,在大屏幕上点点画画为我们讲解。

可以直接在电脑(希沃一体机毕竟是Win系统)上做批注的神奇效果,在我装满高考内容的脑中也占有了一席之地。高中毕业,升入大学前夕,我为自己挑选了Surface Pro 6作为大学几年的笔记本电脑,正因为Surface Pro作为二合一笔记本,在保留Win系统的同时,也提供了触屏功能。终于我得以实现笔记电子化的愿望。

但这还只是开始。

大一上学期,在Surface Pro作为平板使用时,明显可以感到奔涌的热流和闪亮的反光,这种种的不适感冲击着专注力,同时Win平板羸弱的电量控制力也根本无法支撑长时间的脱电学习。因此很快,我就放弃了用Surface Pro作为写字板使用的念头。

尽管Surface Pro不再作为电子化学习的主力军,但电子化势在必行。2020年初,新冠肺炎疫情突如其来,大一下学期便在欢声笑语与“临床学习”中展开了。赋闲在家提供了良好的研究环境,PDF的研究便从此开始。

折腾的无止境

PDF的获得

巧妇难为无米之炊。PDF原始资源的获得是一切的开始。本文中讨论的PDF特指扫描版书籍。

根据来源,我们可分为:

  1. 获取现有PDF资源;
  2. 从纸质书制作PDF。

两种方法各有优缺点。获取现有PDF资源固然简便,但很多新书和冷门书不一定会有相应PDF,并且PDF质量参差不齐。而从纸质书制作PDF则首先需要有纸质书,并且需要有适合的光线及扫描(拍摄)设备,但画质和分辨率的上限相应很高。

现有PDF的找寻——大浪淘沙

对于PDF的搜寻主要是分散在各大数据库

超星

对于超星的解读,阿虚同学珠玉在前,就不多赘述。这个圈子里的内卷比较严重,最近不少库都被封了。现在谁的库全,谁就有话语权。只能说,懂得都懂(手动狗头.jpg)

放一张图表示我略有涉猎。

盈科

盈科千信是一家神奇的文献服务公司,在微信大规模封杀群机器人后,他们公司居然还能大规模地使用群机器人,也许又是类似VPN一样,只封个人不封公司的政策吧。

盈科千信会和很多高校图书馆开展合作,提供微信群文献检索服务,服务内容包括但不限于中外文期刊(通过引文或Doi号搜索)、中外文出版物(通过ISBN号搜索)等。由于有群机器人的加成,检索效率和体验可谓是相当的舒适。可惜,北中医的盈科1群已经人满,也许只能寄希望于2群的出现,或者另寻其他学校的盈科群。如下图便是本人混入了贵州铜仁学院的盈科群。

中医数字图书馆

中医数字图书馆是由中国中医药出版社建设的线上数字图书馆。其中有很多制作优良的Epub和PDF资源,可惜只能看而不能下载。

关于中医数字图书馆网站的Epub资源,曾见过流出的,也许是某位大佬破解了网站的防盗措施,但可惜的是未闻其声。而关于该网站的PDF资源,我也曾经着手破解(以前曾按网上方法破解了人卫的数字图书馆),希望能下载高质量的原版PDF(接近于Word导出的那种),可惜最终失败。

但故事并没有结束。2022年1月时,正值大三上学期期末考期间。当时我发现下学期要用到的《中医内科学实用新教程》全网几乎没有资源(除了读秀的文献传递,但质量和传递速度堪忧),但这个网站上却有原版(而非扫描版)。宝山在前却不得入门之法,苦思冥想(期末摸鱼)数天后,一个奇妙却古朴的方法浮现了:截图

回过头来看,可谓是感慨万千。感慨柳暗花明,更感慨大道至简(手动狗头.jpg)。现将当时的流程(Win环境)大致列出,以供后来人参考。

后来也发现了阿虚同学的相关教程,不由感慨吾道不孤(2022.2.14更新)。

有一天突发奇想使用了虚拟HDMI,创建了个虚拟的4k显示屏,居然可以用(2022.2.15更新)。

  1. *选用软件ShareX进行全屏截图操作,因其截图快速且可隐藏提示。

  2. *选用软件Quicker中的“Ever录精灵”组件,进行按键录制操作。具体录制操作为“PrintScreen(全屏截图)-点击下一页”,这两步即自动化操作的最小单元。

  3. 选用分辨率相对高的显示屏进行后续操作,因截屏的分辨率受限于显示屏的分辨率。本人选用了Surface Pro 6,分辨率为27361824。

  4. *打开相应书籍的在线PDF,将显示方式调整为“单页”,也就是一屏一页。缩放方式可选“适应页面”。由于我的Surface Pro 6可以竖屏,所以我选的是“适应宽度”。

  5. *随后播放:arrow_forward:第二步中录制的键鼠操作,重复几百次(根据页数)。中途可以去喝杯茶。

  6. *这样就获得了一堆截屏,其中中间的一部分是我们需要的PDF内容。

  7. *选用软件IrfanView对上述获得的图片进行批量裁剪。

  8. *之后可参看章节PDF一般优化流程

从纸质书制作PDF——自力更生

在2021年前,这个不算是刚需。但十四五来了!几年内网上不太可能会有十四五教材的电子版,因此从纸质书制作PDF就成了绕不过去的坎。

这里有自制送制两种途径。

自制

知乎的白垩纪老哥说的是相当详细了,此处不再赘述。但根据个人实操经验,对于我们只做几本电子书的体量来说,很难在开头就锻炼成像他那样,并且医学生的学业压力较大,因此更加推荐送制。

送制

送制即送到打印店或者淘宝商家那里扫描。一般会有拆书扫描不拆书扫描两种,一般拆书是将书脊拆下,随后用馈纸式扫描仪自动化扫描,基本不会有曲度或偏斜。而不拆书扫描一般选用高拍仪,尽管保证了原书的完好,但扫描效果略差于拆书扫描,大家可按需选择。

PDF一般优化流程

拿到一本PDF后,有时会发现它有体积过大、重影、字淡、歪斜、褶皱等情况,这个时候就要对其进行优化处理,依然引用知乎的白垩纪老哥的回答,推荐仔细阅读。一般分为如下步骤:

1.PDF提取为图片

扫描PDF的本质是一张张图片集合而成,因此需要将其还原回原本模样后再作处理。这里我选择PDF补丁丁进行图片提取。

这样第一步就完成了,PDF中的图片被提取了出来。

2.图片批量优化

针对图片优化,可以减小图片体积、增强可读性。这里我们用到的软件是ComicEnhancerPro。知乎老哥白垩纪这篇回答里写得更详细,可参。

  1. 打开软件

  2. 拖入图片或打开图片

  3. 关注参数栏

  4. 纠斜&切边

  5. 减色

  6. 调曲线

  7. 做其他修正后批量导出,等待完成。

以上简单的批量优化图片就完成了。

3.重新组合图片为新PDF

在批量优化完图片后,就需要将其重新组合为新的PDF。选用的软件为PDF补丁丁具体操作如下:

4.OCR(光学文字识别)

第一次接触OCR是在高中了,因为浙江高考科目技术中的信息技术要考这个……回过头来看,OCR可以说是点石成金的魔法,它让一本平平无奇的图片PDF成为可复制可搜索,着实是提高了学习和工作效率。

双层PDF

制作双层PDF一般可选用ABBYY

  1. 下载安装ABBYY。本例中使用ABBYY 15进行示范。

  2. 设置语言。

  3. 调整几个OCR选项。

  4. *关闭使用MRC压缩

  5. *关闭拆分对开页

  6. 开始OCR

  7. OCR完成后,另存为可搜索的PDF

矢量化

矢量化相对于双层PDF而言,也就是将PDF单纯用可编辑的文本保存,放大后边角不会毛糙,但在失去原文辅助的情况下,如果出现错字则让人费解。

这里我们选用万兴PDF

  1. 下载安装万兴PDF

  2. 选择OCR PDF批量处理

  3. 选择文件后进行OCR即可

5.书签的获得与添加

书签可从读秀上获取,直接从网站上获得或运用小工具通过SS号进行搜索获得。

书签的添加可通过软件PdgCntEditor批量添加,只需要满足书签名+制表符(tab)+页码 即可,层级之间也是通过制表符(tab) 进行缩进即可。如图所示。

6.PDF页码偏移

一般通过上述方法获得的目录是正文页的编码,而我们的PDF往往不是从正文页开始的,这时就需要调整页码偏移。目录页码的偏移可在PdgCntEditor中完成。而页面标签的偏移则可在Adobe Acrobat DC中完成。前者是调整目录的对应,而后者是调整页码标签的显示。一般先进行目录页码偏移,再进行页码标签偏移,前者为必需,后者则是锦上添花。

调整目录页码偏移如下:

调整页面标签偏移如下(为方便理解,此处示例PDF已完成页码标签偏移):

其他的PDF优化技巧

这一篇较少用到,因此从简,如有需要可再交流。

PDF去除密码

PDF的密码其实可以设置很多,我这里简单提两个。

阅读限制密码:lock:

这个需要事先知道密码方可去除,在知道密码进入PDF阅读界面后,通过属性安全性方法移除,此处选用的软件为Adobe Acrobat DC

编辑限制密码:no_entry_sign:

这个就可以通过小工具巧妙绕过了。这里选用的是PDFPasswordRemover,只需要将编辑限制的PDF拖入后,软件会自动进行解密,生成一个去除密码的新PDF。

PDF切边

如果PDF的白边比较规整,可通过Adobe Acrobat DC进行切边。

如果不太规整,可以选用briss进行批量裁切。不同的页面皆可自动识别并裁切。

PDF字体更换

可使用Adobe Acrobat DC插件PitStop Pro

PDF页面分割(一切多)

有时候老师发的PPT是一页多张PPT,这是就需要进行页面分割。这里我们选用A-PDF Page Cut

从PDF结构创建目录

有时候我们拿到的是Word导出的PDF,这种PDF格式就相对规整,可以通过匹配标题格式来自动创建目录。这里选用的软件是PDF补丁丁

另辟蹊径

从Word创建PDF

这也许是我们最常见的高质量PDF的来源。从Word创建PDF就好像拍照一般,定格下了某一刻Word的模样。

在一键导出PDF之前,也许我们可以注意一些小细节。

从标题创建书签

如果Word文件自带大纲层级,那么选择从标题创建书签将为PDF自动创建目录。具体可在Word导出PDF的选项中找到。

嵌入字体

字体一般分为TTFOTF两种格式。OTF字体相对较新,广为人知的便是Adobe的思源宋体和思源黑体。

但需要注意的一点是,OTF字体在Word导出PDF时无法正常嵌入,会变为锯齿状。此时便需要使用该字体的TTF版,可以选用在线或本地工具进行转换。

从Epub/Mobi/Azw3创建PDF

Epub/Mobi/Azw3资源相对少见,一般是亚马逊、京东读书等书城流出。精致的排版和目录让它们的实用价值极高,一般可用软件Calibre将其导出为PDF,效果很赞。

结语

折腾永无止境,但让我们沉迷的或许就是过程中的“心流“与“高峰”体验。时至今日,在如同创作巨作般完成一个精美的PDF时,我的心灵仍会像被暴雨淋湿的幼犬一般,颤抖不已

版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证

作者:友人G

联系方式:guyuanye1973(微信),guyuanye1973@foxmail.com

PDF购买:本人可提供教材及其他电子书PDF, 包含OCR(可搜索和复制)和目录书签,十四五的教材,如果是我专业需要用到的,本人会自行扫描制作PDF,具体书目可咨询

发布日期:2022年2月6日

都快把这篇文章忘记了 :joy:

NB(帖子必须至少为8个字符)