折腾与PDF优化艺术
与PDF的缘起
第一次接触PDF格式是在高中,当时教室里都已经配备了希沃一体机,化学老师就将从各处搜集来的试卷扫描为PDF,导入OneNote后,在大屏幕上点点画画为我们讲解。
可以直接在电脑(希沃一体机毕竟是Win系统)上做批注的神奇效果,在我装满高考内容的脑中也占有了一席之地。高中毕业,升入大学前夕,我为自己挑选了Surface Pro 6作为大学几年的笔记本电脑,正因为Surface Pro作为二合一笔记本,在保留Win系统的同时,也提供了触屏功能。终于我得以实现笔记电子化的愿望。
但这还只是开始。
大一上学期,在Surface Pro作为平板使用时,明显可以感到奔涌的热流和闪亮的反光,这种种的不适感冲击着专注力,同时Win平板羸弱的电量控制力也根本无法支撑长时间的脱电学习。因此很快,我就放弃了用Surface Pro作为写字板使用的念头。
尽管Surface Pro不再作为电子化学习的主力军,但电子化势在必行。2020年初,新冠肺炎疫情突如其来,大一下学期便在欢声笑语与“临床学习”中展开了。赋闲在家提供了良好的研究环境,PDF的研究便从此开始。
折腾的无止境
PDF的获得
巧妇难为无米之炊。PDF原始资源的获得是一切的开始。本文中讨论的PDF特指扫描版书籍。
根据来源,我们可分为:
- 获取现有PDF资源;
- 从纸质书制作PDF。
两种方法各有优缺点。获取现有PDF资源固然简便,但很多新书和冷门书不一定会有相应PDF,并且PDF质量参差不齐。而从纸质书制作PDF则首先需要有纸质书,并且需要有适合的光线及扫描(拍摄)设备,但画质和分辨率的上限相应很高。
现有PDF的找寻——大浪淘沙
对于PDF的搜寻主要是分散在各大数据库。
超星
对于超星的解读,阿虚同学珠玉在前,就不多赘述。这个圈子里的内卷比较严重,最近不少库都被封了。现在谁的库全,谁就有话语权。只能说,懂得都懂(手动狗头.jpg)
放一张图表示我略有涉猎。
盈科
盈科千信是一家神奇的文献服务公司,在微信大规模封杀群机器人后,他们公司居然还能大规模地使用群机器人,也许又是类似VPN一样,只封个人不封公司的政策吧。
盈科千信会和很多高校图书馆开展合作,提供微信群文献检索服务,服务内容包括但不限于中外文期刊(通过引文或Doi号搜索)、中外文出版物(通过ISBN号搜索)等。由于有群机器人的加成,检索效率和体验可谓是相当的舒适。可惜,北中医的盈科1群已经人满,也许只能寄希望于2群的出现,或者另寻其他学校的盈科群。如下图便是本人混入了贵州铜仁学院的盈科群。
中医数字图书馆
中医数字图书馆是由中国中医药出版社建设的线上数字图书馆。其中有很多制作优良的Epub和PDF资源,可惜只能看而不能下载。
关于中医数字图书馆网站的Epub资源,曾见过流出的,也许是某位大佬破解了网站的防盗措施,但可惜的是未闻其声。而关于该网站的PDF资源,我也曾经着手破解(以前曾按网上方法破解了人卫的数字图书馆),希望能下载高质量的原版PDF(接近于Word导出的那种),可惜最终失败。
但故事并没有结束。2022年1月时,正值大三上学期期末考期间。当时我发现下学期要用到的《中医内科学实用新教程》全网几乎没有资源(除了读秀的文献传递,但质量和传递速度堪忧),但这个网站上却有原版(而非扫描版)。宝山在前却不得入门之法,苦思冥想(期末摸鱼)数天后,一个奇妙却古朴的方法浮现了:截图。
回过头来看,可谓是感慨万千。感慨柳暗花明,更感慨大道至简(手动狗头.jpg)。现将当时的流程(Win环境)大致列出,以供后来人参考。
后来也发现了阿虚同学的相关教程,不由感慨吾道不孤(2022.2.14更新)。
有一天突发奇想使用了虚拟HDMI,创建了个虚拟的4k显示屏,居然可以用(2022.2.15更新)。
-
*选用软件ShareX进行全屏截图操作,因其截图快速且可隐藏提示。
-
*选用软件Quicker中的“Ever录精灵”组件,进行按键录制操作。具体录制操作为“PrintScreen(全屏截图)-点击下一页”,这两步即自动化操作的最小单元。
-
选用分辨率相对高的显示屏进行后续操作,因截屏的分辨率受限于显示屏的分辨率。本人选用了Surface Pro 6,分辨率为27361824。
-
*打开相应书籍的在线PDF,将显示方式调整为“单页”,也就是一屏一页。缩放方式可选“适应页面”。由于我的Surface Pro 6可以竖屏,所以我选的是“适应宽度”。
-
*随后播放第二步中录制的键鼠操作,重复几百次(根据页数)。中途可以去喝杯茶。
-
*这样就获得了一堆截屏,其中中间的一部分是我们需要的PDF内容。
-
*选用软件IrfanView对上述获得的图片进行批量裁剪。
-
*之后可参看章节PDF一般优化流程
从纸质书制作PDF——自力更生
在2021年前,这个不算是刚需。但十四五来了!几年内网上不太可能会有十四五教材的电子版,因此从纸质书制作PDF就成了绕不过去的坎。
这里有自制和送制两种途径。
自制
知乎的白垩纪老哥说的是相当详细了,此处不再赘述。但根据个人实操经验,对于我们只做几本电子书的体量来说,很难在开头就锻炼成像他那样,并且医学生的学业压力较大,因此更加推荐送制。
送制
送制即送到打印店或者淘宝商家那里扫描。一般会有拆书扫描和不拆书扫描两种,一般拆书是将书脊拆下,随后用馈纸式扫描仪自动化扫描,基本不会有曲度或偏斜。而不拆书扫描一般选用高拍仪,尽管保证了原书的完好,但扫描效果略差于拆书扫描,大家可按需选择。
PDF一般优化流程
拿到一本PDF后,有时会发现它有体积过大、重影、字淡、歪斜、褶皱等情况,这个时候就要对其进行优化处理,依然引用知乎的白垩纪老哥的回答,推荐仔细阅读。一般分为如下步骤:
1.PDF提取为图片
扫描PDF的本质是一张张图片集合而成,因此需要将其还原回原本模样后再作处理。这里我选择PDF补丁丁进行图片提取。
这样第一步就完成了,PDF中的图片被提取了出来。
2.图片批量优化
针对图片优化,可以减小图片体积、增强可读性。这里我们用到的软件是ComicEnhancerPro。知乎老哥白垩纪这篇回答里写得更详细,可参。
-
打开软件
-
拖入图片或打开图片
-
关注参数栏
-
纠斜&切边
-
减色
-
调曲线
-
做其他修正后批量导出,等待完成。
以上简单的批量优化图片就完成了。
3.重新组合图片为新PDF
在批量优化完图片后,就需要将其重新组合为新的PDF。选用的软件为PDF补丁丁具体操作如下:
4.OCR(光学文字识别)
第一次接触OCR是在高中了,因为浙江高考科目技术中的信息技术要考这个……回过头来看,OCR可以说是点石成金的魔法,它让一本平平无奇的图片PDF成为可复制可搜索,着实是提高了学习和工作效率。
双层PDF
制作双层PDF一般可选用ABBYY。
-
下载安装ABBYY。本例中使用ABBYY 15进行示范。
-
设置语言。
-
调整几个OCR选项。
-
*关闭使用MRC压缩
-
*关闭拆分对开页
-
开始OCR
-
OCR完成后,另存为可搜索的PDF
矢量化
矢量化相对于双层PDF而言,也就是将PDF单纯用可编辑的文本保存,放大后边角不会毛糙,但在失去原文辅助的情况下,如果出现错字则让人费解。
这里我们选用万兴PDF
-
下载安装万兴PDF。
-
选择OCR PDF或批量处理
-
选择文件后进行OCR即可
5.书签的获得与添加
书签可从读秀上获取,直接从网站上获得或运用小工具通过SS号进行搜索获得。
书签的添加可通过软件PdgCntEditor批量添加,只需要满足书签名+制表符(tab)+页码
即可,层级之间也是通过制表符(tab)
进行缩进即可。如图所示。
6.PDF页码偏移
一般通过上述方法获得的目录是正文页的编码,而我们的PDF往往不是从正文页开始的,这时就需要调整页码偏移。目录页码的偏移可在PdgCntEditor中完成。而页面标签的偏移则可在Adobe Acrobat DC中完成。前者是调整目录的对应,而后者是调整页码标签的显示。一般先进行目录页码偏移,再进行页码标签偏移,前者为必需,后者则是锦上添花。
调整目录页码偏移如下:
调整页面标签偏移如下(为方便理解,此处示例PDF已完成页码标签偏移):
其他的PDF优化技巧
这一篇较少用到,因此从简,如有需要可再交流。
PDF去除密码
PDF的密码其实可以设置很多,我这里简单提两个。
阅读限制密码
这个需要事先知道密码方可去除,在知道密码进入PDF阅读界面后,通过属性将安全性方法移除,此处选用的软件为Adobe Acrobat DC。
编辑限制密码
这个就可以通过小工具巧妙绕过了。这里选用的是PDFPasswordRemover,只需要将编辑限制的PDF拖入后,软件会自动进行解密,生成一个去除密码的新PDF。
PDF切边
如果PDF的白边比较规整,可通过Adobe Acrobat DC进行切边。
如果不太规整,可以选用briss进行批量裁切。不同的页面皆可自动识别并裁切。
PDF字体更换
可使用Adobe Acrobat DC插件PitStop Pro。
PDF页面分割(一切多)
有时候老师发的PPT是一页多张PPT,这是就需要进行页面分割。这里我们选用A-PDF Page Cut。
从PDF结构创建目录
有时候我们拿到的是Word导出的PDF,这种PDF格式就相对规整,可以通过匹配标题格式来自动创建目录。这里选用的软件是PDF补丁丁。
另辟蹊径
从Word创建PDF
这也许是我们最常见的高质量PDF的来源。从Word创建PDF就好像拍照一般,定格下了某一刻Word的模样。
在一键导出PDF之前,也许我们可以注意一些小细节。
从标题创建书签
如果Word文件自带大纲层级,那么选择从标题创建书签将为PDF自动创建目录。具体可在Word导出PDF的选项中找到。
嵌入字体
字体一般分为TTF和OTF两种格式。OTF字体相对较新,广为人知的便是Adobe的思源宋体和思源黑体。
但需要注意的一点是,OTF字体在Word导出PDF时无法正常嵌入,会变为锯齿状。此时便需要使用该字体的TTF版,可以选用在线或本地工具进行转换。
从Epub/Mobi/Azw3创建PDF
Epub/Mobi/Azw3资源相对少见,一般是亚马逊、京东读书等书城流出。精致的排版和目录让它们的实用价值极高,一般可用软件Calibre将其导出为PDF,效果很赞。
结语
折腾永无止境,但让我们沉迷的或许就是过程中的“心流“与“高峰”体验。时至今日,在如同创作巨作般完成一个精美的PDF时,我的心灵仍会像被暴雨淋湿的幼犬一般,颤抖不已。
版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
作者:友人G
联系方式:guyuanye1973(微信),guyuanye1973@foxmail.com
PDF购买:本人可提供教材及其他电子书PDF, 包含OCR(可搜索和复制)和目录书签,十四五的教材,如果是我专业需要用到的,本人会自行扫描制作PDF,具体书目可咨询
发布日期:2022年2月6日