我在 Apple Books 中有一本来自 iPad 上本地文件的书 (PDF)。我在 PDF 上做了两个月的笔记。
今天我无法打开它并收到错误:
“无法打开文档。无法打开 ''”
所以我将文件空投到 Mac 上,尝试在 Preview、Adobe 和 Acrobat 中打开它。我在任何地方尝试过该文件,但都无法打开该文件。它可能已损坏或损坏。
我尝试使用Ghostscript( gs
)修复它,但没有成功:
gs \
-o repaired.pdf \
-sDEVICE=pdfwrite \
-dPDFSETTINGS=/prepress \
corrupted.pdf
我收到一个错误:
Catalog dictionary not located in file, unable to proceed
**** Error: Couldn't initialise file.
Output may be incorrect.
No pages will be processed (FirstPage > LastPage).
The following errors were encountered at least once while processing this file:
startxref offset invalid
xref table was repaired
**** This file had errors that were repaired or ignored.
**** Please notify the author of the software that produced this
**** file that it does not conform to Adobe's published PDF
**** specification.
我尝试更新 iPad 并重新启动,似乎没有解决问题。
该文件约为 150mb。我可以做什么来恢复它?
我已经处理计算机数据 59 1/2 年了,过去 40 年来解决了各种级别的数据丢失问题,包括狡猾的开关和继电器、撕破的纸带和虫蛀的卡片、拉伸的磁带和电缆、弯曲或破裂的磁盘和片状薯片。有些令人惊奇的故事,我无法讲述,否则你会怀疑我的理智或雇用我的人或感染他们数据的人。
因此,第一个建议是找出原因,即使那是陈词滥调的“你在墙上关掉了吗?”
下一步是评估恢复的机会与再次这样做的成本。
所以这是一个有趣的挑战,但答案并不好。
如果您认为编辑设备有可能存在隐藏的已删除副本,并且更换成本异常高。那么,可能值得花钱将断电的设备连接到诊断系统,在诊断系统中可以对磁盘进行镜像并扫描已删除的
%PDF-
标头。现代磁盘往往要么无法实现这一点(固态),要么像以前那样容易,通过快速将释放的空间重新用于大型内存存储缓存,从而覆盖丢失的数据。
现在到“有问题的”保存文件的中心。
它保留了许多所需的数据。然而,通过与未经编辑的源文件相比,我们可以说损失非常显着。
源 PDF 已经编辑过两次(一个新封面?和一个小调整),因此在添加不同的编辑时会留下一些奇怪的地方(这并不罕见,但要避免)。
如果我重组该源文件,工作计数将优化为 /Size 37546 对象。表明存在一些冗余,但同样并不罕见。
两个月内的添加量应该会超过每天几个,使计数增加到 40,000 或更多。然而它报告它是/Size 70957。一次确认该文件应该太大了。因此,额外的大约 32,000 个项目需要全部包含在保留文件中,但它比所需的要小。
作为测试(用于比较),我只恢复了一页注释(不知道它覆盖了哪页)。这可能不典型,但一页大约为 120 KB。
这里可能没有意义,因为您无法在脱离上下文的情况下看到此处的组件,但可能是右手页面上的最后一页更改(请参阅日期)。
我们可以将它放在新的封面上(仍然不是正确的未知删除页面)
总而言之,我的直觉是,恢复成本缓慢,并且保留对象数量较少(/注释数=约 57(页?),表明恢复比“再做一次”的劳动力更昂贵。从 67961 到 70957 是一个很好的组,因此这些应该是可以恢复的。
我找到的最好的恢复应用程序https://superuser.com/a/1808687/1769247。只显示标称页数从 180 到 240 的对象(总共 849 个),并且实际上复制了两倍以上的附加图像页面,因为从图形角度来看,有些是软掩模的负片,所以 850-1845 是可能180-240 的子图像重复或者可能是其他的位?
这是修复剩余部分的 30 天链接https://filetransfer.io/data-package/nbXvfSBp#link
未来的建议
将主文件分成 4 个方便的部分,这有 3 倍的好处。
重新考虑注释软件处理所需大量内存的能力以及“断电”损失的可能性,其中任何临时故障都可能破坏打开的编辑文件。
在可靠的本地磁盘系统(例如工作站)上工作,而不是在同步的云驱动器上工作。
不要使用修复的文件本身,只需将其用作重复任务的提示即可。可能包括在 PDF GUI 编辑器中剪切和粘贴对象,以避免任何其他错误的遗留。
具体情况的可能性。
您可能会发现页码不同步,但顺序正确,或者幸运的是,可以找到传输到主文件的完美顺序。如果是这种情况,那么有一些命令行工具“可能”通过从恢复文件(如 JSON)导出/注释来加速传输,然后允许按页码导入到适当优化的主文件中。此类工具之一可能是coherent cpdf,因为它具有优化器工具和/Annots导出导入。但我不能说它是否能很好地回答这个问题。