我有一个由长单页制作的 PDF 文件,可能是通过平板电脑实现的。
如何将其拆分为多个页面?我想保持水平尺寸。
注意:目标不是分割包含多个页面的 PDF 文件。
我有一个由长单页制作的 PDF 文件,可能是通过平板电脑实现的。
如何将其拆分为多个页面?我想保持水平尺寸。
注意:目标不是分割包含多个页面的 PDF 文件。
我在 Apple Books 中有一本来自 iPad 上本地文件的书 (PDF)。我在 PDF 上做了两个月的笔记。
今天我无法打开它并收到错误:
“无法打开文档。无法打开 ''”
所以我将文件空投到 Mac 上,尝试在 Preview、Adobe 和 Acrobat 中打开它。我在任何地方尝试过该文件,但都无法打开该文件。它可能已损坏或损坏。
我尝试使用Ghostscript( gs
)修复它,但没有成功:
gs \
-o repaired.pdf \
-sDEVICE=pdfwrite \
-dPDFSETTINGS=/prepress \
corrupted.pdf
我收到一个错误:
Catalog dictionary not located in file, unable to proceed
**** Error: Couldn't initialise file.
Output may be incorrect.
No pages will be processed (FirstPage > LastPage).
The following errors were encountered at least once while processing this file:
startxref offset invalid
xref table was repaired
**** This file had errors that were repaired or ignored.
**** Please notify the author of the software that produced this
**** file that it does not conform to Adobe's published PDF
**** specification.
我尝试更新 iPad 并重新启动,似乎没有解决问题。
该文件约为 150mb。我可以做什么来恢复它?
以下代码在按 ctrl+shift+c 后从文件中获取选定的文本,并将其名称和路径附加到其中,然后将其复制到剪贴板。它适用于 .txt 文件,但不适用于 pdf 文件。我怎样才能让它与pdf文件一起工作?
#NoEnv ; Recommended for performance and compatibility with future AutoHotkey releases.
SendMode Input ; Recommended for new scripts due to its superior speed and reliability.
SetWorkingDir %A_ScriptDir% ; Ensures a consistent starting directory.
; **Hotkey to trigger the script**
^+c::
ClipWait, 1 ; Wait for the clipboard to contain text (timeout after 1 second).
; Retrieve the active window title (potential file name)
WinGetActiveTitle, active_title
; Check if the window title appears relevant to a file
if (RegExMatch(active_title, ".*\.(pdf|txt|doc|docx|...)")) ; Adjust file extensions as needed
{
; Extract the file name and path from the title
if (RegExMatch(active_title, ".*\\(.*\.(pdf|txt|doc|docx|...))", matches))
{
file_name := matches1
file_path := matches2
; Combine file name, full path, and copied text
clipboard := file_path . "\" . file_name . "`r`n" . clipboard
}
else
{
MsgBox, No file name or path found in window title.
}
}
else
{
; Not a relevant file, so copy just the text
Send, ^c
}
Return
Windows 11 Edge 默认打开 PDF,但似乎无法处理带有空格的文件名。例如Invoice AAA.pdf
将导致打开 2 个选项卡Invoice
和AAA.pdf
,这两个选项卡都不存在。
有没有什么解决方案可以让此类文件在 Edge 中正确打开?
我更喜欢继续使用 Edge(而不是 Chrome),因为它提供了一个明显不同的图标,使查找 PDF 变得更加容易。
TL;DR:JPEG 和 PDF 之间的往返转换中文件大小加倍。使用的工具:poppler
和imagemagick
我正在做这个
pdfimags
通过poppler
imagemagick
(由于某些平台相关问题,我无法使用img2pdf)Original 16M
Images 32M (Few kb images were deleted)
Final 33M
提取时图像大小加倍。假设发生了某种解压缩,为什么在制作PDF时不能将它们无损压缩回来?
编辑:
-compress
使用LZW
,在 4 倍时间后生成 150M 文件。-page A4
,没有变化。命令:
$ pdfimages -all Scanneddoc.pdf ./a
$ rm a-001.jpg
$ mogrify -rotate -90 a-*.jpg
$ convert a*.jpg Rotated.pdf
文件信息:
pdfimages -list input
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 260 260 rgb 3 8 jpeg no 8 0 851 851 9.91K 5.0%
1 1 image 3184 2020 rgb 3 8 jpeg no 11 0 272 272 674K 3.6%
2 2 image 260 260 rgb 3 8 jpeg no 16 0 851 851 9.91K 5.0%
2 3 image 2556 2968 rgb 3 8 jpeg no 19 0 309 309 740K 3.3%
3 4 image 260 260 rgb 3 8 jpeg no 24 0 851 851 9.91K 5.0%
3 5 image 2500 3052 rgb 3 8 jpeg no 27 0 303 303 684K 3.1%
4 6 image 260 260 rgb 3 8 jpeg no 32 0 851 851 9.91K 5.0%
4 7 image 2392 1372 rgb 3 8 jpeg no 35 0 205 205 242K 2.5%
5 8 image 260 260 rgb 3 8 jpeg no 40 0 851 851 9.91K 5.0%
5 9 image 2360 3148 rgb 3 8 jpeg no 43 0 286 286 714K 3.3%
pdfimages -list output
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 2020 3184 rgb 3 8 jpeg no 8 0 272 272 615K 3.3%
2 1 image 2968 2556 rgb 3 8 jpeg no 22 0 359 359 1741K 7.8%
3 2 image 3052 2500 rgb 3 8 jpeg no 36 0 369 370 1610K 7.2%
4 3 image 1372 2392 rgb 3 8 jpeg no 50 0 205 205 509K 5.3%
5 4 image 3148 2360 rgb 3 8 jpeg no 64 0 381 381 1493K 6.9%
澄清:解决方案和评论强调图像的旋转。需要明确的是,问题在于图像尺寸较大,因此不旋转也无济于事。虽然有损变换可能会妨碍有效压缩,导致尺寸过大,但问题确实出在提取部分。
我有 Microsoft Word 文档。有人打印了该文件,签署了它(是的。用笔。非常怀旧。)然后扫描它。显然,这个过程将文档变成了图像,使得搜索它们或从中复制和粘贴文本变得困难。
我尝试了 OCR 工具,运行该工具后,文档在视觉上与扫描件完全相同,我可以搜索、复制和粘贴文本。然而,检查 OCR 错误很麻烦,我什至不知道如何纠正我发现的任何错误。而且这似乎完全没有必要,因为我仍然有原始的 Word 文档。
如何嵌入或以其他方式组合扫描文档和原始 Word 文档,以便您看到扫描件,但文本选择和搜索的行为与原始 Word 文档类似?
首选基于在 Linux 上离线工作的开源软件(pdftk、qpdf...)的解决方案。
.pdf
通过在 Windows 资源管理器中双击“Adobe Acrobat DC”打开一个文件。这是一份血液分析文件,不可编辑。它不是一种形式。问题
(Windows 10、Adobe Acrobat DC“我如何查看版本?”,但新鲜)
背景/用例:https://genai.stackexchange.com/questions/386/how-does-chatgpt-render-math-in-markdown-output
markdown 中的语法\( ... \)
对应于 LaTex 数学内联模式,而\[ ... \]
对应于非内联 LaTex 数学。
例子:
ChatGPT Web UI 呈现此 Markdown 输出is \( 2^4 = 16 \).
作为:
有没有一种工具可以让我将带有此类内联数学符号的 Markdown 文件正确渲染为 PDF?
pandoc
可能可以完成这项工作,但我不确定使用什么选项/标志来执行此操作。