有些网站以 HTML 页面的形式提供书籍(例如,法律资料)。
基于现有结构,我可以使用什么从这些页面创建 PDF 书籍?
在 Windows 中有 Adobe Professional(商业软件)。我猜Linux有免费的东西吗?涉及脚本的解决方案对我来说是可以的。
有些网站以 HTML 页面的形式提供书籍(例如,法律资料)。
基于现有结构,我可以使用什么从这些页面创建 PDF 书籍?
在 Windows 中有 Adobe Professional(商业软件)。我猜Linux有免费的东西吗?涉及脚本的解决方案对我来说是可以的。
Calibre 是一个非常强大的工具,可以将内容转换为各种格式的电子书。可在您附近的软件中心获得!
不要被它不够漂亮的 UI 所欺骗,它可以做很多事情。
最简单的方法?文件 > 从浏览器打印。选择打印到文件作为您的打印机,它会询问您想要的位置。请务必标记 PDF。点击“打印”,它将实际保存到您的驱动器而不是实际打印。
Htmldoc 很有用,请看这里;http://www.htmldoc.org/可以从软件中心获得,遗憾的是 1.8 版本存在 unicode 编码文件的问题,但在很多情况下它仍然可以成为救星,该问题在 1.9 开发版本中得到修复。
我通常在这里使用精彩的剪贴簿扩展;http://amb.vis.ne.jp/mozilla/scrapbook/用于 Firefox 捕获网页,如果需要,使用剪贴簿中的编辑工具修复它们,然后使用 htmldoc 将所有页面转换为 PDF。
我建议使用 OpenOffice/LibreOffice 来创建 PDF。作为测试,我下载了 Wget 手册(全部在一个页面中),然后在 OponOffice 中打开 HTML 页面并单击“直接导出为 PDF”按钮。它使用目录中的索引创建了 PDF。
在过去,我发现这是将 HTML 页面转换为 PDF 的最简单方法。它还允许您毫不费力地进行更改。
截图:
使用 Open Office 导出为 PDF 的 Wget 手册
Open Office 中的“直接导出为 PDF”选项
你可以试试http://www.xhtml2pdf.com/。它是 HTML/XHTML 和 CSS 到 PDF 的转换器。全部用 Python 编写。
我实际上投票支持口径解决方案。但这是另一个你可以尝试的。安装AbiWord。它可以在从命令行知道的任何格式之间进行转换。要将文件夹中的所有 .html 文件转换为 .pdf 您可以执行以下操作:
for file in *.html ; do abiword --to=pdf "$file" ; done
对于更高级别的排版(但可以说更复杂),另一个选项是PrinceXML。
根据要打印的 html 文档,使用pandoc可能会获得最佳结果。这是最通用的 HTML 到 LaTeX 转换器之一。生成的.tex文件可以很容易地转换为PDF,使用
xelatex
或pdflatex
. 如果您愿意深入研究 LaTeX 语法和包,则可以使用许多选项。如果应该保留嵌入的图像和精美的 HTML 样式,这可能无法正常工作。在 google-chrome 中,您可以使用扩展程序为整个站点创建一个 pdf 文件。我个人使用Web2PDF Converter 扩展,只需单击即可生成 PDF。
这是这个插件的截图,由谷歌扩展网站提供。
此外,您可以通过下载下一个(右键单击,将目标另存为)来查看我使用此工具创建的 PDF:http: //geppettvs.servehttp.com/resources/askubuntu-com.pdf(某些浏览器,如 google- chrome 可能允许您在线查看此内容)。
如果您希望编辑由扩展程序创建的那些 PDF 以删除由扩展程序放置在每个页面底部的数字签名或删除其他任何内容,请查看以下内容:从 PDF 中删除文本信息?
祝你好运!