AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 79559541
Accepted
Kishieel
Kishieel
Asked: 2025-04-07 17:50:09 +0800 CST2025-04-07 17:50:09 +0800 CST 2025-04-07 17:50:09 +0800 CST

如何在 DOCX 文件中存储隐藏的持久元数据,使其在编辑后依然有效

  • 772

我正在寻找一种方法,将机器可读的元数据添加到我生成的 DOCX 报告中。目标是允许用户修改文档的样式,然后将其重新上传到系统,同时保留元数据。

第一次尝试时,我天真地尝试将元数据存储在评论中,但我注意到一些编辑器,特别是 Microsoft Word,在修改后会删除我的评论并生成没有它们的 DOCX 文件。

我也尝试了结构化文档标签,但 Google Docs 和 Microsoft Word 都会在样式修改后删除它们。

最后,我尝试使用自定义 XML,但 Google Docs 和 Microsoft Word 都删除了我添加的属性和标签。

我搜索了很多,但还是没找到有效的解决方案。有人遇到过类似的问题吗?可以分享一些建议吗?

PS1

由于即使是小型 DOCX 文件中也包含太多行,因此我创建了一个极简的 repo,以便更好地展示我迄今为止的尝试。每次尝试都放在一个单独的目录中。每个目录包含:

  • Document.docx — 使用一些隐藏元数据手动创建的基础文件。
  • ModifiedWithGoogle.docx 和 ModifiedWithWord.docx — 在 Google Docs 或 Microsoft Word 中编辑文档后的结果。
  • 解压每个 .docx 文件的内容,以便更轻松地检查内部 XML。

仓库:https://github.com/kishieel/docx-metadata

第一次尝试时,我使用注释添加了元数据。这在 Google Docs 上效果很好,即使使用剪切粘贴移动文本,注释也能保留。然而,Microsoft Word 删除了所有注释。也许 Word 需要一种不同的注释创建方式?

示例输入:

<!-- 1_comments/Document/word/document.xml -->
<w:document ...>
  <w:body>
    <w:p>
      <w:commentRangeStart w:id="0" />
      <w:r>
        <w:t xml:space="preserve">Lorem ipsum dolor sit amet, consectetur adipiscing elit. Mauris quis mollis tellus. Aenean at maximus nunc.</w:t>
      </w:r>
      <w:commentRangeEnd w:id="0" />
    </w:p>
  </w:body>
</w:document>
<!-- 1_comments/Document/word/comments.xml -->
<w:comments ...>
  <w:comment w:id="0" w:date="2025-04-07T09:10:21.783Z">
    <w:p>
      <w:r>
        <w:t xml:space="preserve">Some metadata #1</w:t>
      </w:r>
    </w:p>
  </w:comment>
</w:comments>

在第二种方法中,我尝试使用 SDT。在这种情况下,Microsoft Word 保留了它们(尽管它将每个句子拆分成了单独的单词,这可能是默认行为,也可能是出了什么问题)。Google Docs 将它们从修改后的文件中完全删除了。

示例输入:

<!-- 2_structured_document_tags/Document/word/document.xml -->
<w:document ...>
  <w:body>
    <w:p>
      <w:sdt>
        <w:sdtPr>
          <w:tag w:val="Some metadata #1" />
          <w:alias w:val="Some alias #1" />
        </w:sdtPr>
        <w:sdtContent>
          <w:r>
            <w:t xml:space="preserve">Lorem ipsum dolor sit amet, consectetur adipiscing elit. Mauris quis mollis tellus. Aenean at maximus nunc.</w:t>
          </w:r>
        </w:sdtContent>
      </w:sdt>
    </w:p>
  </w:body>
</w:document>

准备好后我将提供自定义 XML 示例。

ms-word
  • 1 1 个回答
  • 57 Views

1 个回答

  • Voted
  1. Best Answer
    jonsson
    2025-04-09T18:28:10+08:002025-04-09T18:28:10+08:00

    我最近没有通过您提到的三种方法(Microsoft Word、Google Docs 和 LibreOffice Writer)保存元数据的实际经验,但尝试了在 Word 中存储我所知道的材料的各种方法。

    为了进行测试,我一直在使用Microsoft 365 MSO (Version 2503 Build 16.0.18623.20116) 64-bit、Windows 10LibreOffice Writer Version: 24.2.7.2 (X86_64) / LibreOffice Communit Build ID: 420(Build:2)和Linux当前的免费版本Google Docs(我不知道 Google 是否有功能更强大的付费版本。我直接在 Word 中创建文档,根据需要使用 VBA,例如添加自定义 XML 部分或文档变量。我从未尝试以 .docx 以外的任何格式保存或下载。关于 .docx 格式有很多文档,还有一些关于 WOrd 实现的相当不错的 MS 文档,但我没有寻找 Google Docs 和 LibreOffice 的等效文档。你可能确实需要知道 MS、LibreOffice 和 Google“官方支持”哪些功能

    Word 中用于存储元数据的类型有两种:一种是“文档范围的”,另一种是“与文档中某个位置相关的”。对于“文档范围的”,有

    • 自定义 XML 部分(通过 UI 不可见或不可更改,但可以使用内容控件显示值
    • 文档变量(通过 UI 不可见或不可更改,但可以使用{ DOCVARIABLE }字段显示值
    • 自定义文档属性(可以通过文件信息选项卡在 UI 中查看和修改,并且可以使用{ DOCPROPERTY }字段显示值。

    对于“与文本中的位置相关”,原则上至少可以使用以下内容:

    • 隐藏文本
    • 评论(可见)
    • 脚注(可见)
    • 尾注(可见)
    • 内容控件(可见)可能映射到自定义 XML 部分
    • { DOCPROPERTY }具有自定义文档属性的字段(可见)
    • { DOCVARIABLE }带有文档变量的字段(可见)
    • { SET }字段(可见,取决于用户的设置和操作),例如

    { SET ABookMarkName "to some metadata" }

    我知道你尝试过注释,而且我认为它们应该能正常工作,尽管你发现了一些问题,但我认为它们不太容易隐藏。隐藏文本、脚注、尾注或内容控件也一样,所以我没有真正尝试过这些。此外,大量的脚注或尾注往往会干扰文档布局。

    LibreOffice 成功完成了我在 Word 中尝试的大多数操作。然而,保存时会弹出“部分内容可能无法正确保存”之类的提示框。

    Google Docs 丢失了我尝试过的大部分内容,但至少保留了注释、自定义文档属性,甚至还保留了{ DOCPROPERTY }在文档中插入这些值所需的字段。它删除了:

    • 自定义 XML 部分
    • 内容控制
    • 文档变量
    • { DOCVARIABLE }域代码
    • { SET }域代码

    这让我觉得,唯一可能与 Google Docs 兼容的就是自定义文档属性。它们确实存在限制(我认为自定义文档属性的数量、每个属性的长度或总长度都有限制)。

    对于“文档级”元数据,您可能需要将数据分成更小的块。

    对于“位置”元数据,这些最大值很可能存在问题。即使没有问题,使用适当的{ DOCPROPERTY }字段标记位置也意味着显示属性值——如果您不想这样做,您可能需要执行以下操作:

    • 有一个名为 myprop 的属性(比如)包含实际的属性值。
    • 具有另一个具有相关名称的属性,mymark(例如)以一个空格作为内容(Word 中可以拥有的最短的自定义文档属性)
    • 用来{ DOCPROPERTY mymark }标记位置,因此您只会得到一个带有单个空格的结果。

    在 Word 中,可以利用 Word 对字段代码中的额外信息不太挑剔的事实,因此您可以拥有一个名为blank 的空白属性和一个字段代码{ DOCPROPERTY blank myprop },但不幸的是,Google Docs 会删除“myprop”部分。

    就是这样。

    只是为了涵盖我最初在评论中提出的一些观点:

    在您的“comments_1”示例中,初始版本(您发布的 xml 代码和相关的 Document.docx)中没有出现注释的原因是因为Word需要一个 <w:commentReference> 元素才能使注释显示在 UI 中。

    例如,如果您将问题中发布的标记更改为此并重新创建.docx,则在 Word 中打开 .docx 时您应该会看到第一条注释。

    <w:document ...>
      <w:body>
        <w:p>
          <w:commentRangeStart w:id="0" />
          <w:r>
            <w:t xml:space="preserve">Lorem ipsum dolor sit amet, consectetur adipiscing elit. Mauris quis mollis tellus. Aenean at maximus nunc.</w:t>
          </w:r>
          <w:commentRangeEnd w:id="0" />
          <w:r>
            <w:rPr>
              <w:rStyle w:val="CommentReference"/>
            </w:rPr>
            <w:commentReferenceThe version of LibreOffice I have here does display the comments even
     w:id="0"/>
          </w:r>
        </w:p>
      </w:body>
    </w:document>
    

    (您不必拥有该<w:rPr>元素,但 Word 会插入一个)。

    正如我最初在评论中提到的,您的 1_comments .docx 文件无法打开的原因是 docProps/custom.xml 文件包含两个具有相同 FMTID 和名称的元素(这是不允许的)。该文件的长度也接近 600 个字符,虽然我以为 Word 对自定义文档属性的限制是 255 个字符,但它似乎并没有报错或截断。

    因此,在这里,我还将 custom.xml 更改为以下内容以解决此问题:

    <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
    <Properties xmlns="http://schemas.openxmlformats.org/officeDocument/2006/custom-properties" 
      xmlns:vt="http://schemas.openxmlformats.org/officeDocument/2006/docPropsVTypes">
      <property fmtid="{D5CDD505-2E9C-101B-9397-08002B2CF9AE}" pid="2" name="xbrl">
        <vt:lpwstr>abc</vt:lpwstr>
      </property>
    </Properties>
    
    • 1

相关问题

  • 如何在不使用 VBA 的情况下将文本转换为超链接?

  • MS Word 显示两组不同的内置目录

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    重新格式化数字,在固定位置插入分隔符

    • 6 个回答
  • Marko Smith

    为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会?

    • 2 个回答
  • Marko Smith

    VScode 自动卸载扩展的问题(Material 主题)

    • 2 个回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Martin Hope
    Fantastic Mr Fox msvc std::vector 实现中仅不接受可复制类型 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant 使用 chrono 查找下一个工作日 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor 构造函数的成员初始化程序可以包含另一个成员的初始化吗? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský 为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul C++20 是否进行了更改,允许从已知绑定数组“type(&)[N]”转换为未知绑定数组“type(&)[]”? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann 为什么 {2,3,10} 和 {x,3,10} (x=2) 的顺序不同? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve