AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题 / 1810586
Accepted
user194860
user194860
Asked: 2023-09-29 22:37:06 +0800 CST2023-09-29 22:37:06 +0800 CST 2023-09-29 22:37:06 +0800 CST

nushell:打开 Excel 文件并在其中搜索文本

  • 772

我想使用Nu打开几个 Excel 文件,在其中搜索文本并打印每个匹配的行及其位置。例如:

Hugh file.xsls,第 123 页,第 98765 行:... 待办事项 ...

要打开单个文件,我尝试了:

open "huge file.xlsx" | find todo

但结果是一行包含整个 Excel 文件作为一个(JSON?)字符串。我发现 Nu 可以打开 Excel 文件非常有帮助。我只需要一种方法来获得更好的搜索结果显示。:-)

这个问题是关于 Nu,而不是任何其他可以实现这一目标的 shell、编程语言或工具。:-)

microsoft-excel
  • 1 1 个回答
  • 41 Views

1 个回答

  • Voted
  1. Best Answer
    NotTheDr01ds
    2023-10-16T20:18:28+08:002023-10-16T20:18:28+08:00

    这里的主要问题是 Nushell 的find机制不能与电子表格的嵌套表结构“很好地配合”。该find命令接收的open "huge file.xlsx"只是 Excel 文件中每个工作表(选项卡)的一行。它很高兴地扫描该行,找到文本,是的,将每个工作表作为一个结果集返回。

    作为一个(JSON?)字符串

    它不完全是 JSON,甚至也不完全是 Nuon;find我猜想可能只是面对嵌套表时内部结果的一些副作用。

    有几种可能的方法可以从findExcel 文件中获得更好的结果。然而,这些方法的效率都不是很高,因为它们涉及多次扫描文件。你说文件“巨大”,但大小是相对的,所以我不太确定这意味着什么。我在这里假设该文件不会太大而无法加载到内存中。通过在执行以下操作之前将其加载到内存中,性能似乎与“正常”的单个find.

    简单(?)的解决方案

    首先,这是一个通用的 Nu 解决方案,可以维护现有的find功能。为了简洁起见,我在一个较小的文件1上运行它(sample.xlsx如下所列),我的搜索词是foo:

    let $excelfile = (open "huge file.xlsx")
    $excelfile | 
    | columns |
    | each {
        |sheet|
        let results = ( $excelfile | get $sheet | enumerate | flatten | find foo )
        {
          Sheet: $sheet,
          Found: $results
        }
    }
    

    结果见下文脚注2。

    选择

    返回更接近您问题中的示例的结果的替代解决方案稍微复杂一些。本质上,我们需要“展开”每个嵌套层并分别扫描最终结果,以便识别:

    • 文件名
    • 床单
    • 柱子
    • 排

    ...它被发现的地方。

    def xlsx-find [ fileList phrase ] {
      $fileList | each {
        |filename|
        let t = (open $filename)
        let sheets = ($t | columns)
        $sheets | each {
          |sheetname|
          let columns = ($t | get $sheetname | columns )
          $columns | each {
            |columnname|
            let findResults = ($t | get $sheetname | get $columnname | enumerate | find $phrase)
            $findResults | get index | each {
              |row|
              {
                file: $filename,
                sheet: $sheetname,
                column: $columnname,
                row: $row
              }
            }
          }
        }
      } | flatten | flatten | flatten
    }
    

    对可能“棘手”的关键点的解释:

    • 本质上,我们循环遍历提供给函数的每个文件。
    • 获取并循环该 Excel 文件中的每个工作表。
    • 获取并循环该工作表中的每一列
    • enumerate对该列进行计算,以便我们知道删除不匹配行后的行号
    • find编辑文本
    • 循环遍历每个结果,仅获取index(由 提供的行号enumerate)
    • 返回包含所需信息的记录
    • 每个each语句都会创建自己的表,因此最后,我们需要为每个循环flatten获取一次结果。each
    xlsx-find [ Book1.xlsx ] foo
    

    结果更加紧凑(但仍然是 Nu 表):

    ╭───┬────────────┬────────┬─────────┬─────╮
    │ # │    file    │ sheet  │ column  │ row │
    ├───┼────────────┼────────┼─────────┼─────┤
    │ 0 │ Book1.xlsx │ Sheet2 │ column0 │   0 │
    │ 1 │ Book1.xlsx │ Sheet2 │ column1 │   0 │
    │ 2 │ Book1.xlsx │ Sheet2 │ column2 │   0 │
    │ 3 │ Book1.xlsx │ Sheet3 │ column0 │   3 │
    │ 4 │ Book1.xlsx │ Sheet3 │ column0 │   5 │
    │ 5 │ Book1.xlsx │ Sheet3 │ column1 │   4 │
    ╰───┴────────────┴────────┴─────────┴─────╯
    

    当然,完全可以基于上面的Nushell字符串插值来输出文本。

    虽然我还没有走到这一步,但如果您想获得一些“上下文”(每个找到的结果之前和之后的文本),您可能会使用某种形式来修剪结果str replace。

    表现

    我还在一个更大的文件上对此进行了测试。我在 Excel 文件中拥有约 15,0000 个 Stack Overflow 答案(包括其 Markdown),用于研究潜在的 ChatGPT/AI 答案。我基本上在几张表中复制了 15k 行,最终在 20MB 文件中得到了超过 100k 行。我不认为这是“巨大的”,但它是实质性的。无独有偶,它也包含了很多带有“todo”这个短语的答案。

    xlsx-find [ hugefile.xlsx ] todo
    

    ...仅用了 15 秒多一点(使用timeit命令)就返回了 945 个结果。这与正常的find. 但是,如果每次都从磁盘读取文件(而不是提前加载到内存中),则扫描只需 1 分钟多一点。


    脚注

    1 sample.xlsx:

    • Sheet1:空

    • 表2:

      ╭───┬─────────┬─────────┬─────────╮
      │ # │ column0 │ column1 │ column2 │
      ├───┼─────────┼─────────┼─────────┤
      │ 0 │ Foo1    │ Foo2    │ Foo3    │
      ╰───┴─────────┴─────────┴─────────╯
      
    • 表3:

      ╭───┬─────────┬──────────────────────────╮
      │ # │ column0 │         column1          │
      ├───┼─────────┼──────────────────────────┤
      │ 0 │ abc     │                   456.00 │
      │ 1 │ def     │ StackOverflow            │
      │ 2 │  123.00 │ SuperUser                │
      │ 3 │ Foo     │ Not found here           │
      │ 4 │ Bar     │ It is foound here though │
      │ 5 │ foobar  │                          │
      ╰───┴─────────┴──────────────────────────╯
      

    2第一个命令的结果:

    注意:该命令会突出显示所有“foo”find找到的内容,但这些在 Markdown 中不可见:

    ╭───┬────────┬────────────────────────────────────────────╮
    │ # │ Sheet  │                   Found                    │
    ├───┼────────┼────────────────────────────────────────────┤
    │ 0 │ Sheet1 │ [list 0 items]                             │
    │ 1 │ Sheet2 │ ╭───┬─────────┬─────────┬─────────╮        │
    │   │        │ │ # │ column0 │ column1 │ column2 │        │
    │   │        │ ├───┼─────────┼─────────┼─────────┤        │
    │   │        │ │ 0 │ Foo1    │ Foo2    │ Foo3    │        │
    │   │        │ ╰───┴─────────┴─────────┴─────────╯        │
    │ 2 │ Sheet3 │ ╭───┬─────────┬──────────────────────────╮ │
    │   │        │ │ # │ column0 │         column1          │ │
    │   │        │ ├───┼─────────┼──────────────────────────┤ │
    │   │        │ │ 3 │ Foo     │ Not found here           │ │
    │   │        │ │ 4 │ Bar     │ It is foound here though │ │
    │   │        │ │ 5 │ foobar  │                          │ │
    │   │        │ ╰───┴─────────┴──────────────────────────╯ │
    ╰───┴────────┴────────────────────────────────────────────╯
    
    • 1

相关问题

  • 带有“和”运算符的 Excel 数据透视表

  • 如何对整列使用 Excel 的 LENGTH 函数?

  • Excel 数组(2 个变量)

  • 如何从 WSL 打开 office 文件

  • VBA根据文件名重命名工作表

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何减少“vmmem”进程的消耗?

    • 11 个回答
  • Marko Smith

    从 Microsoft Stream 下载视频

    • 4 个回答
  • Marko Smith

    Google Chrome DevTools 无法解析 SourceMap:chrome-extension

    • 6 个回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Martin Hope
    Vickel Firefox 不再允许粘贴到 WhatsApp 网页中? 2023-08-18 05:04:35 +0800 CST
  • Martin Hope
    Saaru Lindestøkke 为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh 如何减少“vmmem”进程的消耗? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Windows 10 搜索未加载,显示空白窗口 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve