AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 110851
Accepted
jotango
jotango
Asked: 2010-02-09 12:33:13 +0800 CST2010-02-09 12:33:13 +0800 CST 2010-02-09 12:33:13 +0800 CST

在文件中的列上运行(垂直?)差异

  • 772

在我们公司,我们从第三方获取库存文件。这些文件采用固定格式,包含 13 位 EAN(想想 UPC 代码)以及其他数据。我的数据库中还有一个 EAN 主列表。

我想将主文件与新文件进行比较,并从新文件中删除所有行,其中包含不在主文件中的 EAN。

示例:大师
1234567890123
4567890123456

新文件 1234567890123 4567890123456
5678901234567 <- 删除这个

新文件包含 EAN 以外的数据。EAN 在第一列。数据是制表符分隔的。

我目前正在 PHP 中执行此操作。问题是两个文件都有大约 4 百万。每一行,我的脚本都消耗大量内存。我目前将整个主列表加载到 RAM 中并执行 isset()s。

有什么聪明的 linux 技巧/程序可以帮助我吗?

php diff awk sed
  • 2 2 个回答
  • 476 Views

2 个回答

  • Voted
  1. Best Answer
    voretaq7
    2010-02-09T13:44:01+08:002010-02-09T13:44:01+08:00

    以更 grep 友好的方式重新表述问题,您希望打印与某个 EAN 主列表中的 EAN 匹配的所有行。

    假设类似于 EAN 的东西不会出现在 EAN 列之外的任何地方,请尝试:

    • 从中提取所有 EANmaster
    • 将 EAN 列表压缩为正则表达式
    • 将正则表达式输入 egrep

    假设 EAN 是master(并且该主包含其他列)的第一列

    egrep "(`cat master | awk '{print $1}' | tr '\n' '\\|' | sed 's/|$//'`)" newfile
    

    应该接近(您可以删除awkifmaster只是一个 EAN 列表;讨厌的 sed 在最后删除|来自管道其余部分的尾随)

    如果 EAN(或类似 EAN 的 13 位模式)存在于数据中的其他位置,则上述内容将失效,并且需要更复杂的正则表达式来将搜索限制为特定列。

    • 1
  2. sntg
    2010-02-09T12:45:20+08:002010-02-09T12:45:20+08:00

    尝试这样的事情:

    # Put each code in one line, and sort them
    sed -e 's/\ /\n/g' new | sort > neweans
    sed -e '/s\ /\n/g' master | sort > mastereans
    
    # Diff them by columns, and delete from the list
    # the new's that are not in master. Then, print them
    
    diff -y neweans mastereans | grep -v "<" | awk '{print $1}'
    
    • 0

相关问题

  • 用户特定的 Php.ini 当 php 作为模块运行时?

  • 使 php mail() 函数在 ubuntu-server 上工作的步骤是什么?

  • Web 服务器和数据库服务器位于完全不同的位置

  • PHP 作为 CGI 还是 Apache 模块?

  • 通过 VPN 连接什么是远程服务器 IP?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    从 IP 地址解析主机名

    • 8 个回答
  • Marko Smith

    如何按大小对 du -h 输出进行排序

    • 30 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    MikeN 在 Nginx 中,如何在维护子域的同时将所有 http 请求重写为 https? 2009-09-22 06:04:43 +0800 CST
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    0x89 bash中的双方括号和单方括号有什么区别? 2009-08-10 13:11:51 +0800 CST
  • Martin Hope
    Kyle Brandt IPv4 子网如何工作? 2009-08-05 06:05:31 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve