用户特定的 Php.ini 当 php 作为模块运行时？

Question

jotango

Asked: 2010-02-09 12:33:13 +0800 CST2010-02-09 12:33:13 +0800 CST 2010-02-09 12:33:13 +0800 CST

在文件中的列上运行（垂直？）差异

772

在我们公司，我们从第三方获取库存文件。这些文件采用固定格式，包含 13 位 EAN（想想 UPC 代码）以及其他数据。我的数据库中还有一个 EAN 主列表。

我想将主文件与新文件进行比较，并从新文件中删除所有行，其中包含不在主文件中的 EAN。

示例：大师
1234567890123
4567890123456

新文件 1234567890123 4567890123456
5678901234567 <- 删除这个

新文件包含 EAN 以外的数据。EAN 在第一列。数据是制表符分隔的。

我目前正在 PHP 中执行此操作。问题是两个文件都有大约 4 百万。每一行，我的脚本都消耗大量内存。我目前将整个主列表加载到 RAM 中并执行 isset()s。

有什么聪明的 linux 技巧/程序可以帮助我吗？

2 个回答

Voted

voretaq7 · Answer 1 · 2010-02-09T13:44:01+08:00

Best Answer

voretaq7

2010-02-09T13:44:01+08:002010-02-09T13:44:01+08:00

以更 grep 友好的方式重新表述问题，您希望打印与某个 EAN 主列表中的 EAN 匹配的所有行。

假设类似于 EAN 的东西不会出现在 EAN 列之外的任何地方，请尝试：

从中提取所有 EANmaster
将 EAN 列表压缩为正则表达式
将正则表达式输入 egrep

假设 EAN 是master（并且该主包含其他列）的第一列

egrep "(`cat master | awk '{print $1}' | tr '\n' '\\|' | sed 's/|$//'`)" newfile

应该接近（您可以删除awkifmaster只是一个 EAN 列表；讨厌的 sed 在最后删除|来自管道其余部分的尾随）

如果 EAN（或类似 EAN 的 13 位模式）存在于数据中的其他位置，则上述内容将失效，并且需要更复杂的正则表达式来将搜索限制为特定列。

1

sntg · Answer 2 · 2010-02-09T12:45:20+08:00

sntg

2010-02-09T12:45:20+08:002010-02-09T12:45:20+08:00

尝试这样的事情：

# Put each code in one line, and sort them
sed -e 's/\ /\n/g' new | sort > neweans
sed -e '/s\ /\n/g' master | sort > mastereans

# Diff them by columns, and delete from the list
# the new's that are not in master. Then, print them

diff -y neweans mastereans | grep -v "<" | awk '{print $1}'

0

在文件中的列上运行（垂直？）差异

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

在文件中的列上运行（垂直？）差异

2 个回答

相关问题