我有这个脚本:
for /f "delims=" %%a in (data_A.txt) DO (
set "flag="
for /f "delims=" %%b in (data_B.txt) do (
if "%%a"=="%%b" CALL :flagit
)
if not defined flag >>notmatch.txt echo %%a
)
:flagit
set flag=1
goto :eof
我正在比较两个文本文件之间的每一行以确定不匹配的条目。这些文件包含校验和哈希值和相对路径信息。
它可以工作,但速度很慢。包含 100,000 个条目的文件需要两个半小时以上,我必须这样做两次,因为我必须比较两种方法来捕获 A 上可能不在 B 上但也可能不在 A 上的 B 上的任何条目。数据也不一定是任何特定的排序顺序。
我正在寻找:
- 集 A 上的文件 不在集 B 上的文件
- 集 B 上的文件不在集 A 上
- 校验和不匹配的文件
前两个我很容易处理(文件不在 A/B 上),因为一旦我得到“不匹配”条目,它们应该很少,并且比较两者上是否存在相对路径应该是直截了当的(我希望)。但最后一个是真正的糟糕。
数据示例:
dd2da0dcb5a54989dd4d2312013ddb12345c0593ed59a6d307461d925d57226d89d24c2e5a95c0d4082b14118cb8766d89ae69e40c4dac1ab5bd718bd7c58d9a \Personal\Pictures\Camera 2019\2019-02-17 15.02.34.jpg
509ebfd1e2c180ccd6bd679204b7c255f3c7abcdefg7660e219fa9eb58658d96a3ef8cec179221acb78be81f8dd78bd3a8b1a3cdaef0cd691725d3402a495b0b \Personal\Pictures\Camera 2019\2019-02-17 15.03.59.jpg
a3180dce7675aeb161f8fe25fcbd39ff2678faf2326d3e2a39fchfasff90a714134bdd22f91103026c494e6ffcfd62d5cb3d46992de9dfff71b49f9a734c0ab9 \Personal\Pictures\Camera 2019\2019-02-17 17.11.41.jpg
b5262c6ce5c4425a4ed737a7a8fdbc040c68003785d67177a25c86d9fb531ce42f74648783aed4bbb3aff7304b00d44b14eaa2a6c728b8802cafd22059570212 \Personal\Pictures\Camera 2019\2019-02-18 18.06.14.jpg
da7e1eb7ec147628a59e702c55159bc32d66f3c540dfb4be436f136137af913a7139640701eba84f34796da4f35c9fasdffae35542f56b1dccf009d1cec30d20 \Personal\Pictures\Camera 2019\2019-02-22 06.18.15.jpg
72c99a6f4394b4f65d4b66b00071de1d40cb717f525863875c36b2bc79dd0a8491ee8854b8b4437bfcfe4aa8379861aa43a7850dfac144d5db5b2c6b75dcf292 \Personal\Pictures\Camera 2019\2019-02-22 06.18.23.jpg
4a8a39e68379b2c671d83935b13dc82dd60d5e8b36a32a8677698a9306876zcvaffaaa4af292d53a8f52df4ee1c7bc701068064f4d28009566e8825abf2ab077 \Personal\Pictures\Camera 2019\2019-02-22 06.20.10.jpg
074103664be0c91664bd4e2e51d0e051c9cf8f27c26511d3a691d0asdfadfa134234808a16bf0679a8500910b09cf24d9e9c88788b4a749a81ec2d15f78cacfd \Personal\Pictures\Camera 2019\2019-02-22 06.27.14.jpg
28dc03a7722b0781caa4dfasdf664w666777068c79456941a159ffefa1d9c34fed83b98858394c1aa471396a0b1a448d8dd89e361c564e6b27e451b2dd701dd7 \Personal\Pictures\Camera 2019\2019-02-23 11.54.34.jpg
for 循环的工作方式是扫描另一个文件,直到找到不匹配的文件,将其输出到日志文件,然后转到下一个文件。似乎应该有一种方法可以在文件匹配或不匹配后将其从搜索中删除。
编辑- 好的,我有点搞乱 PowerShell。比较对象运行良好,但只需要弄清楚如何仅显示 A和B 上都存在的不同文件,并将仅在 A 上的文件和仅在 B 上的文件分开记录...
要在 PowerShell 中执行相同操作,您可以使用此答案中提到的@JoseZ方法,并且通过最少的编辑,您可以在 NoMatch.txt 文件中保存的每个文件中获得不同的字符串:
对于较短的字符串,您可以尝试使用
Findstr /vixg:data_A.txt data_B.txt
Obs.:为了
Findstr
进行此比较/查找相同/不同的字符串,总长度限制为 250 个字符:- 这就是为什么我在下面的示例中将您的字符串减少到最多 125 个字符:
仅在最后一行和第一个字符上,文件 data_A.txt 与文件 data_B.txt 不匹配,并将保存在文件 NoMatch.txt 中
一些进一步的阅读:
[√]查找
[√]获取内容
[√] Where-Object
[√]比较对象
[√]数组你想知道的一切