Question

我需要比较高质量的数据,以便平等。我需要比较一下每秒钟的很多奶粉。每一物体的长度相同,可能而且可能只在不知的位置上略有不同。

Timings below show that using == operator is very fast if there is a difference near the start of the data, and significantly slower if differences are located towards the end.

>>> import os
>>> s = os.urandom(1600*1200 - 1)
>>> Aimg = b"A" + s
>>> Bimg = b"B" + s
>>> img1 = s + b"1"
>>> img2 = s + b"2"
>>> %timeit Aimg == Bimg
61.8 ns ± 0.484 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
>>> %timeit img1 == img2
159 µs ± 2.83 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

在我使用的情况下,差异可能位于中间或末端的斜线上(案文:这是不压缩的形象数据)。我寻找一种办法,加快使用洗衣或制片。使用md5的速度较慢,但沙尔建筑在<代码>hash上确实加快了事情。

>>> %timeit img1 == img2
160 µs ± 5.96 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
>>> %timeit hash(img1) == hash(img2) and img1 == img2
236 ns ± 5.91 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

对该散列的技术细节感兴趣的是,在<代码>hash(a)=h(b)时,<代码>a = b 是极有可能<>? 如果散射碰撞是相当少见的,则法尔阳性反应是可以接受的,其意图是加快对平均案例的比较。

Answer 1

灰色洗.功能的设计是为了速度,将地图绘制成64倍的空间。由于birthday 悖,这意味着你有可能在大约50亿个条目上发生碰撞(可能是较早的,因为散射功能不是密码)。此外,<代码>hash的准确定义可上至于实施,可以是结构的,也可以是特定机器的。不要使用它,你想要的是多种机器的同样结果。

md5是作为加密的散射功能设计的;即使输入中略有扰动,产出也完全改变。它还把128个轨道空间地图上,除非你特别寻找一个空间,否则你不可能完全发生碰撞。

如果你能够处理碰撞(即,对所有成员在桶内平等进行测试,可能的话,采用像MD5或SHA2这样的加密算法,那么,斯达尔赫功能是完全严厉的。

还有一点: 为节约空间,如果你把数据写到磁盘上,你就应当以双亲形式储存。 (i.e. struct. Pack ( !q , hash (abc )hashlib.md5(abc ).digest()。

作为副注:is 等于=。页: 1

友情链接