I m working on a web crawler (please don t suggest an existing one, it s not an option). I have it working the way it is expected to. My only issue is that currently I m using a sort of server/client model, where by the server does the crawling and processes the data, it then puts it in a central location.
这个地点是一等书写的物体。 在内部,该班级维持一个称为<代码>的哈希姆博。 HashMap<String, HashMap<String, String>>
我将URL作为钥匙储存在地图上的数据(我保持这些独特性),哈希姆普价值储存了该卢拉的相应数据领域,例如所有权或价值。
我偶尔会把所使用的内部物体连成一栏,但间谍是多面的,一旦我说有5条read形,记忆要求就急剧上升。
迄今为止,在哈希姆普邦,15K URLs在2.r分钟以大约30秒为时30秒时被拖网,因此,我确实没有必要在像大多数论坛用户所建议的那样,向现有的间谍指出。
谁能提出一种快速的偏好的解决办法,可能支持同时阅读和读写? 数据结构必须相同,仅需要能够将相关元值合并起来。