Question

我注意到在分配集合时采取的这种行动。尽管我共有20个工作流程,但当我绘制了8个工作流程的地图时,我只剩下4个工作要做。当这4人完成时,它又派了2人,然后派了2人。

当我向它投下20多起,直到上述行为重复时,它才开始在座的不到20起。

我假定这样做是出于目的,但看起来是 we。我的目标是,一旦提出这些要求,即立即处理这些请求,而且显然这种行为不合适。

Using python 2.6 with billiard for maxtasksperchild support

我如何能够改进这种想法?

法典:

mypool = pool.Pool(processes=settings[ num-processes ], initializer=StartChild, maxtasksperchild=10)

while True:
    lines = DbData.GetAll()
    if len(lines) > 0:
        print  Starting to process:  , len(lines),   urls 
        Res = mypool.map_async(RunChild, lines)
        Returns = Res.get(None)
        print  Pool returns:  , idx, Returns
    else:
        time.sleep(0.5)

Answer 1

我处理沙捞越多处理的方法之一是:

I have data on which I want to use a function function().
First I create a multiprocessing subclass:

import multiprocessing

class ProcessThread(multiprocessing.Process):
    def __init__(self, id_t, inputqueue, idqueue, function, resultqueue):
        self.id_t = id_t
        self.inputlist = inputqueue
        self.idqueue = idqueue
        self.function = function
        self.resultqueue = resultqueue

        multiprocessing.Process.__init__(self)

    def run(self):
        s = "process number: " + str(self.id_t) + " starting"
        print s
        result = []

        while self.inputqueue.qsize() > 0
            try:
                inp = self.inputqueue.get()
            except Exception:
                pass
            result = self.function(inp)
            while 1:
               try:
                   self.resultqueue.put([self.id,])
               except Exception:
                   pass
               else:
                   break
            self.idqueue.put(id)
            return

和主要职能:

inputqueue = multiprocessing.Queue()
resultqueue = multiprocessing.Queue()
idqueue = multiprocessing.Queue()

def function(data):
    print data # or what you want

for datum in data:
    inputqueue.put(datum)

for i in xrange(nbprocess):
    ProcessThread(i, inputqueue, idqueue, function, resultqueue).start()

最后取得成果:

results = []
while idqueue.qsize() < nbprocess:
    pass
while resultqueue.qsize() > 0:
    results.append(resultqueue.get())

In this way you can control perfectly what is appended with process and other stuff. Using a multiprocessing inputqueue is an efficient technique only if the computation for each datum is quite slow (< 1,2 seconds) because of the concurrent access of the different process to the queues (that why I use exception). If your function computes very quickly, consider splitting up your data only once at the begining and put chunks of the dataset for every process at the beginning.

友情链接