我目前正在开展一项研究项目,该项目涉及将大量档案(240k)索引;这些档案大多是html、xml、 doc、xls、zip、rar、pdf,还有几处KB至100多个甲基溴文档。
由于所有手提和书记档案都摘取,我最终获得了100万份档案。
我正在使用《2010年视觉演播》,C#和NET4.0,支持TPL数据流和Async CTP V3。 为了从这些档案中提取案文,我使用Pharma Tika(与ikvm相左),我使用Lucene.net 2.9.4作为索引。 我希望使用新的低频数据库和同步方案规划。
我有几个问题:
Would I get performance benefits if I use TPL? It is mainly an I/O process and from what I understand, TPL doesn t offer much benefit when you heavily use I/O.
生产者/消费者办法是否是处理这类档案处理的最佳途径,或者是否有其他更好的模式? 我正想建立一个有多个消费者的生产者,使用阻塞手段。
TPL数据流图书馆是否用于这种程序? 在某些类型的传闻系统中似乎最能使用TPL数据。
在此情况下,我是否应当使用同步的方案拟订或坚持同步的??