I am evaluating Winnovative s PdfToText library and have run into something that concerns me.
如果我申请假释,我可以立即从20k或更少的pdf中提取案文内容。 然而,如果我从UNUnit gui的同一法典上说,它需要15-25秒钟(我已经核实,它通过在一条线上打上一个断点,从中抽取案文,打F10,看它需要多长时间才能升至下线)。
这一点令我感到关切,因为我不知道原因,我不敢确定谁会责怪。 是否与Unit或PdfToText存在问题? 我所要做的是从pdf中提取案文,但如果我会在某些条件下看到这种行为,20秒是完全不合理的。 如果在管理联尼特时,那是可以接受的,但否则我不得不在其他地方看到。
It s easier to demonstrate the problem using a complete VS Solution (2010), so here s the link to make it easier to setup and run (no need to download NUnit or PdfToText or even a sample pdf): http://dl.dropbox.com/u/273037/PdfToTextProblem.zip (You may have to change the reference to PdfToText to use the x86 dll if you re running on a 32-bit machine).
Just hit F5 and the NUnit Gui runner will load.
如果你提出建议,我不会与这个图书馆挂钩,我会尝试过iTextSharp(两条法典过于昂贵),并看A Aspose(我没有尝试过,但SaaS许可证是11k)。 但它们要么缺乏必要的功能,要么过于昂贵。