Question

我有100个文件。我想对它加以描述,并从总体上了解哪些议题普遍存在。

这些文件是明晰的文本。

我曾考虑使用谷歌式等工具进行搜索,但真正猜测需要什么,花费太多时间进行足够的搜索,以覆盖整个系统。

是否有任何可自由利用的工具将大量文件集在一起?

是否有这样的工具可以视而不见这些集群?

Answer 1

对于基本的国家扫盲方案办法,你可以代表每个文件,作为基于字序的病媒,然后使用巴耶斯人或其他方法(SVER, k-means,等)将文件矢量分组。

关于相关答复,见, Somewhat similar SO。

Answer 2

你们需要研究处理自然语言的工具。基本上,你可以可靠地确定(使用统计工具)文件的措辞(见http://en.wikipedia.org/wiki/N-gram)和讨论领域(见;http://wikipeda. 如果你从血清开始,就应当提供一些工具。