我有100个文件。 我想对它加以描述,并从总体上了解哪些议题普遍存在。
这些文件是明晰的文本。
我曾考虑使用谷歌式等工具进行搜索,但真正猜测需要什么,花费太多时间进行足够的搜索,以覆盖整个系统。
是否有任何可自由利用的工具将大量文件集在一起?
是否有这样的工具可以视而不见这些集群?
我有100个文件。 我想对它加以描述,并从总体上了解哪些议题普遍存在。
这些文件是明晰的文本。
我曾考虑使用谷歌式等工具进行搜索,但真正猜测需要什么,花费太多时间进行足够的搜索,以覆盖整个系统。
是否有任何可自由利用的工具将大量文件集在一起?
是否有这样的工具可以视而不见这些集群?
对于基本的国家扫盲方案办法,你可以代表每个文件,作为基于字序的病媒,然后使用巴耶斯人或其他方法(SVER, k-means,等)将文件矢量分组。
关于相关答复,见, Somewhat similar SO。
你们需要研究处理自然语言的工具。 基本上,你可以可靠地确定(使用统计工具)文件的措辞(见http://en.wikipedia.org/wiki/N-gram)和讨论领域(见;http://wikipeda. 如果你从血清开始,就应当提供一些工具。