English 中文(简体)
我如何想象一大批文件?
原标题:
  • 时间:2009-05-19 22:01:19
  •  标签:

我有100个文件。 我想对它加以描述,并从总体上了解哪些议题普遍存在。

这些文件是明晰的文本。

我曾考虑使用谷歌式等工具进行搜索,但真正猜测需要什么,花费太多时间进行足够的搜索,以覆盖整个系统。

是否有任何可自由利用的工具将大量文件集在一起?

是否有这样的工具可以视而不见这些集群?

最佳回答

对于基本的国家扫盲方案办法,你可以代表每个文件,作为基于字序的病媒,然后使用巴耶斯人或其他方法(SVER, k-means,等)将文件矢量分组。

关于相关答复,见, Somewhat similar SO

问题回答

你们需要研究处理自然语言的工具。 基本上,你可以可靠地确定(使用统计工具)文件的措辞(见http://en.wikipedia.org/wiki/N-gram)和讨论领域(见;http://wikipeda. 如果你从血清开始,就应当提供一些工具。





相关问题
热门标签