我试图对一个例子进行分类,该例子包括不同的连续特征。 此外,这个例子也代表了稀少的数据,尽管该系统可能已经接受了100个特点的培训,但实例可能只有12个。
用于实现这一点的最佳分类法是什么? 我先看拜斯、马克斯特、决策树和有线电视新闻网,但我肯定说,这完全不符合该法案。 最大的“第一”点是,大多数执行项目没有支持零散的数据集和<>,两者都是互不相干的。 是否有任何人建议采用符合这些标准的算法和执行(最好是在沙里)。
至今为止所研究的图书馆包括:
- Orange (Mostly academic. Implementations not terribly efficient or practical.)
- NLTK (Also academic, although has a good Maxent implementation, but doesn t handle continuous features.)
- Weka (Still researching this. Seems to support a broad range of algorithms, but has poor documentation, so it s unclear what each implementation supports.)