我要说的是,我不喜欢统计。 但是,我先谈这些问题。 确实,我们在这里再次谈的是,你看到了一些不同的事件,你想指出,类似。 这正是你在任何特定时间看到的。 你提出的问题是,你想要收集离散的数据并不断提供数据。
引人注意的是http://en.wikipedia.org/wiki/Density_estimation”rel=“noreferer”>density est。 具体来说,kernel密度估算。 可以通过简单的二读来获得油轮密度估算的一些影响(例如,计算每25小时或每小时的间隔时间次数)。 微粒密度估计仅具有一些比简单的二宾式更坏的统计特性。 (所生成的数据往往比较平稳。)
That only takes care of one of your problems, though. The next problem is still the far more interesting one -- how do you take a time line of data (in this case, only printer data) and produced a prediction from it? First thing s first -- the way you ve set up the problem may not be what you re looking for. While the miracle idea of having a limited source of data and predicting the next step of that source sounds attractive, it s far more practical to integrate more data sources to create an actual prediction. (e.g. maybe the printers get hit hard just after there s a lot of phone activity -- something that can be very hard to predict in some companies) The Netflix Challenge is a rather potent example of this point.
当然,数据来源较多的问题在于,在建立收集数据的系统方面还有额外的工作。
Honestly, I d consider this a domain-specific problem and take two approaches: Find time-independent patterns, and find time-dependent patterns.
一个依赖时间的模式是,每星期有430台苏日报印出她当天的报告。 这发生在每周具体时间。 这类物品很容易以固定间隔探测。 (每天、每星期、每周末、每星期二、每个月1日,等等) 这一点非常简单,可以按预先确定的间隔进行检测——这只是为估计的密度功能提供一个曲线,该功能为期一周,并随着时间的推移和平均数的推移(可能是通过窗口功能进行加权平均数,以更好地预测)。
如果你想要更精练,就找到一种办法,使发现这种间隔的自动化。 (数据 overwhelming然如此之大,以至于你可以这样作。)
一个依赖时间的模式是,每当迈克会计打印出一张发票单时,他就会去Johnathan,他在几个小时后打印出大量完整的发票报告。 很难发现这类事情,因为其形式更为自由。 我建议考虑不同的时间间隔(例如30秒、40秒、50秒、1分钟、1.2分钟、1.5分钟、1.7分钟、2分钟、3分钟、......1小时、2小时、3小时、......),并通过单边的方式(例如,以创造病媒。 然后使用vector-quantization 。 分类“利益”模式的风格算法。 你们需要仔细思考一下你如何处理这些类别的确定性,尽管——如果您的某一类别的数据很少,那很可能是可靠的。 (有些病媒组合算法比其他算法好。)
然后,为了预测将来可能印刷某些产品,通过病媒定量和加权来审视最近的活动间隔(30秒、40秒、50秒、1分钟和所有其他间隔),并根据确定结果确定得出加权平均数。
你们希望找到一种很好的方法,衡量依赖时间、依赖时间的产出的确定性,以便得出最后的估计数。
这类情况是预测数据压缩办法的典型情况。 我建议你看PAQ。 我在这里谈到的许多概念,可以提供一些非常有趣的见解。 来源代码甚至可以提供所使用的算法的出色文件。
您可能希望采取完全不同的方法,从病媒定量化和分散数据,并利用更像PPM。 它可以非常简单地实施,而且仍然有效。
我不知道该项目的时间框架或范围是什么,但这种事情总是可以被拿到第一级。 如果要有一个期限,我要强调,你担心先做些事,然后让工作顺利。 不太理想的情况比任何情况都好。
这类项目为cool。 如果你完成这项工作,这种项目就能够取得你的工作。 d 我建议你确实需要时间,这样做是正确的,并把它作为功能、公开来源和有用的软件。 我高度建议开放源头,因为你想要使一个能够在你能够利用、愿意支持或时间支持的更多环境中提供数据源的人的社区。
Best of luck!