English 中文(简体)
如何根据以往的事件预测下一次事件发生的时间? [闭门]
原标题:How to predict when next event occurs based on previous events? [closed]
Closed. This question is off-topic. It is not currently accepting answers.

基本上,我有一个相当庞大的清单(一年数据价值),列出一次单独活动(就我目前的项目而言,是一份个人印刷的时代清单)。 根据这份清单,我想建立一个统计模式,根据以往所有活动时间,预测下一次活动(下一次印刷工作)最可能的时间。

我已经读到,但答复并没有与我对我的项目所铭记的准确帮助。 我做了一些补充研究,发现Hidden Markov Model可能允许我准确这样做,但我无法找到一个链接,说明如何利用仅仅一份时间清单来形成一个隐藏的Markov模型。 我还发现,在名单上使用Kalman滤<可能有用,但基本上,我想从那些实际使用过这些地雷的人那里获得更多信息,并且知道这些限制和要求,然后再做一些事,然后才能做工。

感谢一只面包车!

www.un.org/Depts/DGACM/index_spanish.htm 因此,在评论中,我也把这贴在。 如果你知道我应该做些什么,请在这里或那里张贴。

最佳回答

我要说的是,我不喜欢统计。 但是,我先谈这些问题。 确实,我们在这里再次谈的是,你看到了一些不同的事件,你想指出,类似。 这正是你在任何特定时间看到的。 你提出的问题是,你想要收集离散的数据并不断提供数据。

引人注意的是http://en.wikipedia.org/wiki/Density_estimation”rel=“noreferer”>density est。 具体来说,kernel密度估算。 可以通过简单的二读来获得油轮密度估算的一些影响(例如,计算每25小时或每小时的间隔时间次数)。 微粒密度估计仅具有一些比简单的二宾式更坏的统计特性。 (所生成的数据往往比较平稳。)

That only takes care of one of your problems, though. The next problem is still the far more interesting one -- how do you take a time line of data (in this case, only printer data) and produced a prediction from it? First thing s first -- the way you ve set up the problem may not be what you re looking for. While the miracle idea of having a limited source of data and predicting the next step of that source sounds attractive, it s far more practical to integrate more data sources to create an actual prediction. (e.g. maybe the printers get hit hard just after there s a lot of phone activity -- something that can be very hard to predict in some companies) The Netflix Challenge is a rather potent example of this point.

当然,数据来源较多的问题在于,在建立收集数据的系统方面还有额外的工作。

Honestly, I d consider this a domain-specific problem and take two approaches: Find time-independent patterns, and find time-dependent patterns.

一个依赖时间的模式是,每星期有430台苏日报印出她当天的报告。 这发生在每周具体时间。 这类物品很容易以固定间隔探测。 (每天、每星期、每周末、每星期二、每个月1日,等等) 这一点非常简单,可以按预先确定的间隔进行检测——这只是为估计的密度功能提供一个曲线,该功能为期一周,并随着时间的推移和平均数的推移(可能是通过窗口功能进行加权平均数,以更好地预测)。

如果你想要更精练,就找到一种办法,使发现这种间隔的自动化。 (数据 overwhelming然如此之大,以至于你可以这样作。)

一个依赖时间的模式是,每当迈克会计打印出一张发票单时,他就会去Johnathan,他在几个小时后打印出大量完整的发票报告。 很难发现这类事情,因为其形式更为自由。 我建议考虑不同的时间间隔(例如30秒、40秒、50秒、1分钟、1.2分钟、1.5分钟、1.7分钟、2分钟、3分钟、......1小时、2小时、3小时、......),并通过单边的方式(例如,以创造病媒。 然后使用vector-quantization 。 分类“利益”模式的风格算法。 你们需要仔细思考一下你如何处理这些类别的确定性,尽管——如果您的某一类别的数据很少,那很可能是可靠的。 (有些病媒组合算法比其他算法好。)

然后,为了预测将来可能印刷某些产品,通过病媒定量和加权来审视最近的活动间隔(30秒、40秒、50秒、1分钟和所有其他间隔),并根据确定结果确定得出加权平均数。

你们希望找到一种很好的方法,衡量依赖时间、依赖时间的产出的确定性,以便得出最后的估计数。

这类情况是预测数据压缩办法的典型情况。 我建议你看PAQ。 我在这里谈到的许多概念,可以提供一些非常有趣的见解。 来源代码甚至可以提供所使用的算法的出色文件。

您可能希望采取完全不同的方法,从病媒定量化和分散数据,并利用更像PPM。 它可以非常简单地实施,而且仍然有效。

我不知道该项目的时间框架或范围是什么,但这种事情总是可以被拿到第一级。 如果要有一个期限,我要强调,你担心先做些事,然后让工作顺利。 不太理想的情况比任何情况都好。

这类项目为cool。 如果你完成这项工作,这种项目就能够取得你的工作。 d 我建议你确实需要时间,这样做是正确的,并把它作为功能、公开来源和有用的软件。 我高度建议开放源头,因为你想要使一个能够在你能够利用、愿意支持或时间支持的更多环境中提供数据源的人的社区。

Best of luck!

问题回答

我确实看不出“马克托夫”模式会如何有用。 当你预测的活动取决于以前的事件时,通常采用Markov模式。 当然,古典的例子就是文字,如果一个良好的标志模式能够令人惊讶地很好地解释下一个特性或字眼。

But is there a pattern to when a user might print the next thing? That is, do you see a regular pattern of time between jobs? If so, then a Markov model will work. If not, then the Markov model will be a random guess.

In how to model it, think of the different time periods between jobs as letters in an alphabet. In fact, you could assign each time period a letter, something like:

A - 1 to 2 minutes
B - 2 to 5 minutes
C - 5 to 10 minutes
etc.

然后,通过数据,在印刷工作之间每次分配一封信。 在你重新工作时,你有一份数据的文本,你可以通过马克诺夫的任何例子进行文字预测。

如果你有你认为与问题领域相关的实际模式,那么你就应当适用。 例如,可能存在与星期日、日、可能的日期有关的模式(大概会显示使用率较低)。

多数基于邻近事件之间的审查(分析)时间的原始统计建模技术将难以掌握这些基本影响。

我将为这些已知事件(每周日等)建立一个统计模式,并利用这一模式预测今后的发生。

I think the predictive neural network would be a good approach for this task. http://en.wikipedia.org/wiki/Predictive_analytics#Neural_networks

This method is also used for predicting f.x. weather forecasting, stock marked, sun spots. There s a tutorial here if you want to know more about how it works. http://www.obitko.com/tutorials/neural-network-prediction/

想像一个具有垂直链的图表,相互连接,重量或距离。 绕过这一图,就会吃上你所走的重量或距离。 这方面的一个例子是:

卡尔曼过滤器用于跟踪国家病媒,通常具有连续(或至少连续)动态。 这是零星、离散事件对面的极地,因此,除非你有一个基本模式,包括这种国家病媒(或者说是线性或几乎线性),否则你可能不想要卡曼过滤器。

It sounds like you don t have an underlying model, and are fishing around for one: you ve got a nail, and are going through the toolbox trying out files, screwdrivers, and tape measures 8^)

My best advice: first, use what you know about the problem to build the model; then figure out how to solve the problem, based on the model.





相关问题
How to manage a pageview DB

I am interested in tracking my users pageviews on my site. Being that traffic is expanding very quickly, I am worried about robots, etc, and I also want to be able to use tracked data live to alter ...

Statistics Question

Suppose I conduct a survey of 10 people asking whether to rank a movie as 0 to 4 stars. Allowable answers are 0, 1, 2, 3, and 4. The mean is 2.0 stars. How do I calculate the certainty (or ...

Calculating variance with large numbers

I haven t really used variance calculation that much, and I don t know quite what to expect. Actually I m not too good with math at all. I have a an array of 1000000 random numeric values in the ...

R statistical package: wrapping GOFrame objects

I m trying to generate GOFrame objects to generate a gene ontology mapping in R for unsupported organisms (see http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/...

Generating correlated numbers

Here is a fun one: I need to generate random x/y pairs that are correlated at a given value of Pearson product moment correlation coefficient, or Pearson r. You can imagine this as two arrays, array ...

Multivariate time series modelling in R

I want do fit some sort of multi-variate time series model using R. Here is a sample of my data: u cci bci cpi gdp dum1 dum2 dum3 dx 16.50 14.00 53.00 45.70 80....

热门标签