English 中文(简体)
如何评估和解释这台机器学习中经过训练的模式?
原标题:How to evaluate and explain the trained model in this machine learning?

我是机器学习的新手,我做了一个测试,但不知道如何解释和评估。

案例1:

首先,我随机地将数据(数据A,约8,000个字)分为10组(a1.a.10)。在每一组中,我使用90%的数据来构建 ngram 模型。然后,该 ngram 模型将在同一组中的其他10%的数据中测试。结果低于10%的精确度。其他9组的情况相同(分别构建模型,并分别测试该组中剩余的10%的数据)。所有结果都是大约10%的精确度。 (这是10折交叉校验吗?)

案例2:

我首先根据大约8,000个字的“ 强性” < /强性” 数据集( 数据A) 建立一个 ngram 模型。 然后, 我随机地将这个 A 分成10 组( a1, a2, a3. a10) 。 然后, 我用这个 ngram 来测试 a1, a2. a10。 我发现这个模型在所有组中几乎精确了96% 。

How to explain such situations. Thanks in advance.

最佳回答
  1. 是的,十倍交叉验证。

  2. 这种测试方法在训练组中具有常见的测试缺陷。 这就是为什么精确度被夸大了。 它不切实际,因为在现实生活中,你的测试实例是新奇的,以前系统是看不到的。

N倍交叉验证是许多工作使用的有效评价方法。

问题回答

您需要阅读有关“强势”改造 < /强势”主题的内容。

您描述的情况给人一种印象,即您的 ngram 模型被严重夸大: 它能够“ 吸收” 96%的培训数据。 但是, 当您在适当的子集上接受培训时, 它只能对10%的未知的 < / em > 数据做出预测 。

  1. This is called 10 fold cross-validation




相关问题
Java Stanford NLP: Part of Speech labels?

The Stanford NLP, demo d here, gives an output like this: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. What do the Part of Speech tags mean? I am unable to find an official list. Is it ...

Java Stanford NLP: Find word frequency?

I m using the Stanford NLP Parsing toolkit. Given a word in the lexicon, how can I find its frequency*? Or, given a frequency rank, how can I determine the corresponding word? *in the entire language,...

c/c++ NLP library [closed]

I am looking for an open source Natural Language Processing library for c/c++ and especially i am interested in Part of speech tagging.

Clustering text in Python [closed]

I need to cluster some text documents and have been researching various options. It looks like LingPipe can cluster plain text without prior conversion (to vector space etc), but it s the only tool I ...

Natural language rendering

Do you know any frameworks that implement natural language rendering concept ? I ve found several NLP oriented frameworks like Anthelope or Open NLP but they have only parsers but not renderers or ...

热门标签