我是机器学习的新手,我做了一个测试,但不知道如何解释和评估。
案例1:
首先,我随机地将数据(数据A,约8,000个字)分为10组(a1.a.10)。在每一组中,我使用90%的数据来构建 ngram 模型。然后,该 ngram 模型将在同一组中的其他10%的数据中测试。结果低于10%的精确度。其他9组的情况相同(分别构建模型,并分别测试该组中剩余的10%的数据)。所有结果都是大约10%的精确度。 (这是10折交叉校验吗?)
案例2:
我首先根据大约8,000个字的“ 强性” < /强性” 数据集( 数据A) 建立一个 ngram 模型。 然后, 我随机地将这个 A 分成10 组( a1, a2, a3. a10) 。 然后, 我用这个 ngram 来测试 a1, a2. a10。 我发现这个模型在所有组中几乎精确了96% 。
How to explain such situations. Thanks in advance.