GPT-2旨在根据前线的顺序预测下线。 例如,鉴于“我爱”这一短语,它可能预测“你”。
<>1. 为什么使用<条码>输入-tensor 用于输入和Labels
The confusion often arises when seeing input_tensor
used for both input and labels. This is due to the Masking mechanism inherent in GPT-2.
与BERT不同的是,当具体症状被掩盖,模型预测这些症状时,GPT-2的面罩是控制每个预测步骤中发现的症状。 模型预测“我爱音乐”这样的顺序:
"I"
-> "love"
"I love"
-> "music"
This is achieved through internal masking. The model doesn t see future tokens, ensuring genuine next-token prediction based on the given context. So, using input_tensor
for both input and labels doesn t make the model a mere repeater. It s training the model to predict subsequent tokens based on prior context.
2. Splitting Songs inhal
人工分立的歌曲体质是一种理想。 GPT-2的设计必然会按顺序预测每个职位的下一个标线。 唱歌可能偏袒后几部分的模式,可能限制其学习。
3. A Better Approach
考虑采用描述性症状:
制作你的数据集时,应说明歌曲的风格或主题,随后是相应的课程。 例如:
投入:A melancholic ballad about loss care in Winter >
Output: "Snowflakes fall, my heart calls, for the love lost in winter s thrall..."
这种办法可以更有效地指导该模式在理想方式中生成摩擦。