Question

我试图将BERT模型与Huggingface 培训员APIC进行情感分析(将案文归类为积极/否定性)。我的数据集有两栏:<代码>Text和Sentiment。

Text                     Sentiment
This was good place          1
This was bad place           0

我的守则是:

from datasets import load_dataset
from datasets import load_dataset_builder
from datasets import Dataset
import datasets
import transformers
from transformers import TrainingArguments
from transformers import Trainer

dataset = load_dataset( csv , data_files= ./train/test.csv , sep= ; )
tokenizer = transformers.BertTokenizer.from_pretrained("TurkuNLP/bert-base-finnish-cased-v1")
model = transformers.BertForSequenceClassification.from_pretrained("TurkuNLP/bert-base-finnish-cased-v1", num_labels=1) 
def tokenize_function(examples):
    return tokenizer(examples["Text"], truncation=True, padding= max_length )

tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets = tokenized_datasets.rename_column( Sentiment ,  label )
tokenized_datasets = tokenized_datasets.remove_columns( Text )
training_args = TrainingArguments("test_trainer")
trainer = Trainer(
    model=model, args=training_args, train_dataset=tokenized_datasets[ train ]
)
trainer.train()

Running this throws error:

Variable._execution_engine.run_backward(
RuntimeError: Found dtype Long but expected Float

错误可能来自数据集本身,但我能否用我的代码加以确定? 我搜索了因特网,这一错误似乎以前通过“把帐篷推向漂浮”来解决,但我如何与Amper培训员打交道? 任何建议都受到高度赞赏。

参考:

https://discuss.pytorch.org/t/run-back-expected-dtype-float-but-got-d-type-long/61650/10

Answer 1

很可能,问题在于损失功能。如果你正确树立了这一模式,则可以确定这一模式,主要是具体指明使用的确切损失。 Refer to this ,看决定适当损失的逻辑。

你的问题有双面标签,因此应该作为单一标签的分类问题。因此,你所分享的法典将被推定为回归问题,这就解释了它预期会出现的错误,但却发现目标标签有很长的类型。

你们需要通过正确的问题类型。

model = transformers.BertForSequenceClassification.from_pretrained(
    "TurkuNLP/bert-base-finnish-cased-v1", 
    num_labels=1, 
    problem_type = "single_label_classification"
)

这将利用BCE损失。对于欧安会的损失,你需要浮动的目标,因此,你还必须贴上浮动的标签。我认为,你可以通过数据集预报系统这样做。见。

另一种办法是使用多级班级班级或CE级损失。为此,仅贴上num_labels。罚款。

model = transformers.BertForSequenceClassification.from_pretrained(
    "TurkuNLP/bert-base-finnish-cased-v1", 
    num_labels=2,
)

Answer 2

在此,我假定,你试图做一个标签分类,即预测一个结果,而不是预测多重结果。

但是,损失功能(我不知道你正在使用什么,但很可能是BCE)是你使用的,希望你把病媒作为标签。

因此,你们要么需要按照评论中所建议的人把你的标签转换为病媒,要么你可以把损失功能改为跨热带损失,把你标签参数的编号改为2(或不管怎样)。这两种解决办法都将奏效。

If you want to train your model as multi-label classifier you can convert your labels to vectors with using sklearn.preprocessing:

from sklearn.preprocessing import OneHotEncoder
import pandas as pd
import numpy as np

dataset = pd.read_csv("filename.csv", encoding="utf-8")
enc_labels = preprocessing.LabelEncoder()
int_encoded = enc_labels.fit_transform(np.array(dataset["Sentiment"].to_list()))

onehot_encoder = OneHotEncoder(sparse = False)
int_encoded = int_encoded.reshape(len(int_encoded),1)
onehot_encoded = onehot_encoder.fit_transform(int_encoded)
for index, cat in dataset.iterrows():
    dataset.at[index ,  Sentiment ] = onehot_encoded[index]

Answer 3

你可以提供你的数据。

如果您在 Pandas 格式。你可以做到:

df[ column_name ] = df[ column_name ].astype(float)

如果你在 HuggingFace格式。你应该做这样的事情:

from datasets import load_dataset
dataset = load_dataset( glue ,  mrpc , split= train )
from datasets import Value, ClassLabel

new_features = dataset.features.copy()
new_features["idx"] = Value( int64 )
new_features["label"] = ClassLabel(names=[ negative ,  positive ])
new_features["idx"] = Value( int64 )
dataset = dataset.cast(new_features)

此前:

dataset.features

{ idx : Value(dtype= int32 , id=None),
  label : ClassLabel(num_classes=2, names=[ not_equivalent ,  equivalent ], id=None),
  sentence1 : Value(dtype= string , id=None),
  sentence2 : Value(dtype= string , id=None)}

After:

dataset.features

{ idx : Value(dtype= int64 , id=None),
  label : ClassLabel(num_classes=2, names=[ negative ,  positive ], id=None),
  sentence1 : Value(dtype= string , id=None),
  sentence2 : Value(dtype= string , id=None)}

Answer 4

分类模式按违约情况与num_labels进行双重分类。 <代码>None。 <num_labels to 1 这使它成为一个倒退的问题,因此你正在经历错误。页: 1

友情链接