Transformers pretraining with MLM problem - sentence embeddings

Question

Im pretraining trasformer with my own unlabeled data like this:

python train_mlm.py sentence-transformers/LaBSE train.txt Based on https://github.com/UKPLab/sentence-transformers/tree/master/examples/unsupervised_learning/MLM

Then I want to get embeddings for setnences. Code:

model = AutoModelForMaskedLM.from_pretrained('output/sentence-transformers_LaBSE-2021-12-28_13-03-20')
tokenizer = AutoTokenizer.from_pretrained('output/sentence-transformers_LaBSE-2021-12-28_13-03-20')

model = model.eval()

english_sentences = [
    "dog",
    "Puppies are nice.",
    "I enjoy taking long walks along the beach with my dog.",
]
encoded_input = tokenizer(english_sentences, padding=True, truncation=True, max_length=64, return_tensors='pt')
with torch.no_grad():
    model_output = model(**encoded_input)

print(model_output[0].shape)

Problem is that shape of my output is someting like (3, 14, 500 000). When without training on my data shape is (3, 14, 768). What I have done wrong? How can I get final embeddings after my training?

Transformers pretraining with MLM problem - sentence embeddings

Answers (1)

Related Questions