如何进行模型预训练

doggie · 2026 年4 月 29 日 03:47

操作

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"
from peft import TaskType, LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, LlamaConfig, LlamaForCausalLM,LlamaModel
import torch

# 加载模型
model_path = '/data04/llama3/Meta-Llama-3.1-8B-Instruct'
tokenizer = AutoTokenizer.from_pretrained(model_path)


model = AutoModelForCausalLM.from_pretrained(
    model_path,
    low_cpu_mem_usage=True,
    quantization_config=bnb_config
)

model = get_peft_model(model, peft_config)
model.print_trainable_parameters()
# 把模型放进显卡
model.to("cuda")
optimizer = torch.optim.AdamW(model.parameters())
# 把输入内容分词，然后放入显卡
text = "今天天气不错。"
input = tokenizer(text, return_tensors="pt")
input = {k: v.to("cuda") for k, v in input.items()}

#设置labels和inputs一致
input["labels"] = input["input_ids"].clone()

# 前向传播
output = model(**input)

#获取模型的loss
loss = output.loss
# 后向传播
loss.backward()
# 更新参数
optimizer.step()
optimizer.zero_grad()

#保存模型
model.save_pretrained("output_dir")

loss函数如何计算？

大模型输出结果本质上就是词的分类，使用交叉熵进行loss计算

参考

大模型预训练看这个视频就够了_哔哩哔哩_bilibili

话题		回复	浏览量
三分钟讲解大模型训练全过程 🛠工具与编程大模型 , 模型训练	0	19	2026 年4 月 27 日
如何下载大模型并用llamafactory启动 🥼实践与临床	0	16	2026 年2 月 26 日
预训练语言模型发展史 🛠工具与编程大模型 , 自然语言处理	1	23	2025 年10 月 8 日
如何将qwen3小模型和视觉模型拼接，进而为qwen3小模型提供视觉能力 🛠工具与编程	0	48	2025 年7 月 31 日
如何进行有监督微调（Supervised Fine-Tuning, SFT） 🛠工具与编程 supervised-fine-tuning	0	18	2026 年4 月 29 日

如何进行模型预训练

操作

loss函数如何计算？

参考

相关话题