import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import os

cache_dir = "./models"
model_id = "NousResearch/Meta-Llama-3.1-8B"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    cache_dir=cache_dir,
    torch_dtype=torch.float32,   # Использование float32 для CPU
    device_map=None              # Явное указание, что модель не будет использовать GPU
)

model.to("cpu")