AI Generative là gì? Giải thích từ cơ bản nhất

Generative AI đang thay đổi thế giới. Nhưng thực sự nó hoạt động ra sao? Bài này giải thích không cần toán cao cấp.

AI không “suy nghĩ” — AI dự đoán

Hiểu lầm lớn nhất: AI hiểu ngôn ngữ như con người. Thực ra, Language Model (LM) chỉ học pattern: “từ này thường đứng sau từ kia trong văn bản”. Khi bạn hỏi ChatGPT, nó không “biết câu trả lời” — nó tạo ra câu trả lời bằng cách chọn từ tiếp theo có xác suất cao nhất dựa trên training data và context.

Transformer Architecture — Thay đổi tất cả

Năm 2017, Google giới thiệu kiến trúc Transformer (trong paper “Attention is All You Need”). Điểm cốt lõi là “self-attention”: model có thể xem xét mọi từ trong câu và tính mức độ liên quan của từng từ với nhau. Đây là lý do AI có thể hiểu ngữ cảnh dài và phức tạp.

Training — Học từ hàng trăm tỷ từ

GPT-4 được train trên ~1 nghìn tỷ từ từ internet, sách, code, báo… Quá trình: cho model nhìn câu → che từ tiếp theo → model đoán → so sánh với từ thật → điều chỉnh hàng tỷ tham số (parameters) → lặp lại hàng triệu lần. Sau hàng nghìn giờ GPU, model học được pattern của ngôn ngữ.

RLHF — Dạy AI nói chuyện như người

Raw LM trả lời cộc lốc và đôi khi toxic. RLHF (Reinforcement Learning from Human Feedback): người đánh giá so sánh các câu trả lời → model học cách trả lời “tốt” theo chuẩn con người. Đây là lý do ChatGPT và Claude nói chuyện được trong khi raw GPT-2 thì không.

Multimodal — Từ text sang ảnh và video

Midjourney, DALL-E, Stable Diffusion dùng cơ chế khác: Diffusion Model. Bắt đầu từ ảnh nhiễu ngẫu nhiên → từng bước “khử nhiễu” dựa trên text prompt → ảnh cuối cùng. Sora (video) mở rộng concept này sang không gian-thời gian.