Fine-tuning và RLHF: InstructGPT và Constitutional AI
# Nghiên cứu về Fine-tuning và RLHF: InstructGPT và Constitutional AI ## 1. Giới thiệu chung Trong lĩnh vực Trí tuệ Nhân tạo (AI) và Xử lý Ngôn ngữ Tự nhiên (NLP), việc huấn luyện các Mô hình Ngôn ngữ Lớn (LLM) như GPT-3 hay Claude không chỉ dừng lại ở việc dự đoán từ tiếp theo. Để các mô hình này thực sự hữu ích, an toàn và tuân thủ ý định của người dùng, các nhà nghiên cứu đã phát triển các kỹ thuật tinh chỉnh (fine-tuning) tiên tiến. Nổi bật nhất trong số đó là RLHF (Reinforcement Learning from Human Feedback) được OpenAI áp dụng cho InstructGPT và Constitutional AI do Anthropic phát triển. ## 2. Fine-tuning và RLHF (Reinforcement Learning from Human Feedback) ### 2.1. Định nghĩa Fine-tuning là quá trình lấy một mô hình ngôn ngữ đã được huấn luyện trước (pre-trained) trên một lượng dữ liệu khổng lồ và tiếp tục huấn luyện nó trên một tập dữ liệu nhỏ hơn, chuyên biệt hơn để thực hiện các tác vụ cụ thể. RLHF (Học tăng cường từ phản hồi của con người) là một phương pháp tinh chỉnh kết hợp học tăng cường (reinforcement learning) với đánh giá của con người. Phương pháp này giúp mô hình học cách tạo ra các phản hồi tự nhiên, an toàn và phù hợp với sở thích của con người hơn [1]. ### 2.2. Cơ chế hoạt động của RLHF Quá trình RLHF thường diễn ra qua ba giai đoạn chính [1]: 1. Huấn luyện mô hình cơ sở (Pretraining): Một mô hình ngôn ngữ lớn được huấn luyện trên dữ liệu văn bản khổng lồ để hiểu cú pháp, ngữ nghĩa và ngữ cảnh. 2. Phát triển Mô hình Phần thưởng (Reward Model – RM): • Con người (người đánh giá) sẽ xem xét các câu trả lời khác nhau do mô hình tạo ra cho cùng một câu lệnh (prompt) và xếp hạng chúng dựa trên chất lượng, độ chính xác và tính an toàn. • Dữ liệu xếp hạng này được sử dụng để huấn luyện một Mô hình Phần thưởng. RM học cách dự đoán câu trả lời nào sẽ được con người ưa thích hơn và gán cho nó một điểm số (phần thưởng) cao hơn. 3. Học tăng cường (Reinforcement Learning): • Mô hình ngôn ngữ ban đầu (đóng vai trò là chính sách RL) tạo ra các câu trả lời mới. • Mô hình Phần thưởng đánh giá các câu trả lời này và cung cấp điểm số. • Các thuật toán học tăng cường, phổ biến nhất là PPO (Proximal Policy Optimization), sử dụng điểm số này để cập nhật mô hình ngôn ngữ, khuyến khích nó tạo ra các câu trả lời nhận được phần thưởng cao hơn trong tương lai. Thuật toán KL Divergence thường được sử dụng để đảm bảo mô hình không đi quá xa so với mô hình gốc, tránh việc tạo ra văn bản vô nghĩa chỉ để tối đa hóa phần thưởng. ## 3. InstructGPT của OpenAI ### 3.1. Định nghĩa và Mục tiêu InstructGPT là một tập hợp các mô hình ngôn ngữ do OpenAI phát triển, được tinh chỉnh từ GPT-3 bằng phương pháp RLHF. Mục tiêu chính của InstructGPT là giải quyết vấn đề “thiếu liên kết” (alignment problem) của GPT-3, tức là làm cho mô hình tuân theo hướng dẫn của người dùng tốt hơn, trung thực hơn và ít tạo ra nội dung độc hại hơn [2] [3]. ### 3.2. Kết quả và Số liệu thống kê Nghiên cứu của OpenAI đã chỉ ra những kết quả ấn tượng của InstructGPT [2] [3]: • Hiệu suất vượt trội với kích thước nhỏ: Trong các đánh giá của con người, câu trả lời từ mô hình InstructGPT 1.3 tỷ tham số được ưa thích hơn so với câu trả lời từ mô hình GPT-3 175 tỷ tham số, mặc dù InstructGPT nhỏ hơn 100 lần. • Giảm thiểu thông tin sai lệch: InstructGPT ít bịa đặt thông tin (“hallucinate”) hơn so với GPT-3. • Giảm nội dung độc hại: Mô hình cho thấy sự sụt giảm nhẹ trong việc tạo ra các đầu ra độc hại. • Duy trì hiệu suất: Việc tinh chỉnh bằng RLHF (khi kết hợp với một phần dữ liệu huấn luyện gốc) giúp duy trì, thậm chí vượt qua hiệu suất của GPT-3 trên các bài kiểm tra NLP học thuật, giảm thiểu “thuế liên kết” (alignment tax). ## 4. Constitutional AI của Anthropic ### 4.1. Định nghĩa Constitutional AI (AI Hiến pháp) là một phương pháp do Anthropic phát triển nhằm huấn luyện một trợ lý AI vô hại thông qua quá trình tự cải thiện (self-improvement), mà không cần con người phải dán nhãn trực tiếp cho các đầu ra độc hại. Sự giám sát duy nhất của con người được cung cấp thông qua một danh sách các quy tắc hoặc nguyên tắc (gọi là “hiến pháp”) [4]. ### 4.2. Cơ chế hoạt động Quá trình Constitutional AI bao gồm hai giai đoạn chính [4]: 1. Giai đoạn Học có giám sát (Supervised Learning – SL): • Mô hình ban đầu tạo ra các câu trả lời cho các câu lệnh có khả năng gây hại. • Mô hình tự đánh giá (critique) câu trả lời của mình dựa trên các nguyên tắc trong “hiến pháp” và tự sửa đổi (revise) để loại bỏ nội dung độc hại. • Mô hình gốc sau đó được tinh chỉnh (fine-tuned) trên các câu trả lời đã được sửa đổi này. 2. Giai đoạn Học tăng cường (Reinforcement Learning – RL): • Giai đoạn này sử dụng phương pháp RLAIF (Reinforcement Learning from AI Feedback) thay vì RLHF. • Mô hình đã được tinh chỉnh ở bước 1 tạo ra các cặp câu trả lời. • Một mô hình AI (sử dụng các nguyên tắc hiến pháp) sẽ đánh giá xem câu trả lời nào tốt hơn/vô hại hơn. • Dữ liệu đánh giá của AI này được dùng để huấn luyện một Mô hình Phần thưởng (Preference Model). • Cuối cùng, mô hình được huấn luyện bằng học tăng cường sử dụng Mô hình Phần thưởng này. ### 4.3. Ưu điểm và Kết quả • Giảm phụ thuộc vào con người: Phương pháp này giúp kiểm soát hành vi của AI một cách chính xác hơn với số lượng nhãn do con người tạo ra ít hơn rất nhiều. • Tính minh bạch: Việc sử dụng “hiến pháp” giúp dễ dàng xác định, kiểm tra và hiểu các nguyên tắc mà hệ thống AI đang tuân theo. • Không lảng tránh: Constitutional AI có thể huấn luyện một trợ lý AI vô hại nhưng không lảng tránh (non-evasive). Thay vì từ chối trả lời các câu hỏi độc hại một cách máy móc, AI có thể tham gia vào cuộc trò chuyện bằng cách giải thích lý do tại sao nó phản đối yêu cầu đó. ## 5. Kết luận Cả RLHF (với InstructGPT) và Constitutional AI đều là những bước tiến quan trọng trong việc giải quyết bài toán liên kết (alignment) của AI. Trong khi RLHF dựa nhiều vào phản hồi trực tiếp của con người để định hình hành vi của mô hình, Constitutional AI mở ra một hướng đi mới bằng cách sử dụng chính AI để giám sát AI dựa trên một bộ quy tắc cốt lõi. Những phương pháp này đóng vai trò then chốt trong việc phát triển các hệ thống AI an toàn, đáng tin cậy và hữu ích hơn cho xã hội. ## Tài liệu tham khảo [1] Labellerr. “LLM Reinforcement Learning: Enhancing AI Performance [Updated]”. https://www.labellerr.com/blog/reinforcement-learning-from-human-feedback/ [2] OpenAI. “Aligning language models to follow instructions”. https://openai.com/index/instruction-following/ [3] Ouyang, L., et al. (2022). “Training language models to follow instructions with human feedback”. arXiv:2203.02155. https://arxiv.org/abs/2203.02155 [4] Anthropic. “Constitutional AI: Harmlessness from AI Feedback”. https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
Nội dung chi tiết
– RLHF (Học tăng cường từ phản hồi của con người) là phương pháp tinh chỉnh kết hợp học tăng cường với đánh giá của con người, giúp mô hình tạo ra các phản hồi tự nhiên, an toàn và phù hợp với sở thích của con người [1]. – Quá trình RLHF thường diễn ra qua ba giai đoạn chính: Huấn luyện mô hình cơ sở, Phát triển Mô hình Phần thưởng (RM) dựa trên xếp hạng của con người, và Học tăng cường sử dụng RM để cập nhật mô hình ngôn ngữ [1]. – InstructGPT là các mô hình ngôn ngữ của OpenAI, được tinh chỉnh từ GPT-3 bằng RLHF, nhằm mục tiêu làm cho mô hình tuân theo hướng dẫn của người dùng tốt hơn, trung thực hơn và ít tạo ra nội dung độc hại hơn [2] [3]. – InstructGPT 1.3 tỷ tham số được ưa thích hơn so với GPT-3 175 tỷ tham số trong các đánh giá của con người, mặc dù nhỏ hơn 100 lần [2] [3]. – InstructGPT ít bịa đặt thông tin (“hallucinate”) và giảm nội dung độc hại [2] [3]. – Constitutional AI (AI Hiến pháp) của Anthropic là phương pháp huấn luyện AI vô hại thông qua tự cải thiện, không cần dán nhãn trực tiếp cho các đầu ra độc hại, mà dựa trên một danh sách các quy tắc hoặc nguyên tắc (“hiến pháp”) [4]. – Constitutional AI bao gồm hai giai đoạn: Học có giám sát (SL) với tự đánh giá và sửa đổi của mô hình, và Học tăng cường (RL) sử dụng RLAIF (Reinforcement Learning from AI Feedback), nơi một mô hình AI khác đánh giá và cung cấp phản hồi [4]. – Constitutional AI giúp giảm phụ thuộc vào con người trong việc dán nhãn, tăng tính minh bạch và có thể huấn luyện AI vô hại nhưng không lảng tránh [4].
Điểm chính cần nhớ
– RLHF (Học tăng cường từ phản hồi của con người) là phương pháp tinh chỉnh kết hợp học tăng cường với đánh giá của con người, giúp mô hình tạo ra các phản hồi tự nhiên, an toàn và phù hợp với sở thích của con người [1].
– Quá trình RLHF thường diễn ra qua ba giai đoạn chính: Huấn luyện mô hình cơ sở, Phát triển Mô hình Phần thưởng (RM) dựa trên xếp hạng của con người, và Học tăng cường sử dụng RM để cập nhật mô hình ngôn ngữ [1].
– InstructGPT là các mô hình ngôn ngữ của OpenAI, được tinh chỉnh từ GPT-3 bằng RLHF, nhằm mục tiêu làm cho mô hình tuân theo hướng dẫn của người dùng tốt hơn, trung thực hơn và ít tạo ra nội dung độc hại hơn [2] [3].
– InstructGPT 1.3 tỷ tham số được ưa thích hơn so với GPT-3 175 tỷ tham số trong các đánh giá của con người, mặc dù nhỏ hơn 100 lần [2] [3].
– InstructGPT ít bịa đặt thông tin (“hallucinate”) và giảm nội dung độc hại [2] [3].
– Constitutional AI (AI Hiến pháp) của Anthropic là phương pháp huấn luyện AI vô hại thông qua tự cải thiện, không cần dán nhãn trực tiếp cho các đầu ra độc hại, mà dựa trên một danh sách các quy tắc hoặc nguyên tắc (“hiến pháp”) [4].
– Constitutional AI bao gồm hai giai đoạn: Học có giám sát (SL) với tự đánh giá và sửa đổi của mô hình, và Học tăng cường (RL) sử dụng RLAIF (Reinforcement Learning from AI Feedback), nơi một mô hình AI khác đánh giá và cung cấp phản hồi [4].
– Constitutional AI giúp giảm phụ thuộc vào con người trong việc dán nhãn, tăng tính minh bạch và có thể huấn luyện AI vô hại nhưng không lảng tránh [4].