BART: Sự kết hợp giữa BERT và GPT

BART là mô hình được giới thiệu bởi Facebook AI, một mô hình pretrained mới kết hợp ưu điểm của BERT và GPT. Sức mạnh của BERT nằm ở việc nắm bắt ngữ cảnh hai chiều, trong khi đó GPT có khả năng tự hồi quy. Với sự ra đời của BART, các nhiệm vụ sinh và đọc hiểu văn bản có thể được thực hiện với cùng một mô hình.

BART là một autoencoder khử nhiễu trên kiến trúc sequence-to-sequence, có thể được áp dụng trong đa dạng các nhiệm vụ khác nhau. Nó sử dụng kiến trúc transformers chuẩn cho bài toán dịch máy. Việc huấn luyện BART bao gồm việc tạo nhiễu trong văn bản với một hàm tùy ý và sử dụng mô hình để tái cấu trúc lại văn bản ban đầu. Ưu điểm chính của cách thức này là mô hình trở nên linh hoạt với văn bản đầu vào và tái tạo lại văn bản một cách hiệu quả.

BART cho thấy hiệu quả vượt trội trong cả nhiệm vụ sinh lẫn đọc hiểu văn bản. Cụ thể, BART có hiệu quả sánh ngang RoBERTa trên GLUE và SQuAD và đạt SOTA trong các nhiệm vụ về đối thoại trừu tượng, trả lời câu hỏi và tóm tắt.

Giống như các mô hình Transformer, BART gồm hai thành phần là Encoder và Decoder. Encoder được lấy từ BERT, nó có thể mã hóa xâu đầu vào theo cả hai chiều và lấy được nhiều thông tin ngữ cảnh hơn. Một số lượng ngẫu nhiên các token được che bằng mặt nạ và mô hình phải tự khôi phục chúng.

Decoder từ GPT được sử dụng để tái tạo lại đầu vào bị nhiễu. Mặc dù vậy, các từ chỉ có thể sinh từ bên trái, mô hình không thể học được tương tác hai chiều. Hàm kích hoạt GeLU được sử dụng thay thế cho ReLU. Kiến trúc cơ bản của BART sử dụng 6 tầng encoder và decoder trong khi kiến trúc mở rộng sử dụng 12 tầng.

Các phương pháp để làm xáo trộn văn bản bao gồm:

Mặt nạ (Token Masking): Như BERT, các token được lấy ngẫu nhiên và thay thế bởi [MASK].
Xóa token (Token Deletion): Các token ngẫu nhiên được xóa khỏi xâu đầu vào, mô hình cần đoán được token nào bị xóa.
Điền văn bản (Text Infilling): Một vài đoạn văn bản ngẫu nhiên được thay thế bằng [MASK]. Đặc biệt, đoạn văn bản có thể là rỗng.
Tráo câu ngẫu nhiên (Sentence Permutation): Văn bản được chia thành các câu và được tráo ngẫu nhiên.
Xoay văn bản (Document Rotation): Một token được chọn ngẫu nhiên, văn bản được xoay để bắt đầu với token đó. Điều này giúp cho mô hình học được đâu và điểm bắt đầu của văn bản.

BART có thể được finetune và áp dụng cho nhiều bài toán khác nhau như phân loại chuỗi, phân loại token, sinh chuỗi và dịch máy.

Hiệu quả của BERT và BART biến động trên các nhiệm vụ khác nhau, mặc dù vậy BART với nhiệm vụ điền vào văn bản luôn cho kết quả tốt. Bên cạnh đó, BART có kết quả khiến nhiều người phải ngạc nhiên trong nhiệm vụ tóm tắt. BART có thể sinh ra được đoạn tóm tắt mượt mà và đúng ngữ pháp.

Có thể nói BART là bước tiến mới trong NLP với khả năng đọc hiểu và sinh văn bản.

Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website và theo dõi trang trên các mạng xã hội để luôn có thông tin cập nhật nhất về lĩnh vực.

Cài Trí tuệ nhân tạo vào điện thoại.