BART là mô hình được giới thiệu bởi Facebook AI, một mô hình pretrained mới kết hợp ưu điểm của BERT và GPT. Sức mạnh của BERT nằm ở việc nắm bắt ngữ cảnh hai chiều, trong khi đó GPT có khả năng tự hồi quy. Với sự ra đời của BART, các nhiệm vụ sinh và đọc hiểu văn bản có thể được thực hiện với cùng một mô hình.
BART là một autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
khử nhiễu trên kiến trúc sequence-to-sequence, có thể được áp dụng trong đa dạng các nhiệm vụ khác nhau. Nó sử dụng kiến trúc transformers chuẩn cho bài toán dịch máy. Việc huấn luyện BART bao gồm việc tạo nhiễu trong văn bản với một hàm tùy ý và sử dụng mô hình để tái cấu trúc lại văn bản ban đầu. Ưu điểm chính của cách thức này là mô hình trở nên linh hoạt với văn bản đầu vào và tái tạo lại văn bản một cách hiệu quả.
BART cho thấy hiệu quả vượt trội trong cả nhiệm vụ sinh lẫn đọc hiểu văn bản. Cụ thể, BART có hiệu quả sánh ngang RoBERTa trên GLUE và SQuAD và đạt SOTA
SOTA
SOTA (State-of-the-art) là mức độ phát triển cao nhất của một công nghệ, một lĩnh vực khoa học, hoặc một thiết kế nào đó đạt được trong một khoảng thời gian nhất định.
trong các nhiệm vụ về đối thoại trừu tượng, trả lời câu hỏi và tóm tắt.
Giống như các mô hình Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
, BART gồm hai thành phần là Encoder
encoder
Bộ mã hóa trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
và Decoder
decoder
Bộ giải mã trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
. Encoder
encoder
Bộ mã hóa trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
được lấy từ BERT, nó có thể mã hóa xâu đầu vào theo cả hai chiều và lấy được nhiều thông tin ngữ cảnh hơn. Một số lượng ngẫu nhiên các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
được che bằng mặt nạ và mô hình phải tự khôi phục chúng.
Decoder
decoder
Bộ giải mã trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
từ GPT được sử dụng để tái tạo lại đầu vào bị nhiễu. Mặc dù vậy, các từ chỉ có thể sinh từ bên trái, mô hình không thể học được tương tác hai chiều. Hàm kích hoạt GeLU
GELU
Gaussian Error Linear Unit. Một hàm kích hoạt được sử dụng chính trong các mô hình Transformers như BERT của Google và GPT-2 của OpenAI.
được sử dụng thay thế cho ReLU. Kiến trúc cơ bản của BART sử dụng 6 tầng encoder
encoder
Bộ mã hóa trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
và decoder
decoder
Bộ giải mã trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
trong khi kiến trúc mở rộng sử dụng 12 tầng.
Các phương pháp để làm xáo trộn văn bản bao gồm:
- Mặt nạ (Token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
Masking): Như BERT, các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
được lấy ngẫu nhiên và thay thế bởi [MASK]. - Xóa token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
(Token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
Deletion): Các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
ngẫu nhiên được xóa khỏi xâu đầu vào, mô hình cần đoán được token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
nào bị xóa. - Điền văn bản (Text Infilling): Một vài đoạn văn bản ngẫu nhiên được thay thế bằng [MASK]. Đặc biệt, đoạn văn bản có thể là rỗng.
- Tráo câu ngẫu nhiên (Sentence Permutation): Văn bản được chia thành các câu và được tráo ngẫu nhiên.
- Xoay văn bản (Document Rotation): Một token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
được chọn ngẫu nhiên, văn bản được xoay để bắt đầu với token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
đó. Điều này giúp cho mô hình học được đâu và điểm bắt đầu của văn bản.
BART có thể được finetune
Finetune
Thuật ngữ này có thể được dịch là "Tinh chỉnh" - là một quá trình sử dụng một mô hình mạng đã được huấn luyện cho một nhiệm vụ nhất định để thực hiện một nhiệm vụ tương tự.
và áp dụng cho nhiều bài toán khác nhau như phân loại chuỗi, phân loại token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
, sinh chuỗi và dịch máy.
Hiệu quả của BERT và BART biến động trên các nhiệm vụ khác nhau, mặc dù vậy BART với nhiệm vụ điền vào văn bản luôn cho kết quả tốt. Bên cạnh đó, BART có kết quả khiến nhiều người phải ngạc nhiên trong nhiệm vụ tóm tắt. BART có thể sinh ra được đoạn tóm tắt mượt mà và đúng ngữ pháp.
Có thể nói BART là bước tiến mới trong NLP
NLP
Natural language processing - Xử lý ngôn ngữ tự nhiên là một lĩnh vực của khoa học máy tính và trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và con người thông qua ngôn ngữ.
với khả năng đọc hiểu và sinh văn bản.
Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website và theo dõi trang trên các mạng xã hội để luôn có thông tin cập nhật nhất về lĩnh vực.