ELECTRA — Efficiently Learning an Encoder that Classifies Token Replacements Accurately — là phương pháp pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
mới được công bố bởi Google AI vượt trội hơn các kỹ thuật hiện tại với cùng nguồn lực tính toán.
Gần đây các tiến bộ của các mô hình pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
đối với ngôn ngữ tự nhiên đã thay đổi tạo ra những đột phá đáng kể trong lĩnh vực này. Các mô hình hiện đại có thể kể đến như BERT, RoBERTa, XLNet, ALBERT, và T5, cũng như rất nhiều các biến thể khác. Các phương pháp này, dù khác biệt trong thiết kế nhưng sử dụng chung ý tưởng sử dụng một lượng lớn các dữ liệu không nhãn để tạo ra một mô hình ngôn ngữ tổng quát trước khi tinh chỉnh cho một nhiệm vụ cụ thể như sentiment analysis hay question answering.
Các phương pháp pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
hiện nay thường rơi vào một trong hai loại: Mô hình ngôn ngữ LM, như là GPT, xử lý đầu vào từ trái qua phải và dự đoán từ tiếp theo với ngữ cảnh đã cho, và mô hình ngôn ngữ mặt nạ (MLM
MLM
MLM (Masked Language Modeling) là một phương pháp huấn luyện được sử dụng trong BERT. Phương pháp này thay thế 15% số từ bằng token mặt nạ #. Mô hình cần phải học cách khôi phục từ gốc để có thể đưa ra dự đoán chính xác.
), như BERT, RoBERTa, và ALBERT, sẽ dự đoán một số từ bị che đi (đeo mặt nạ) trong chuỗi đầu vào. MLM
MLM
MLM (Masked Language Modeling) là một phương pháp huấn luyện được sử dụng trong BERT. Phương pháp này thay thế 15% số từ bằng token mặt nạ #. Mô hình cần phải học cách khôi phục từ gốc để có thể đưa ra dự đoán chính xác.
mang lại lợi thế trong việc sử dụng ngữ cảnh hai chiều thay vì chỉ đơn thuần từ trái qua phải. Mặc dù vậy, thay vì phải dự đoán tất cả các từ, các mô hình MLM
MLM
MLM (Masked Language Modeling) là một phương pháp huấn luyện được sử dụng trong BERT. Phương pháp này thay thế 15% số từ bằng token mặt nạ #. Mô hình cần phải học cách khôi phục từ gốc để có thể đưa ra dự đoán chính xác.
chỉ cần dự đoán một tập nhỏ (khoảng 15% số token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
) do đó với mỗi một câu, lượng thông tin học được sẽ hạn chế hơn.
Trong bài báo mới đây của Google “ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators”, các tác giả sử dụng một cách tiếp cận sử dụng được lợi thế của BERT nhưng học hiệu quả hơn. ELECTRA — Efficiently Learning an Encoder that Classifies Token Replacements Accurately — là phương pháp pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
mới vượt trội hơn các kỹ thuật hiện tại với cùng nguồn lực tính toán. Ví dụ, ELECTRA đạt kết quả của RoBERTa và XLNet trên bộ dữ liệu chuẩn GLUE dù sử dụng ít hơn 25% tài nguyên tính toán và đạt kết quả state-of-the-art
State-of-the-art
State-of-the-art là mức độ phát triển cao nhất của một công nghệ, một lĩnh vực khoa học, hoặc một thiết kế nào đó đạt được trong một khoảng thời gian nhất định.
trên bộ dữ liệu chuẩn SQuAD. Hiệu năng xuất sắc của ELECTRA cho thấy khả năng hoạt động tốt với kích thước nhỏ. Nó có thể được huấn luyện một vài ngày trên một GPU
GPU
GPU là viết tắt của Graphics Processing Unit là bộ xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho bộ xử lý trung tâm CPU.
và hoạt động tốt hơn GPT, một mô hình sử dụng tài nguyên tính toán gấp 30 lần. ELECTRA đã được công bố như một mô hình mã nguồn mở trên TensorFlow.
Giúp cho quá trình pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
nhanh hơn ELECTRA sử dụng một nhiệm vụ pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
mới mang tên phát hiện token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
bị thay thế (RTD). Nhiệm vụ này kết hợp cả hai điểm mạnh của các mô hình LM và MLM
MLM
MLM (Masked Language Modeling) là một phương pháp huấn luyện được sử dụng trong BERT. Phương pháp này thay thế 15% số từ bằng token mặt nạ #. Mô hình cần phải học cách khôi phục từ gốc để có thể đưa ra dự đoán chính xác.
. Lấy cảm hứng từ GAN, ELECTRA huấn luyện mô hình phân biệt giữa đầu vào “thật” và “giả”. Thay vì làm gián đoạn đầu vào với mặt nạ “[MASK]” như trong BERT, các tác giả thay thế một vài token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
thành các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
sai nhưng có vẻ hợp lý. Ví dụ, từ “cooked” (nấu ăn) sẽ được thay thế bằng từ “ate” (ăn). Mặc dù nó cũng có ý nghĩa nhưng rõ ràng là không khớp trong ngữ cảnh này. Nhiệm vụ này yêu cầu mô hình phải xác định xem các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
có bị thay thế hay không trên tất cả các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
thay vì chỉ 15% như BERT.
Việc thay thế các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
được thực hiện bởi một mạng nơ ron
Nơ ron
Một nơ ron hay tế bào thần kinh nhân tạo (còn được gọi là perceptron) là một hàm toán học. Nó là tổng của một hoặc nhiều yếu tố đầu vào được nhân với các trọng số. Giá trị này sau đó được chuyển đến một hàm phi tuyến tính, được gọi là hàm kích hoạt, để trở thành đầu ra của nơ ron.
khác là generator
generator
Một khái niệm trong mạng GAN, bộ sinh có vai trò sinh ra các mẫu giả tuân theo phân bố xác xuất mà nó học được từ dữ liệu thực tế.
. Các tác giả sử dụng một mô hình MLM
MLM
MLM (Masked Language Modeling) là một phương pháp huấn luyện được sử dụng trong BERT. Phương pháp này thay thế 15% số từ bằng token mặt nạ #. Mô hình cần phải học cách khôi phục từ gốc để có thể đưa ra dự đoán chính xác.
nhỏ làm bộ sinh (như là BERT với một lượng nhỏ nơ ron
Nơ ron
Một nơ ron hay tế bào thần kinh nhân tạo (còn được gọi là perceptron) là một hàm toán học. Nó là tổng của một hoặc nhiều yếu tố đầu vào được nhân với các trọng số. Giá trị này sau đó được chuyển đến một hàm phi tuyến tính, được gọi là hàm kích hoạt, để trở thành đầu ra của nơ ron.
lớp ẩn) được huấn luyện kết hợp với discriminator
discriminator
Là một khái niệm được sử dụng trong GAN. Đây là mạng có nhiệm vụ phát hiện xem một ví dụ được lấy từ dữ liệu huấn luyện hay được sinh ra từ mạng sinh của GAN.
. Cả generator
generator
Một khái niệm trong mạng GAN, bộ sinh có vai trò sinh ra các mẫu giả tuân theo phân bố xác xuất mà nó học được từ dữ liệu thực tế.
và discriminator
discriminator
Là một khái niệm được sử dụng trong GAN. Đây là mạng có nhiệm vụ phát hiện xem một ví dụ được lấy từ dữ liệu huấn luyện hay được sinh ra từ mạng sinh của GAN.
sử dụng chung word embedding
Word embedding
Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu thêm]
. Sau khi huấn luyện, generator
generator
Một khái niệm trong mạng GAN, bộ sinh có vai trò sinh ra các mẫu giả tuân theo phân bố xác xuất mà nó học được từ dữ liệu thực tế.
được loại bỏ và ELECTRA chỉ bao gồm discriminator
discriminator
Là một khái niệm được sử dụng trong GAN. Đây là mạng có nhiệm vụ phát hiện xem một ví dụ được lấy từ dữ liệu huấn luyện hay được sinh ra từ mạng sinh của GAN.
được finetune
Finetune
Thuật ngữ này có thể được dịch là "Tinh chỉnh" - là một quá trình sử dụng một mô hình mạng đã được huấn luyện cho một nhiệm vụ nhất định để thực hiện một nhiệm vụ tương tự.
cho các nhiệm vụ cụ thể. Kiến trúc của mô hình là transformer.
Kết quả của ELECTRA
Các tác giả so sánh ELECTRA với các mô hình state-of-the-art
State-of-the-art
State-of-the-art là mức độ phát triển cao nhất của một công nghệ, một lĩnh vực khoa học, hoặc một thiết kế nào đó đạt được trong một khoảng thời gian nhất định.
khác trong NLP
NLP
Natural language processing - Xử lý ngôn ngữ tự nhiên là một lĩnh vực của khoa học máy tính và trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và con người thông qua ngôn ngữ.
và thấy nó có sự cải thiện đáng kể.
Kiểm chứng tính hiệu quả của mô hình, các tác giả huấn luyện mô hình ELECTRA thu nhỏ trên một GPU
GPU
GPU là viết tắt của Graphics Processing Unit là bộ xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho bộ xử lý trung tâm CPU.
trong 4 ngày. Mặc dù không đạt được độ chính xác như mô hình yêu cầu nhiều TPU, ELECTRA-small vẫn hoạt động khác tốt, thậm chí tốt hơn GPT, một mô hình cần tài nguyên tính toán gấp 30 lần.
Cuối cùng, để thấy được ảnh hưởng của độ lớn mô hình, các tác giả huấn luyện ELECTRA với tài nguyên tương tự huấn luyện RoBERTa và bằng 10% của T5). Mô hình này đạt SOTA
SOTA
SOTA (State-of-the-art) là mức độ phát triển cao nhất của một công nghệ, một lĩnh vực khoa học, hoặc một thiết kế nào đó đạt được trong một khoảng thời gian nhất định.
trên SQuAD 2.0, tốt hơn RoBERTa, XLNet, và ALBERT trên GLUE. Mặc dù T5-11b có kết quả cao hơn trên GLUE, ELECTRA nhỏ hơn 30 lần và chỉ cần 10% nguồn lực tính toán.
Mô hình
Squad 2.0 test set
ELECTRA-Large
88.7
ALBERT-xxlarge
88.1
XLNet-Large
87.9
RoBERTa-Large
86.8
BERT-Large
80.0
Kết quả trên SQUAD 2.0, chỉ so sánh các mô hình không phải ensemble
Ensemble
Ensemble là khái niệm trong học máy, phương pháp này giúp cải thiện kết quả bằng cách sử dụng nhiều mô hình kết hợp với nhau để cùng giải quyết một vấn đề.
.
Công bố ELECTRA Các tác giả đã công bố mã nguồn cho cả pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
và finetune
Finetune
Thuật ngữ này có thể được dịch là "Tinh chỉnh" - là một quá trình sử dụng một mô hình mạng đã được huấn luyện cho một nhiệm vụ nhất định để thực hiện một nhiệm vụ tương tự.
ELECTRA. Các nhiệm vụ hiện được hỗ trợ là phân loại văn bản, trả lời câu hỏi và gán nhãn chuỗi. Code hỗ trợ huấn luyện ELECTRA trên GPU
GPU
GPU là viết tắt của Graphics Processing Unit là bộ xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho bộ xử lý trung tâm CPU.
. Các trọng số của ELECTRA-Large, ELECTRA-Base, và ELECTRA-Small cũng được công bố.
Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website hoặc tham gia các cộng đồng của chúng tôi trên các mạng xã hội để có được những thông tin mới nhất về lĩnh vực.