Site icon Trí tuệ nhân tạo

XLNet – Người khổng lồ thay thế vị trí của BERT

Năm 2018, Google giới thiệu BERT, mô hình học sâu pre-trained lập kỷ lục với 11 kết quả state-of-the-art với các nhiệm vụ của Xử lý ngôn ngữ tự nhiên . Nó nhanh chóng nhận được sự quan tâm lớn của các nhà khoa học và công nghiệp trên toàn thế giới. Các công trình nghiên cứu sử dụng BERT tăng nhanh chưa từng thấy. Khi thế giới chưa hết kinh ngạc về BERT thì một mô hình pre-trained mới vượt trội hơn BERT đã xuất hiện. Nó mang tên XLNet.

Tháng 6 vừa rồi, các nhà nghiên cứu từ trường Đại học Carnegie Mellon hợp tác với Google Brain đã giới thiệu một mô hình pre-trained mới mang tên XLNet. Thông qua thực nghiệm, mô hình này cho kết quả vượt trội hơn BERT trong 20 nhiệm vụ trong trong đó có SQuAD, GLUE, và RACE.

Theo các tác giả, các mô hình pre-trained được xây dựng dựa trên phương pháp tự mã hóa khử nhiễu (AE ) giúp giữ được thông tin về ngữ cảnh hai chiều tốt hơn những mô hình sử dụng phương pháp tự hồi quy (AR ). Mặc dù vậy, trong phương pháp của mình, BERT phải giấu đi 15% số từ trong chuỗi đầu vào, điều này làm mất thông tin về quan hệ giữa các từ. Do đó có một sự khác biệt lớn giữa mô hình pre-trained và các phiên bản fine-tuning của nó.

Khắc phục vấn đề này, XLNet được xây dựng dựa trên phương pháp tự hồi quy (AR ) tổng quát. Một cách dễ hiểu hơn, XLNet có thể thực hiện những việc sau:

  1. Học thông tin ngữ cảnh hai chiều sử dụng MLE với tất cả các chuỗi nhân tố có thể;
  2. Khắc phục những nhược điểm của BERT bằng phương pháp tự hồi quy.

Không chỉ vậy, XLNet cũng kết hợp tất cả các ưu điểm của mô hình tự hồi quy tốt nhất hiện nay, Transformer-XL.

Như một kết quả tất yếu, XLNet vượt qua BERT trên 20 nhiệm vụ và trở thành phương pháp state-of-the-art đối với 18 nhiệm vụ, bao gồm QA , NLI , phân tích tình cảm và xếp hạng tài liệu.

Các mô hình vượt qua BERT trong những tháng gần đây đơn thuần là những sửa đổi trên cơ sở của người khổng lồ này. Mặc dù vậy, về bản chất thì kiến trúc mô hình và các nhiệm vụ không có nhiều sự thay đổi. Với cách tiếp cân khác, các tác giả của XLNet phân tích ưu và nhược của mô hình pre-trained dựa trên tự hồi quy (AR ) và tự mã hóa (AE ) và đề xuất ra mô hình vượt trội này với hi vọng có thể kết hợp được tất cả những ưu điểm tốt nhất của hai phương pháp.

Thực tế, XLNet đã làm được điều đó. Nó là sự kết hợp những ưu điểm tốt nhất và hạn chế nhược điểm của cả hai mô hình AR AE . Cụ thể như sau:

Ngoài ra, XLNet cũng được cải tiến về thiết kế của kiến trúc cho việc huấn luyện mô hình:

Để hiểu rõ hơn về dự khác biệt giữa BERT và XLNet, ta hãy cùng xem xét ví dụ sau:

[New, York, is, a, city]

Giả sử, cả hai mô hình BERT và XLNet đều lựa chọn hai token [New, York] là mục tiêu dự đoán và đều sử dụng MLE để tối đa hóa log p(New York | is a city). Và giả sử thêm rằng, XLNet lấy mẫu thứ tự của các nhân tố là [is, a, city, New, York].

Trong trường hợp này, BERT và XLNet có các hàm mục tiêu như sau:

Lưu ý rằng, XLNet có thể ghi nhớ được sự phụ thuộc của cặp token (New, York), nhưng BERT không thể. Mặc dù trong ví dụ này, BERT có thể học được một số cặp như (New, city) hay (York, city), nhưng vẫn ít hơn số cặp phụ thuộc mà XLNet học được. Do đó, với cùng một dữ liệu huấn luyện, XLNet có thể nhận được nhiều tín hiệu hơn.

Bảng kết quả so sánh

Mô hình XLNet cho kết quả vượt trội kết quả của con người cũng như những mô hình Ensemble tốt nhất trên SQuAD 1.1 và 2.0.

Với bộ dữ liệu RACE, XLNet vượt trội hơn so với mô hình Ensemble tốt nhất với 7.6% độ chính xác. Điều này tương đương với một học sinh cải thiện được điểm số từ B lên A.

Bạn có thể tải mô hình Pre-trained và Code của XLNet tại đây.


Sau BERT, NLP ngày càng có nhiều những nghiên cứu mang tính đột phá hơn, đặc biệt trong năm 2019. Với đà này, chúng ta sẽ chứng kiến các cỗ máy có khả năng hiểu ngôn ngữ của con người trong thời gian rất ngắn.

Bạn đã sẵn sàng? Hãy theo dõi https://trituenhantao.io/ để có thêm nhiều bài viết về chủ đề này nhé!

Exit mobile version