Performer là một biến thể của Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
mở rộng attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
một cách tuyến tính, cho phép huấn luyện nhanh hơn và cho phép mô hình làm việc trên độ dài lớn hơn.
Các mô hình Transformer đã mang lại kết quả state-of-the-art
State-of-the-art
State-of-the-art là mức độ phát triển cao nhất của một công nghệ, một lĩnh vực khoa học, hoặc một thiết kế nào đó đạt được trong một khoảng thời gian nhất định.
trên đa dạng các lĩnh vực bao gồm ngôn ngữ tự nhiên, hội thoại, ảnh và thậm chí là âm nhạc. Thành phần cốt yếu của tất cả các kiến trúc Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
là mô đun attention, có nhiệm vụ tính sự liên quan giữa các cặp vị trí trong câu đầu vào. Mặc dù vậy, cách tiệp cận này khó có thể mở rộng khi độ dài của đầu vào lớn. Cụ thể, thời gian và bộ nhớ để tính tất cả sự tương đồng của các vị trí sẽ tăng theo lũy thừa bậc 2.
Trong thực tế, các ứng dụng luôn cần attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
trên câu dài. Do đó các giải pháp tăng cường tốc độ và bộ nhớ đã được đề xuất như các kỹ thuật caching hoặc sử dụng attention thưa. Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
thưa chỉ tính toán độ tương tự trên một số cặp lựa chọn chứ không tính trên toàn bộ các cặp có thể có trong chuỗi đầu vào. Do đó, kết quả của phương pháp này là một ma trận thưa hơn so với attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
đầy đủ.
Đầu vào của attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
thưa có thể được cài đặt thủ công, tìm kiếm bằng các phương pháp tối ưu hóa, học từ dữ liệu hoặc thậm chí là khởi tạo ngẫu nhiên. Một số ví dụ của các phương pháp này là Sparse Transformers, Longformers, Routing Transformers, Reformers, và Big Bird. Vì các ma trận thưa có thể được biểu diễn bởi đồ thị, phương pháp làm thưa được lấy cảm hứng từ mạng nơ ron đồ thị với các quan hệ cụ thể được attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
. Kiến trúc thưa như vậy thường đòi hỏi các tầng bổ sung để có thể tạo ra ma trận attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
đầy đủ.
Bên cạnh ưu điểm, phương pháp làm thưa vẫn có một số hạn chế. (1) Chúng đòi hỏi các phép toán nhân ma trận thưa hiệu quả, đôi khi các phép toán này không được hỗ trợ; (2) Chúng thường không được đảm bảo chặt chẽ bởi lý thuyết; (3) Chúng thường chủ yếu tối ưu cho Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
và các mô hình sinh pretraining; (4) Chúng thường chồng nhiều tầng attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
để khắc phục biểu diễn thưa, do đó khó có thể phối hợp với một mô hình pretrain
pretrain
Có thể dịch là huấn luyện trước (đào tạo trước). Mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công sức huấn luyện mô hình từ đầu. Mô hình sau đó có thể được huấn luyện thêm để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trực tiếp trong bài toán học máy.
khác. Bên cạnh đó, attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
thưa không đủ để giải quyết nhiều bài toán mà attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
thông thường có thể giải quyết, như là Pointer Network. Có những phép toán không thể thưa hóa và cũng không thể thay thế, như hàm softmax, hiện đang được sử dụng nhiều trong các hệ gợi ý thực tế trong công nghiệp.
Để giải quyết vấn đề trên, các tác giả đề xuất Performer, một kiến trúc Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
có thể mở rộng attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
một cách tuyến tính, cho phép huân luyện nhanh hơn và cho phép mô hình làm việc trên độ dài lớn hơn. Mô hình này cần thiết cho các dataset
Dataset
Bộ dữ liệu - Một tập các thông tin về các thực thể (thường có cùng kiểu, có liên quan đến nhau) là đối tượng của một bài toán hoặc nhiệm vụ học máy.
như ImageNet64 hay PG-19. Performer sử dụng một framework
Framework
Trong lập trình, framework là một "bộ khung" chứa các thư viện thực hiện các chức năng cơ bản cho một nhiệm vụ lập trình cụ thể. Sử dụng framework giúp tăng tốc và chuẩn hóa quá trình lập trình.
attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
tổng quát hiệu quả (tuyến tính), cho phép phối hợp các cơ chế attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
dựa trên các phép đo tương tự khác nhau (gọi là các kernel
Kernel
Kernel là một hàm ánh xạ dữ liệu từ không gian ít nhiều hơn sang không gian nhiều chiều hơn. Đây là kỹ thuật quan trọng trong SVM.
). Framework
Framework
Trong lập trình, framework là một "bộ khung" chứa các thư viện thực hiện các chức năng cơ bản cho một nhiệm vụ lập trình cụ thể. Sử dụng framework giúp tăng tốc và chuẩn hóa quá trình lập trình.
được cài đặt bởi thuật toán FAVOR+. Độ chính xác của phương pháp này được đảm bảo trong khi duy trì độ phức tạp (thời gian + bộ nhớ) tuyến tính và có thể ứng dụng cho một phép toán softmax
Softmax
Trong toán học, hàm softmax, còn được gọi là hàm mũ mềm hoặc hàm mũ chuẩn hóa, là hàm nhận vào một vectơ của chứa K số thực và chuẩn hóa nó thành phân phối xác suất chứa K xác suất tỷ lệ thuận với lũy thừa của các số đầu vào.
độc lập.
Đối với cơ chế attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
gốc, query và key là hàng và cột của ma trận, được nhân vào nhau và truyền qua softmax
Softmax
Trong toán học, hàm softmax, còn được gọi là hàm mũ mềm hoặc hàm mũ chuẩn hóa, là hàm nhận vào một vectơ của chứa K số thực và chuẩn hóa nó thành phân phối xác suất chứa K xác suất tỷ lệ thuận với lũy thừa của các số đầu vào.
để tạo nên ma trận attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
, lưu trữ các giá trị về độ tương tự. Phương pháp này không thể khôi phục được các giá trị query và key khi đã truyền qua hàm softmax
Softmax
Trong toán học, hàm softmax, còn được gọi là hàm mũ mềm hoặc hàm mũ chuẩn hóa, là hàm nhận vào một vectơ của chứa K số thực và chuẩn hóa nó thành phân phối xác suất chứa K xác suất tỷ lệ thuận với lũy thừa của các số đầu vào.
. Mặc dù vậy, ma trận attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
có thể được phân giải thành tích của các hàm phi tuyến tính của các query và key, giúp mã hóa thông tin về độ tương tự một cách hiệu quả hơn. Đây là ý tưởng chính để giảm độ phức tạp khi tính attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
.
Phương pháp phân tích ma trận trên giúp lưu trữ ma trận attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
một cách gián tiếp với bộ nhớ tuyến tính, thay vì bình phương. Trong khi cơ chế attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
gốc nhân ma trận attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
với value để có được kết quả cuối cùng, ta có thể thực hiện nhân ma trận theo một cách khác với các ma trận con được phân tích. Theo đó, thời gian thực hiện cũng chỉ ở mức tuyến tính.
Phân tích trên đúng với attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
hai chiều, tức là không có ký hiệu cho các token
Token
NLP - Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm.
Blockchain - Token là một loại tài sản kỹ thuật số được phát hành và hoạt động trên một nền tảng Blockchain của các dự án có sẵn mà không sở hữu Blockchain riêng.
trước và sau. Đối với attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
một chiều, các tác giả điều chỉnh cách tiếp cận, sử dụng mảng cộng dồn, chỉ lưu trữ tổng hiện tại của các phép toán trên ma trận.
Các thực nghiệm trên Performer cho thấy độ phức tạp tính toán và bộ nhớ tối ưu hơn Transfomer. Bên cạnh đó, Performer cũng cần ít bước tối ưu để đạt độ chính xác bão hòa.
Để có thể tìm hiểu sâu về Performer, bạn có thể đọc paper, tải code, hoặc vọc code ứng dụng Performer vào bài toán Protein Language Modeling.
Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website hoặc đăng ký (dưới chân trang) để có được những thông tin cập nhật và chuyên sâu về lĩnh vực.