Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
là một kỹ thuật hiện đại trong các mạng nơ ron
Nơ ron
Một nơ ron hay tế bào thần kinh nhân tạo (còn được gọi là perceptron) là một hàm toán học. Nó là tổng của một hoặc nhiều yếu tố đầu vào được nhân với các trọng số. Giá trị này sau đó được chuyển đến một hàm phi tuyến tính, được gọi là hàm kích hoạt, để trở thành đầu ra của nơ ron.
nhân tạo. Kỹ thuật này đã chứng minh được tính hiệu quả trong các nhiệm vụ dịch máy hay xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên
Tiếng Anh là Natural Language Processing, viết tắt là NLP là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp.
. Nó cũng là một trong số những thành phần tạo nên đột phá trong các mô hình như BERT hay GPT-2. Trong bài viết này, hãy cùng trituenhantao.io tìm hiểu sâu hơn kỹ thuật này.
Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
là thành phần tạo nên sự khác biệt chính của mô hình đình đám Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
. Mô hình này tạo nên sự đột phá trong các bài toán của NLP
NLP
Natural language processing - Xử lý ngôn ngữ tự nhiên là một lĩnh vực của khoa học máy tính và trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và con người thông qua ngôn ngữ.
so với các mạng nơ ron
Nơ ron
Một nơ ron hay tế bào thần kinh nhân tạo (còn được gọi là perceptron) là một hàm toán học. Nó là tổng của một hoặc nhiều yếu tố đầu vào được nhân với các trọng số. Giá trị này sau đó được chuyển đến một hàm phi tuyến tính, được gọi là hàm kích hoạt, để trở thành đầu ra của nơ ron.
hồi quy trước nó. Chúng khác nhau ở cách xử lý đầu vào và cách nhóm các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
liên quan.
Mạng nơ ron hồi quy và LSTM
Chúng ta sử dụng các từ như thế nào? Một cách đơn giản, ta nối chúng thành một chuỗi, từ này nối tiếp từ kia. Để biểu diễn chuỗi này trong không gian véc tơ, chúng ta cần tối thiểu hai chiều, một chiều biểu diễn các từ khác nhau và một chiều biểu diễn thời gian. Lý do là chúng ta cần các từ khác nhau xuất hiện trong các thời điểm khác nhau để diễn đạt ý tưởng của chúng ta bằng ngôn ngữ. Sẽ thế nào nếu như bạn chỉ được diễn đạt ý tưởng của mình với một từ (hoặc là được sử dụng tất cả các từ với duy nhất một lần phát âm)?!!
Mạng nơ ron
Nơ ron
Một nơ ron hay tế bào thần kinh nhân tạo (còn được gọi là perceptron) là một hàm toán học. Nó là tổng của một hoặc nhiều yếu tố đầu vào được nhân với các trọng số. Giá trị này sau đó được chuyển đến một hàm phi tuyến tính, được gọi là hàm kích hoạt, để trở thành đầu ra của nơ ron.
hồi quy (RNN
RNN
Mạng nơ ron hồi quy (RNN) là một lớp các mạng nơ ron nhân tạo trong đó đầu ra từ bước trước được cung cấp làm đầu vào cho bước hiện tại.
) là mô hình sớm ra đời để xử lý thông tin tạo nên bởi các chuỗi từ. Mô hình sẽ đi từ đầu đến cuối chuỗi để có được thông tin liên kết giữa các từ. Mặc dù tiên phong trong xử lý chuỗi nhưng vì tiếp nhận đầu vào một cách không có chọn lọc nên mô hình này gặp phải vấn đề Vanishing Gradient
Vanishing Gradient
Là vấn đề xảy ra khi huấn luyện các mạng nơ ron nhiều lớp. Khi huấn luyện, giá trị đạo hàm là thông tin phản hồi của quá trình lan truyền ngược. Giá trị này trở nên vô cùng nhỏ tại các lớp nơ ron đầu tiên khiến cho việc cập nhật trọng số mạng không thể xảy ra.
. RNN
RNN
Mạng nơ ron hồi quy (RNN) là một lớp các mạng nơ ron nhân tạo trong đó đầu ra từ bước trước được cung cấp làm đầu vào cho bước hiện tại.
bị lãng quên cho đến khi các biến thể của nó là LSTM
LSTM
Viết tắt của Long-short term memory, là một kiến trúc mạng nơ ron hồi quy nhân tạo được sử dụng trong deep learning. Không giống như các mạng truyền thẳng tiêu chuẩn, LSTM có các kết nối phản hồi. Nó không chỉ có khả năng xử lý các điểm dữ liệu đơn lẻ mà còn xử lý toàn bộ chuỗi dữ liệu mà không gặp phải vấn đề vanishing gradient.
và GRU
GRU
Viết tắt của Gated recurrent units, là một cơ chế gating trong các mạng nơ ron hồi quy, được giới thiệu vào năm 2014 bởi nhóm của Kyunghyun Cho. GRU giống với LSTM nhưng có ít thông số hơn, vì kiến trúc này không có cổng đầu ra.
ra đời giúp tăng cường khả năng ghi nhớ và hiệu quả của mô hình. Mặc dù vậy, khi Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
tham gia vào cuộc chơi, những cải tiến đó là không đủ để cứu vãn số phận của các mô hình dựa trên RNN
RNN
Mạng nơ ron hồi quy (RNN) là một lớp các mạng nơ ron nhân tạo trong đó đầu ra từ bước trước được cung cấp làm đầu vào cho bước hiện tại.
.
Attention và self-attention
Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
nhận vào hai câu, chuyển chúng thành một ma trận với hàng và cột tương ứng với các từ trong hai câu đầu vào. Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
sẽ khớp các từ của câu này với từ tương ứng ở câu kia để tập trung vào các từ có liên kết mạnh của hai câu. Tính hợp lý của cách tiếp cận này có thể thấy rõ ràng trong dịch máy, bên cạnh ý nghĩa của toàn câu, mô hình cần “chú ý” vào các từ để học được cách dịch tự nhiên nhất.
Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
không bị giới hạn trong việc tìm tương quan giữa các từ trong các câu ở hai ngôn ngữ khác nhau. Chúng ta có thể tạo ra ma trận với hàng và cột là cùng một câu để hiểu những phần nào của câu sẽ liên quan đến nhau. Kỹ thuật này được gọi là “self-attention
Self-attention
Là cơ chế attention liên quan đến các vị trí khác nhau của một chuỗi để tính toán biểu diễn của chuỗi đó.
”, mặc dù vậy, vì nó quá phổ biến nên người ta thường gọi tắt nó là attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
.
Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
cho phép mô hình quan sát câu một cách trọn vẹn và nối các từ với ngữ cảnh liên quan đến chúng. Bằng cách này, attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
có thể sử dụng thông tin tạo bởi mối quan hệ của các từ dù chúng nằm ở cách xa nhau.
Transformer và multi-headed attention
Ngôn ngữ của con người là một dạng thức rất phức tạp. Cùng một từ, trong mối liên kết với các từ khác nhau thì có ý nghĩa khác nhau. Do đó, để mô hình có thể hoạt động tốt với ngôn ngữ tự nhiên, nó cần có kiến trúc đủ linh hoạt. Sự ra đời của Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
với kiến trúc sử dụng attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
đã tạo nên đột phá trong NLP
NLP
Natural language processing - Xử lý ngôn ngữ tự nhiên là một lĩnh vực của khoa học máy tính và trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và con người thông qua ngôn ngữ.
.
Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
sử dụng attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
để tổng hợp các thông tin về ngữ cảnh tương ứng với một từ và mã hóa ngữ cảnh đó trong chính vector của từ đó. Đây là cách biểu diễn từ một cách thông minh hơn so với các cách biểu diễn truyền thống. Với attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
, mô hình có thể học ra được ngữ cảnh của từ ở những phần có liên quan, không quan trọng nó ở gần hay cách xa vị trí của từ trong câu. Với thông tin đó, mô hình có thể hiểu được ý nghĩa của từ và vai trò của nó trong câu.
Trong kiến trúc khá phổ biến của Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
, đối với mỗi từ, chúng ta có một khóa K, giá trị V và truy vấn Q. Truy vấn Q sẽ tìm kiếm trong các giá trị khóa K của tất cả các từ để tìm ra ứng viên cung cấp ngữ cảnh cho nó (thông qua tích vô hướng). Cuối cùng, ta có ma trận đầu ra của lớp attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
:
Một từ có thể có nhiều nghĩa và kết nối với các từ khác theo những cách rất đa dạng, do đó mỗi từ có thể có nhiều bộ Q-K-V liên kết với nó. Kiến trúc này có tên gọi là multi-headed attention
Multi-headed attention
Là cơ chế sử dụng nhiều đầu self-attention để có thể học ra những tầng ý nghĩa khác nhau của các tổ hợp tạo bởi các từ trong câu.
. Mỗi ma trận self-attention
Self-attention
Là cơ chế attention liên quan đến các vị trí khác nhau của một chuỗi để tính toán biểu diễn của chuỗi đó.
được tính toán riêng rẽ trên toàn bộ câu để học ra những tầng ngữ nghĩa khác nhau trước khi được kết hợp với nhau bởi một ma trận trọng số.
Lời kết
Hi vọng thông qua bài viết này, các bạn đã hiểu thêm về kỹ thuật Attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
, đây là một kỹ thuật quan trọng trong các mô hình Transformer
Transformer
Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).
như BERT hay GPT-2. Mặc dù vậy, bên cạnh attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
, các mô hình này còn được tích hợp các kỹ thuật cao cấp khác. Xin mời các bạn đón đọc trong các bài viết có liên quan.