Các mô hình seq2seq
Seq2Seq
Sequence to sequence - Từ chuỗi sang chuỗi. Thuật ngữ này chỉ một lớp các bài toán hoặc các kiến trúc mô hình có đầu vào và đầu ra là một chuỗi các phần tử.
sẽ trở nên mạnh mẽ hơn nếu được trang bị cơ chế sao chép. Các mô hình này được tác giả gọi là CopyNet. Ý tưởng của chúng khá rõ ràng, trong các bản dịch máy, các từ mang tính thuật ngữ hoặc tên riêng sẽ được giữ nguyên gốc. Trong quá trình hội thoại tự nhiên của con người, chúng ta đôi khi lặp lại những từ / cụm từ xuất hiện trong câu nói của người đối diện. Trong bài viết này, hãy cùng trituenhantao.io tìm hiểu về ý tưởng của cơ chế sao chép này.
Đối với con người, để tăng hiệu quả diễn đạt, chúng ta có thể chèn các thuật ngữ hoặc các cụm từ đã xuất hiện trong hội thoại vào câu văn của mình một cách khá dễ dàng. Mặc dù vậy, để một mô hình học máy làm được việc đó là một nhiệm vụ không hề đơn giản. Một khi cơ chế này được sử dụng, các câu văn do máy móc sinh ra sẽ tự nhiên nhiên và một trong những lợi thế rõ ràng của cơ chế sao chép là khả năng giải quyết vấn đề out of vocab
Out of vocab
Out-of-Vocabulary (OVV) là hiện tượng trong xử lý ngôn ngữ tự nhiên, khi mô hình gặp phải những từ vựng không nằm trong tập ngữ liệu mà nó được huấn luyện. Để mô hình vẫn có thể hoạt động được (không bug), một token đặc biệt (thường đặt tên là UNK) sẽ được dùng để biểu diễn chung tất cả các từ này.
, một vấn đề phổ biến trong NLP
NLP
Natural language processing - Xử lý ngôn ngữ tự nhiên là một lĩnh vực của khoa học máy tính và trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và con người thông qua ngôn ngữ.
.
CopyNet cũng kế thừa ý tưởng attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
trong các mô hình seq2seq
Seq2Seq
Sequence to sequence - Từ chuỗi sang chuỗi. Thuật ngữ này chỉ một lớp các bài toán hoặc các kiến trúc mô hình có đầu vào và đầu ra là một chuỗi các phần tử.
. Bạn có thể đọc thêm về attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
tại đây. Đây là cơ chế giúp các mô hình dịch chuỗi có thể giữ được hiệu suất khi chiều dài của câu đầu vào tăng lên. Thay vì nén toàn bộ thông tin của câu vào một véc tơ ngữ cảnh duy nhất, cơ chế attention
Attention
Có thể dịch nôm là Cơ chế chú ý. Đây là kỹ thuật dựa trên khái niệm về sự chú ý trong nhận thức của con người, kỹ thuật này giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu.
giúp mô hình tập trung vào các thành phần của câu để đưa ra kết quả tốt hơn.
CopyNet kế thừa kiến trúc encoder-decoder
encoder-decoder
Kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được decoder sử dụng để sinh chuỗi đầu ra.
cơ bản, sử dụng bộ mã hóa RNN
RNN
Mạng nơ ron hồi quy (RNN) là một lớp các mạng nơ ron nhân tạo trong đó đầu ra từ bước trước được cung cấp làm đầu vào cho bước hiện tại.
hai chiều, Bộ giải mã đọc thông tin từ bộ mã hóa và dự đoán câu kết quả.
Điểm đặc biệt của CopyNet nằm ở cách bộ giải mã hoạt động. Các từ được dự đoán dựa trên mô hình xác suất kết hợp hai chế độ: chế độ sinh và chế độ sao chép. Chế độ sinh được sử dụng lại từ các kiến trúc cơ bản. Chế độ sao chép chọn các từ trong chuỗi đầu vào bằng cách sử dụng các trạng thái ẩn trong véc tơ ngữ cảnh từ bộ mã hóa. Việc lựa chọn chế độ nào được học thông qua một lớp đánh giá với softmax
Softmax
Trong toán học, hàm softmax, còn được gọi là hàm mũ mềm hoặc hàm mũ chuẩn hóa, là hàm nhận vào một vectơ của chứa K số thực và chuẩn hóa nó thành phân phối xác suất chứa K xác suất tỷ lệ thuận với lũy thừa của các số đầu vào.
.
Để xác nhận hiệu quả của kiến trúc này, các tác giả sử dụng CopyNet trong ba nhiệm vụ khác nhau: sử dụng cơ chế sao chép để giải quyết OOV
OOV
Out-of-Vocabulary (OVV) là hiện tượng trong xử lý ngôn ngữ tự nhiên, khi mô hình gặp phải những từ vựng không nằm trong tập ngữ liệu mà nó được huấn luyện. Để mô hình vẫn có thể hoạt động được (không bug), một token đặc biệt (thường đặt tên là UNK) sẽ được dùng để biểu diễn chung tất cả các từ này.
, tóm tắt văn bản và hội thoại đơn giản. Trong các thực nghiệm này, CopyNet có thể sao chép chính xác các phân đoạn quan trọng và sinh ra phần còn lại của câu trả lời một cách trơn tru.