Cơ chế sao chép trong CopyNet

Các mô hình seq2seq sẽ trở nên mạnh mẽ hơn nếu được trang bị cơ chế sao chép. Các mô hình này được tác giả gọi là CopyNet. Ý tưởng của chúng khá rõ ràng, trong các bản dịch máy, các từ mang tính thuật ngữ hoặc tên riêng sẽ được giữ nguyên gốc. Trong quá trình hội thoại tự nhiên của con người, chúng ta đôi khi lặp lại những từ / cụm từ xuất hiện trong câu nói của người đối diện. Trong bài viết này, hãy cùng trituenhantao.io tìm hiểu về ý tưởng của cơ chế sao chép này.

Đối với con người, để tăng hiệu quả diễn đạt, chúng ta có thể chèn các thuật ngữ hoặc các cụm từ đã xuất hiện trong hội thoại vào câu văn của mình một cách khá dễ dàng. Mặc dù vậy, để một mô hình học máy làm được việc đó là một nhiệm vụ không hề đơn giản. Một khi cơ chế này được sử dụng, các câu văn do máy móc sinh ra sẽ tự nhiên nhiên và một trong những lợi thế rõ ràng của cơ chế sao chép là khả năng giải quyết vấn đề out of vocab, một vấn đề phổ biến trong NLP.

CopyNet cũng kế thừa ý tưởng attention trong các mô hình seq2seq. Bạn có thể đọc thêm về attention tại đây. Đây là cơ chế giúp các mô hình dịch chuỗi có thể giữ được hiệu suất khi chiều dài của câu đầu vào tăng lên. Thay vì nén toàn bộ thông tin của câu vào một véc tơ ngữ cảnh duy nhất, cơ chế attention giúp mô hình tập trung vào các thành phần của câu để đưa ra kết quả tốt hơn.

CopyNet kế thừa kiến trúc encoder-decoder cơ bản, sử dụng bộ mã hóa RNN hai chiều, Bộ giải mã đọc thông tin từ bộ mã hóa và dự đoán câu kết quả.

Kiến trúc CopyNet (hình ảnh từ bài báo)

Điểm đặc biệt của CopyNet nằm ở cách bộ giải mã hoạt động. Các từ được dự đoán dựa trên mô hình xác suất kết hợp hai chế độ: chế độ sinh và chế độ sao chép. Chế độ sinh được sử dụng lại từ các kiến trúc cơ bản. Chế độ sao chép chọn các từ trong chuỗi đầu vào bằng cách sử dụng các trạng thái ẩn trong véc tơ ngữ cảnh từ bộ mã hóa. Việc lựa chọn chế độ nào được học thông qua một lớp đánh giá với softmax.

Để xác nhận hiệu quả của kiến trúc này, các tác giả sử dụng CopyNet trong ba nhiệm vụ khác nhau: sử dụng cơ chế sao chép để giải quyết OOV, tóm tắt văn bản và hội thoại đơn giản. Trong các thực nghiệm này, CopyNet có thể sao chép chính xác các phân đoạn quan trọng và sinh ra phần còn lại của câu trả lời một cách trơn tru.

Bạn muốn trích dẫn bài này:
-----
"Cơ chế sao chép trong CopyNet," Trí tuệ nhân tạo, Ngày xuất bản: 18/01/2020, URL: https://trituenhantao.io/kien-thuc/co-che-sao-chep-trong-copynet/, Ngày truy cập: 19/04/2024.