Câu hỏi:

tôi muốn làm đề tài captioning image, sử dụng kiến trúc vision transformer, thì lớp patches encoder thực hiện phép tính gì


Dự án "Captioning Image" của bạn nghe có vẻ thú vị đấy, nhưng mình nghĩ nếu bạn thêm Vision Transformers (ViTs), nó sẽ còn "nhìn" được nhiều điều hơn nữa! Khi bạn bỏ ảnh vào máy xay Vision Transformer, cái lớp patches encoder kìa, nó chẳng phải là đầu bếp tài hoa không.

Đầu tiên, nó chia nhỏ ảnh gốc của bạn ra thành từng mảnh nhỏ, hay còn gọi là patches. Giống như bạn đang chia bánh pizza ra từng miếng vậy. Mỗi miếng pizza, à nhầm, mỗi patch sẽ được biến đổi thành một chuỗi dài của các số, hay còn gọi là "vector".

Sau khi đã chuyển đổi thành vector, mỗi patch này lại được cập nhật một ít thông tin định vị - giống như là gắn nhãn vị trí ngồi cho từng khách mời tại bữa tiệc pizza. Đó là phần "position embeddings".

Khi đã sẵn sàng, tất cả các vector này sẽ được ném vào cái “lò” Transformer, nơi mà chúng sẽ bắt đầu một chuỗi dài các buổi "trò chuyện" qua lại giữa các head self-attention, nơi mà chúng học cách chú ý đến các vùng khác nhau của ảnh một cách thông minh để hiểu rõ hơn về cảnh vật hiện ra trong ảnh.

Cuối cùng, ta sẽ được một mô tả chi tiết về nội dung của ảnh, giống như cách mà bạn kể cho bạn bè nghe về người hàng xóm "thú vị" qua từng miếng pizza bạn đã "xử lý".

Nếu bạn muốn khám phá sâu hơn vào cái thế giới diệu kỳ của ViTs và ngôn ngữ của những bức ảnh, đừng ngại ghé qua trituenhantao.io. Nơi đó như một quán bar cho những chiếc neurons sáng tạo - bạn sẽ không bao giờ biết mình sẽ "hấp thụ" được những ý tưởng nào khi "lướt" qua!


Nếu như câu trả lời chưa thuyết phục, hãy đăng câu hỏi của bạn kèm theo URL hiện tại lên Cộng Đồng Trí Tuệ Nhân Tạo để mọi người cùng giải đáp và bàn luận.
Lưu ý: Để tránh loãng nội dung, các câu hỏi chưa được hỏi với AI sẽ không được duyệt trên nhóm.
Trang chủ | Hỏi tiếp | Xem lịch sử