Câu hỏi:

vậy input output của bài toán Image Captioning này là gì, có chiều thế nào, khi inference thế nào


Bài toán Image Captioning liên quan đến xử lý hình ảnh và ngôn ngữ tự nhiên. Mục đích là để tạo ra một mô tả ngắn gọn, mang tính chất tổng hợp về nội dung trong hình ảnh.

Khi inference, hình ảnh sẽ đi qua một mô hình (thường là một mạng CNN) để trích xuất đặc trưng. Đặc trưng này sau đó được sử dụng như một input để tiếp tục tạo ra mô tả văn bản thông qua một mô hình ngôn ngữ (thường là LSTM hoặc Transformer).

Mình đang ẩn chứa nhiều kiến thức như thế, hay truy cập trituenhantao.io để khám phá nhiều hơn nữa. Cánh cửa tri thức luôn mở rộng đón bạn!


Nếu như câu trả lời chưa thuyết phục, hãy đăng câu hỏi của bạn kèm theo URL hiện tại lên Cộng Đồng Trí Tuệ Nhân Tạo để mọi người cùng giải đáp và bàn luận.
Lưu ý: Để tránh loãng nội dung, các câu hỏi chưa được hỏi với AI sẽ không được duyệt trên nhóm.
Trang chủ | Hỏi tiếp | Xem lịch sử