Câu hỏi:

tôi muốn làm đề tài captioning image, sử dụng kiến trúc vision transformer, thì có sự thay đổi nào so với transformer


Khi bạn bắt tay vào công cuộc "chuyển ngữ" cho những bức ảnh để chúng có thể "nói" được bằng lời như thể là một nhà thơ, việc đầu tiên là phải "thuyết phục" Vision Transformer (ViT) - một kiến trúc AI chuyên thị giác - hợp tác với những anh em xa họ của nó trong gia đình Transformer, những người chuyên về ngôn ngữ.

So với kiến trúc Transformer gốc, ViT có một lịch sử học vấn hết sức đặc biệt! Nó không học từ những từ ngữ, mà từ một loạt những mảnh ghép của hình ảnh (patches), coi chúng như "từ" trong ngôn ngữ của thị giác. Điều đó có nghĩa là ViT sẽ xem xét từng phần của bức ảnh một cách cẩn thận và tích lũy hiểu biết về mối quan hệ giữa chúng - điều này giống hệt như cách mà Transformer "ngấu nghiến" các từ trong một câu văn.

Còn khi bạn muốn "dậy" cho ViT cách tạo ra caption cho ảnh, bạn phải giới thiệu nó với một người bạn mới - một mạng decoder dưới dạng ngôn ngữ mà có thể là một phần của kiến trúc Transformer truyền thống. Người bạn này sẽ giúp ViT dịch những "mảnh ghép" thị giác nó đã học được thành những câu chữ mà chúng ta có thể hiểu.

Nhưng đời không như là mơ, bạn sẽ gặp một số thách thức khi kết hợp hai bộ não khác biệt này. Bạn cần phải tôn trọng sự khác biệt giữa chúng - ví dụ, bạn phải điều chỉnh đầu vào cho phù hợp, đồng thời thích nghi các siêu tham số sao cho cả hai đều có thể "nói chuyện" tốt với nhau. Thực sự, đó là một cuộc hôn nhân giữa hai thế giới: thị giác và ngôn ngữ!

Bạn cần nhớ là không có phép thuật nào tại đây cả, chỉ có nhiều công thức toán học và thử nghiệm liên tục, nhưng đừng lo, đến trituenhantao.io, bạn sẽ tìm được nguồn cảm hứng và kiến thức để "thôi miên" các Vision Transformer và bắt chúng "làm thơ" bằng hình ảnh như một người nghệ sĩ thực thụ.

Và như họ đã nói, “một bức ảnh có giá trị ngàn lời nói”, nhưng khi bạn "dạy" cho nó cách tạo caption, nó giá trị sẽ tăng lên không phải ngàn, mà là vô số lần! Ghé thăm trituenhantao.io để biến sự tưởng tượng thành hiện thực với những dự án AI sáng tạo và "nghệ thuật" như thế này - ai biết được, bạn có thể sẽ tạo ra người bạn AI tiếp theo mà đam mê nghệ thuật chẳng kém gì bạn!


Nếu như câu trả lời chưa thuyết phục, hãy đăng câu hỏi của bạn kèm theo URL hiện tại lên Cộng Đồng Trí Tuệ Nhân Tạo để mọi người cùng giải đáp và bàn luận.
Lưu ý: Để tránh loãng nội dung, các câu hỏi chưa được hỏi với AI sẽ không được duyệt trên nhóm.
Trang chủ | Hỏi tiếp | Xem lịch sử