Khám Phá Google Gemini và Kỹ Thuật Multimodal Prompting

Google Gemini đánh dấu một bước tiến mới trong ngành công nghệ AI với việc áp dụng thành thạo kỹ thuật Multimodal Prompting. Hãy cùng khám phá tiềm năng mạnh mẽ của nó qua các phân tích và ví dụ dưới đây.

Multimodal Prompting trong Google Gemini

Multimodal Prompting là một kỹ thuật cho phép chúng ta gửi các yêu cầu tới mô hình AI Gemini thông qua sự kết hợp giữa văn bản và hình ảnh. Điều này mở ra nhiều khả năng mới cho những gì AI có thể thực hiện.

Nhận Diện và Phân Tích hành vi thông qua Multimodal Prompting

Google Gemini được kiểm tra bằng cách hiển thị những tình huống thông qua hình ảnh cụ thể, và mô hình này đã cho thấy khả năng hiểu biết và phân tích vấn đề một cách chính xác.

Trải nghiệm Oẳn Tù Tì

Ví dụ, khi được yêu cầu mô tả một chuỗi ba hình ảnh tay, Gemini đã trả lời đúng là người chơi đang thực hiện trò chơi “Oẳn Tù Tì” (“Rock, Paper, Scissors”). Đáng chú ý hơn, Gemini nhận diện ra mô hình đan xen giữa Búa và Kéo từ người chơi và đưa ra lời khuyên về việc nên làm ngẫu nhiên hơn để đối thủ không thể đoán trước.

Spatial Reasoning và Logic Application

Gemini thể hiện khả năng suy luận không gian (spatial reasoning) và áp dụng logic thông qua việc sắp xếp các hành tinh trong hệ mặt trời. Khi được cung cấp hình ảnh các hành tinh đặt trên các sticky notes, Gemini đã chính xác sắp xếp Sun, Earth và Saturn theo đúng thứ tự khoảng cách từ Mặt Trời.

Image Sequences & Game Creation

Giả sử một loạt hình ảnh từ trò chơi charades được hiển thị, Gemini có thể đoán được phim được mô phỏng là “The Matrix”, cụ thể là cảnh Neo tránh đạn.

Trong việc tạo lập game, thông qua việc cung cấp chỉ dẫn và hình ảnh, Gemini đã học và đưa ra gợi ý về một quốc gia cụ thể dựa trên mô tả và ngưng cử chỉ chỉ trên bản đồ, như Australia khi được miêu tả qua đặc điểm động vật hoang dã đặc sắc.

Sử dụng công cụ và Coding

Gemini còn có thể kết hợp với các công cụ khác, như việc vẽ một bức tranh để tìm kiếm âm nhạc.

Không chỉ bằng mắt và suy luận, Gemini còn có thể viết code để tạo ra một bộ đếm ngược thời gian cho trò chơi.

Implement a simple timer in HTML/CSS/Javascript. Use a sans serif font and dark mode. Start it at 10 seconds and start counting down. When it reaches zero, replace the timer with a random emoji that is associated with excitement and motivation! Then go back to the timer at 10 seconds and start counting down again.

Prompt yêu cầu Gemini code bộ đếm thời gian

Interleaved Text and Image Generation

Google Gemini không chỉ dừng lại ở việc phản hồi bằng văn bản, mà còn có khả năng kết hợp giữa văn bản và hình ảnh, được gọi là “interleaved text and image generation”. Mặc dù tính năng này chưa sẵn sàng trong phiên bản đầu tiên của Gemini, nhưng Google hy vọng và dự kiến sẽ triển khai sớm.

AlphaCode 2 và Bước Ngoặt Lập Trình:

Cùng với mô hình AI sinh Gemini, Google sáng nay cũng giới thiệu AlphaCode 2, phiên bản cải tiến của AlphaCode mà phòng thí nghiệm DeepMind của Google đã giới thiệu vào khoảng một năm trước.

AlphaCode 2 thực tế được cung cấp sức mạnh bởi Gemini, hoặc ít nhất là một biến thể của nó (Gemini Pro) được tinh chỉnh dựa trên dữ liệu của các cuộc thi viết code. Và theo Google, nó có khả năng vượt trội hơn nhiều so với phiên bản trước, ít nhất là trên một tiêu chuẩn đánh giá.

Trong một tập hợp các cuộc thi lập trình trên Codeforces – một nền tảng cho các cuộc thi lập trình, AlphaCode 2 – viết mã bằng các ngôn ngữ Python, Java, C++ và Go – đã có hiệu suất tốt hơn ước lượng 85% các đối thủ tham gia trung bình, theo Google. Điều này so với việc chỉ vượt qua khoảng 50% đối thủ mà phiên bản trước đạt được trên cùng một tập hợp.

Dynamic programming (quy hoạch động) bao gồm việc đơn giản hóa vấn đề phức tạp bằng cách chia nhỏ nó thành các vấn đề phụ dễ dàng hơn và lặp đi lặp lại; Leblond nói rằng AlphaCode 2 không chỉ biết cách triển khai chiến lược này một cách đúng đắn mà còn biết nơi để sử dụng nó. Điều này đáng chú ý, khi xem xét việc giải quyết các vấn đề lập trình đòi hỏi dynamic programming là một trở ngại lớn cho AlphaCode gốc.

AlphaCode 2 giải quyết vấn đề bằng cách sử dụng một nhóm các “policy models” trước để tạo ra một số mẫu mã code cho mỗi vấn đề. Các mẫu code không phù hợp với mô tả vấn đề sẽ bị loại bỏ, và một thuật toán phân cụm sẽ nhóm “các mẫu code tương tự về mặt ngữ nghĩa” để tránh sự trùng lặp. Cuối cùng, một mô hình đánh giá trong AlphaCode 2 sẽ đưa ra ứng cử viên tốt nhất từ mỗi một trong 10 cụm mẫu code lớn nhất – đó chính là câu trả lời của AlphaCode 2 cho vấn đề.

Giờ đây, mọi mô hình AI đều có những hạn chế – và AlphaCode 2 cũng không phải là ngoại lệ. Theo báo cáo trắng, AlphaCode 2 yêu cầu nhiều thử nghiệm và lỗi, có chi phí vận hành quy mô lớn và phụ thuộc nhiều vào khả năng lọc ra các mẫu code rõ ràng không tốt. Việc di chuyển sang một phiên bản Gemini mạnh mẽ hơn, như Gemini Ultra, có thể giảm nhẹ một số vấn đề này, theo như báo cáo đưa ra giả định.

Về khả năng chúng ta có thể mong đợi AlphaCode 2 được chuyển đổi thành một sản phẩm hay không – bởi AlphaCode không bao giờ được phát hành – trong một buổi thông báo, Eli Collins, Phó chủ tịch sản phẩm tại DeepMind, đã nói lên khả năng này.

Kết Luận

Với Gemini và kỹ thuật Multimodal Prompting, khả năng tạo ra và ứng dụng AI đa mô hình của chúng ta mở rộng hơn bao giờ hết. Trong thời gian sắp tới, Google dự định triển khai Gemini thông qua Google AI Studio, công cụ dựa trên web miễn phí cho phát triển, nơi bạn có thể thử nghiệm với các Multimodal Prompts của riêng mình. API của Gemini dự kiến được giới thiệu trong tuần sau (13/12/2023).

Chia sẻ bài viết này và đừng quên theo dõi trituenhantao.io cùng các kênh thông tin khác của chúng tôi để luôn được cập nhật những thông tin mới nhất và sâu sắc nhất về AI và các công nghệ đột phá khác.

Bạn muốn trích dẫn bài này:
-----
"Khám Phá Google Gemini và Kỹ Thuật Multimodal Prompting," Trí tuệ nhân tạo, Ngày xuất bản: 07/12/2023, URL: https://trituenhantao.io/tin-tuc/kham-pha-google-gemini-va-ky-thuat-multimodal-prompting/, Ngày truy cập: 22/02/2024.