Trong lĩnh vực trí tuệ nhân tạo, sự xuất hiện của các Mô hình Ngôn ngữ Lớn (LLMs) là một trong những tiến bộ mang tính biến đổi nhất.
Các mô hình ngôn ngữ lớn là những mô hình học máy dành cho các tác vụ liên quan đến ngôn ngữ như dịch thuật, trả lời câu hỏi, tóm tắt nội dung, tạo mã, và nhiều hơn nữa. Dựa trên bài báo điển hình của Google về kiến trúc biến đổi từ năm 2017, những mạng neuron khổng lồ này được đào tạo trên lượng lớn dữ liệu văn bản (đôi khi là toàn bộ internet) và việc ra mắt ứng dụng tiêu dùng được hỗ trợ LLM như ChatGPT đã mang lại một sự thay đổi rõ rệt trong việc sử dụng AI hàng ngày.
Dù đây vẫn là một lĩnh vực tương đối mới, nhưng những tháng và năm qua đã chứng kiến một sự bùng nổ hoạt động liên quan đến phát triển LLM.
Trong bài viết này, chúng ta sẽ tập trung vào các công ty phát triển mô hình ngôn ngữ lớn hàng đầu đang xây dựng những mô hình nền tảng.
OpenAI
OpenAI xứng đáng đứng đầu danh sách LLM developer vì họ đã tạo ra ảnh hưởng lớn nhất trong ngành cho đến nay, đưa LLMs đến với đại chúng thông qua việc ra mắt ChatGPT.
OpenAI tự mô tả là một công ty nghiên cứu và triển khai trí tuệ nhân tạo, nhằm đảm bảo rằng trí tuệ nhân tạo tổng quát (AGI) mang lại lợi ích cho toàn thể nhân loại. Họ là một trong những công ty tư nhân được tài trợ tốt nhất trong ngành phát triển LLM, đã huy động hơn 12 tỷ đô la cổ phần, gần đây nhất là vòng đầu tư đối tác lên đến 10 tỷ đô la từ Microsoft.
OpenAI đã phát triển nhiều mô hình ngôn ngữ đáng chú ý, bao gồm loạt GPT-3.5 và GPT-4.
Mô hình GPT-3.5 được tối ưu hóa cho trò chuyện và có thể được sử dụng cho các tác vụ hoàn thiện truyền thống.
Mô hình GPT-4 là một bước tiến so với mô hình GPT-3.5 và có thể giải quyết các vấn đề khó khăn với độ chính xác cao hơn. Nó đáng tin cậy hơn, sáng tạo hơn và có khả năng xử lý các chỉ dẫn tinh tế hơn đời trước.
Anthropic
Anthropic là một công ty nghiên cứu và an toàn AI có trụ sở tại San Francisco. Ngoài công việc nghiên cứu, Anthropic cũng đã phát triển những mô hình LLM đáng chú ý dựa trên phản hồi gia tăng của con người (RLHF). Nghiên cứu gần đây của họ cho thấy các phương pháp đơn giản nhắc nhở có thể giúp các mô hình LLM tạo ra ít đầu ra có hại hơn.
Sản phẩm chính của Anthropic là Claude, một trợ lý AI thế hệ tiếp theo dựa trên nghiên cứu của họ về việc đào tạo các hệ thống AI hữu ích, trung thực và vô hại.
Claude có khả năng thực hiện nhiều tác vụ xử lý văn bản và đối thoại đồng thời duy trì mức độ tin cậy và dự đoán cao.
Nó có thể được truy cập thông qua giao diện trò chuyện và API trong bảng điều khiển nhà phát triển của họ.
Claude gần đây đã được nâng cấp lên thành Claude 2, có hiệu suất cải thiện, phản hồi lâu hơn và có thể truy cập thông qua API cũng như trang web beta công khai mới.
Amazon đã công bố một mối hợp tác chiến lược với Anthropic trong đó họ đầu tư lên đến 4 tỷ đô la vào Anthropic và có cổ phần sở hữu thiểu số trong công ty. Các nhà phát triển và kỹ sư Amazon sẽ có thể xây dựng với các mô hình Anthropic thông qua Amazon Bedrock để họ có thể kết hợp khả năng AI sinh thái vào công việc của họ, nâng cao các ứng dụng hiện có và tạo ra trải nghiệm khách hàng hoàn toàn mới trên các doanh nghiệp của Amazon.
Meta
Meta là một công ty khác cam kết nâng cao trạng thái nghệ thuật trong trí tuệ nhân tạo thông qua nghiên cứu cơ bản và ứng dụng. Họ đã phát hành Llama 2, mô hình ngôn ngữ lớn mã nguồn mở của họ, cho nghiên cứu và sử dụng thương mại. Llama 2 là mô hình ngôn ngữ lớn tiên tiến nhất dành cho nhiệm vụ mã hóa công khai. Công nghệ nghiên cứu NLLB của Meta cũng được áp dụng cho các hệ thông dịch thuật được người dùng những biên tập viên Wikipedia sử dụng.
Cam kết của Meta với mã nguồn mở, hợp tác chéo và đổi mới được thể hiện trong việc phát hành Llama 2, mang đến cơ hội độc đáo cho nhà phát triển. Họ còn đang làm việc trên một mô hình AI mới giúp cung cấp nội dung bằng hàng trăm ngôn ngữ khác nhau. Mô hình này sẽ được sử dụng để dịch nội dung, phục vụ quảng cáo tốt hơn, cũng như phát hiện nội dung có hại và thông tin sai lệch.
Amazon
Amazon đã có những bước tiến trong lĩnh vực Mô hình Ngôn ngữ Lớn với các mô hình nền tảng Titan của họ. Những mô hình này được đào tạo trước trên các tập dữ liệu lớn và được xây dựng để hỗ trợ nhiều ứng dụng như tạo văn bản, tóm tắt, tìm kiếm ngữ nghĩa, tạo kiếp nối tăng cường, tạo mã, tạo bảng, định dạng dữ liệu, chuyển đổi nội dung, chuỗi suy nghĩ, viết lại, trích xuất, Q&A và trò chuyện.
Amazon Titan cung cấp nhiều mô hình FM phù hợp với nhu cầu khác nhau. Ví dụ, Titan Text Express là một LLM cân bằng giữa giá cả và hiệu suất. Nó hỗ trợ trên 100 ngôn ngữ và có thể tạo ra đến 8K mã thông báo.
Titan Text Lite là một LLM khác giá cả hợp lý và nhỏ gọn. Nó lý tưởng cho các tác vụ cơ bản và điều chỉnh.
Amazon cũng đã phát hành Bedrock, một tập hợp các API cung cấp quyền truy cập vào nhiều công cụ AI do Amazon tạo ra. Bedrock bao gồm các mô hình Titan hỗ trợ phát triển và mở rộng các ứng dụng AI sinh thái.
Như bạn có thể tưởng tượng, Google đã là một nhà tiên phong trong lĩnh vực LLMs và đã có những bước tiến quan trọng trong lĩnh vực này. Mặc dù OpenAI đã vượt trội trên thị trường với ChatGPT, họ nhanh chóng phát hành một đối thủ đáng gờm có tên là Bard.
Bard được cung cấp bởi mô hình ngôn ngữ lớn gần đây nhất của họ: PaLM 2, ưu việt trong các tác vụ suy luận nâng cao, bao gồm mã và toán, phân loại và trả lời câu hỏi, dịch thuật và thành thạo nhiều ngôn ngữ, và tạo ngôn ngữ tự nhiên.
Google cũng đã mở một số ứng dụng được hỗ trợ AI của họ cho nhà phát triển, giới thiệu API Mô hình Ngôn ngữ PaLM cho các mô hình ngôn ngữ và công cụ nguyên mẫu Makersuite bên trong đó. Ngoài ra, Google Cloud cung cấp nhiều công cụ AI có thể được sử dụng để xây dựng LLMs, bao gồm Google Cloud AutoML Natural Language, cho phép các nhà phát triển đào tạo các mô hình học máy tùy chỉnh cho các tác vụ xử lý ngôn ngữ tự nhiên.
Microsoft
Microsoft là một công ty công nghệ lớn khác đã ở đầu ngành trong việc phát triển và triển khai LLMs vào các ứng dụng của họ.
Công ty đã làm việc trên một số dự án dựa trên LLM, bao gồm việc phát hành gần đây của AutoGen, một khuôn khổ để đơn giản hóa việc phân bổ, tối ưu hóa và tự động hóa các dòng công việc LLM. AutoGen cung cấp các đại lý tùy chỉnh và đối thoại sử dụng các khả năng mạnh nhất của các mô hình LLM tiên tiến nhất, thích hợp với GPT-4, đồng thời giải quyết giới hạn của chúng bằng cách tích hợp với con người và công cụ để có các cuộc trò chuyện giữa các đại lý thông qua trò chuyện tự động.
Microsoft cũng đã làm việc trên LLMOps, một sáng kiến nghiên cứu về nghiên cứu cơ bản và công nghệ dựa trên sản phẩm AI với các mô hình nền tảng, đặc biệt là công nghệ chung để kích hoạt khả năng AI với LLMs và các mô hình AI sinh thái. Công ty còn giới thiệu LLM-Augmenter, công cụ cải thiện mô hình ngôn ngữ lớn với kiến thức bên ngoài và phản hồi tự động.
Ngoài các dự án này, Microsoft đã phát triển một số sản phẩm dựa trên LLM như Power Apps được hỗ trợ GPT-3 có thể tạo mã dựa trên đầu vào ngôn ngữ tự nhiên. Công ty cũng đã giới thiệu Azure Machine Learning, cho phép vận hành và quản lý các mô hình ngôn ngữ lớn bằng cách sử dụng Azure ML.
Stability.ai
Stability.ai là một công ty chuyên phát triển các mô hình ngôn ngữ mở. Một trong những sản phẩm chủ lực của họ là Stable LM, một Mô hình Ngôn ngữ Lớn mạnh mẽ với khả năng suy luận đáng chú ý trong các chuẩn mực đa dạng. Nó có thể được điều chỉnh cho các trường hợp sử dụng cụ thể và xuất sắc trong việc tự hoàn thành câu. Các nhà nghiên cứu của công ty đổi mới nhanh chóng và phát hành các mô hình mở có xếp hạng hàng đầu trong ngành. Họ cũng đã phát triển Stable Code, hai LLM được đào tạo để tạo mã sử dụng mô tả và nhập mã tự động, có thể cải thiện hiệu quả cho lập trình viên và giải quyết các câu đố lập trình.
Stability.ai hướng tới việc cung cấp sự minh bạch, tiếp cận và hỗ trợ cho người dùng. Họ đã phát hành các LLM của mình theo giấy phép CC BY-SA, cho phép các nhà phát triển sử dụng mô hình cho nghiên cứu và kiểm tra cho mục đích thương mại và nghiên cứu. Công ty cũng đã ra mắt các mô hình RLHF-tuned để sử dụng cho nghiên cứu.
Contextual AI
Contextual AI là một công ty khác chuyên tạo ra các mô hình ngôn ngữ lớn được xây dựng đặc biệt cho doanh nghiệp. Công ty được thành lập vào năm 2023 bởi Douwe Kiela và Amanpreet Singh, những người đã đào tạo các mô hình ngôn ngữ lớn tinh xảo trong phần lớn sự nghiệp của họ. Họ đã nâng cao trạng thái nghệ thuật thông qua nghiên cứu của họ được trích dẫn rộng rãi tại các nơi như Meta (Facebook AI Research), Hugging Face và Đại học Stanford.
Mục tiêu của Contextual AI là phát triển các giải pháp AI phù hợp hơn với các công ty so với các
ưu đãi LLM dành cho người tiêu dùng. Để đương đầu với các rào cản xử lý và phân tích dữ liệu phi cấu trúc, họ đang tạo ra một thế hệ mới của LLMs phục vụ nhu cầu của doanh nghiệp. Với khả năng tùy chỉnh mô hình cho từng nguồn dữ liệu của công ty, họ cung cấp một cách an toàn, chính xác và hiệu quả để trao quyền cho nhân viên kiến thức thực hiện công việc của họ một cách hiệu quả.
EleutherAI
EleutherAI là một tổ chức phi lợi nhuận tập trung vào việc đào tạo và phát hành các LLM cho các ứng dụng nghiên cứu mã nguồn mở. Tổ chức đã đào tạo và phát hành một số LLM, một số trong đó là lớn nhất hoặc có khả năng lớn nhất tại thời điểm đó. EleutherAI cũng đã phát hành mã nguồn mở dùng để đào tạo các mô hình này, mã nguồn đã được sử dụng rộng rãi trong các ứng dụng nghiên cứu mã nguồn mở.
Các mục tiêu chính của EleutherAI bao gồm đào tạo LLMs, đánh giá các mô hình AI tiên tiến theo các cách bền chặt và đáng tin cậy, và xây dựng LLMs và thực hiện xử lý ngôn ngữ tự nhiên trong các ngôn ngữ không phải tiếng Anh. EleutherAI cũng đã phát hành một bộ LLMs được thiết kế riêng cho nghiên cứu về khả năng giải thích và động lực đào tạo được gọi là Pythia.
Vào tháng 10 năm 2022, EleutherAI thông báo về CarperAI, một phòng thí nghiệm sẽ phát hành một LLM mã nguồn mở được đào tạo đặc biệt để làm theo hướng dẫn của con người bằng cách học gia tăng từ phản hồi của con người.
Databricks
DataBricks là một công ty chuyên cung cấp nền tảng phân tích thống nhất cho các nhóm khoa học dữ liệu. Họ cung cấp nhiều sản phẩm và dịch vụ giúp các tổ chức đẩy nhanh đổi mới bằng cách sử dụng LLMs.
Cụ thể, Databricks đã phát triển một mô hình ngôn ngữ có tên là Dolly 2.0 được đào tạo trên một tập dữ liệu được tạo bởi con người chất lượng cao có tên là databricks-dolly-15k. Dolly 2.0 là ví dụ minh họa cho việc đào tạo một LLM của riêng bạn một cách nhanh chóng và kinh tế.
MosaicML
MosaicML là một nhà phát triển cơ sở hạ tầng phần mềm và thuật toán đào tạo AI, hướng đến việc cải thiện hiệu quả của các mạng nơ-rôn. Ứng dụng của công ty được thiết kế để tái cấu trúc các mô hình học máy bằng cách sử dụng các kỹ thuật thuật toán như thưa thớt và tỉa mạng, giúp người dùng đào tạo và triển khai các mô hình AI quy mô lớn một cách hiệu quả và dễ dàng trong môi trường bảo mật, trên dữ liệu riêng tư của họ.
MosaicML được biết đến nhiều nhất với gia đình mô hình MPT (Mosaic Pruning Transformer) của họ, là những mô hình ngôn ngữ sinh học có thể được tinh chỉnh cho nhiều tác vụ xử lý ngôn ngữ tự nhiên. Các mô hình này đã được chứng minh đạt được hiệu suất hàng đầu trên nhiều đánh giá cơ sở, bao gồm cả đánh giá GLUE.
Vào năm 2023, MosaicML đã được Databricks mua lại với giá 1,3 tỷ đô la. Trước đó, công ty đã huy động tổng cộng 33,7 triệu đô la từ các vòng gọi vốn.
AI21 Labs
AI21 Labs là một công ty phòng thí nghiệm AI và sản phẩm có trụ sở tại Israel, họ đang nỗ lực phát triển các mô hình ngôn ngữ lớn có thể cạnh tranh với GPT-3 của OpenAI.
Phiên bản lớn nhất của mô hình của họ, Jurassic-1 Jumbo, chứa 178 tỷ thông số, làm cho nó lớn hơn GPT-3.
Jurassic-1 có thể nhận diện 250.000 mục từ vựng bao gồm biểu cảm, từ và cụm từ.
Công ty cũng đã phát triển một hệ thống mới có tên là Hệ thống kiến thức và ngôn ngữ suy luận linh hoạt (MRKL), nhằm tăng cường sức mạnh của LLMs.
Nền tảng Studio của AI21 Labs cho phép các nhà phát triển thử nghiệm với mô hình trong bản mở beta để xây dựng nguyên mẫu các ứng dụng như đại lý ảo và trò chuyện.
Công ty gần đây đã thông báo về việc gọi vốn 155 triệu đô la ở vòng Tài chính C với giá trị công ty 1,4 tỷ đô la.
Cohere
Cohere cung cấp quyền truy cập vào LLM và các công cụ NLP thông qua API của họ. Các LLM của họ là những mô hình hoạt động cao nhất khi được đánh giá thông qua các chuẩn HELM của Đại học Stanford.
Inflection AI
Inflection AI là một công ty được thành lập bởi Mustafa Suleyman – đồng sáng lập của DeepMind, cùng với Reed Hoffman – đồng sáng lập của LinkedIn. LLM của Inflection, đồng thời là trợ lý cuộc nói chuyện Pi, nhằm tạo ra “AI cá nhân cho mọi người”.
Inflection đã huy động 1,3 tỷ đô la cho vòng gọi vốn mới sau ít hơn hai tháng ra mắt chatbot đầu tiên của họ, Pi, và giá trị công ty hiện là 4 tỷ đô la. Nhà đầu tư bao gồm Microsoft, NVIDIA, Bill Gates và cựu CEO của Google, Eric Schmidt.
LLM của Inflection được phát triển để cạnh tranh với LLM của Google và OpenAI. Nó được thiết kế để cải thiện tương tác giữa con người và máy tính bằng cách giải quyết vấn đề con người phải đơn giản hóa các yêu cầu đưa ra cho máy tính và điều chỉnh ngôn ngữ để phù hợp với những gì máy tính có thể hiểu.
Together AI
Together AI tập trung nghiên cứu để tạo ra các mô hình mã nguồn mở hàng đầu, minh bạch và có thể kiểm soát cho tương tác giữa con người và AI.
Together AI đã phát triển một tập hợp các mô hình và tập dữ liệu nền tảng mã nguồn mở gọi là RedPajama. Những mô hình này bao gồm các mô hình cơ bản, trò chuyện và tinh chỉnh chỉ dẫn được cấp phép Apache 2.0, cùng với tập dữ liệu đào tạo mở lớn nhất từ trước đến nay, được sử dụng để đào tạo hơn 100 mô hình. Các mô hình RedPajama có sẵn trên Hugging Face.
Kết luận
Hy vọng, bài viết này đã giúp bạn hiểu rõ hơn về các công ty hàng đầu trong lĩnh vực phát triển Mô hình Ngôn ngữ Lớn. Hãy chia sẻ bài viết này và truy cập thường xuyên trang web cũng như các kênh thông tin của trituenhantao.io để cập nhật thông tin kiến thức mới nhất về lĩnh vực trí tuệ nhân tạo.