Timnit Gebru, cựu nhân viên bị Google sa thải cho ta thấy rõ hơn những câu chuyện đằng sau một công ty có tiềm lực nghiên cứu Trí tuệ nhân tạo số một thế giới.
Câu chuyện bắt đầu
Câu chuyện bắt đầu khi Timnit Gebru gửi một thông điệp trên Twitter tới giáo sư Emily Bender của Đại học Washington. Timnit Gebru hỏi Bender rằng liệu cô ấy có thể viết về các câu hỏi đạo đức được đặt ra bởi những tiến bộ gần đây trong AI xử lý văn bản hay không. Cả hai đã có một cuộc trò chuyện về những hạn chế của công nghệ như vậy, chẳng hạn như chúng có thể sinh ra những ngôn ngữ chứa đầy định kiến và thiên vị từ các nguồn được tìm thấy trên mạng.
Bender nhận thấy cuộc thảo luận rất sinh động và đề xuất xây dựng nó thành một bài báo học thuật. Bản thảo được viết trong một tháng với năm đồng tác giả được bổ sung từ Google và các viện hàn lâm. Bản thảo được nộp vào một hội nghị khoa học và được tin tưởng sẽ sớm trở thành một trong những công trình nghiên cứu khét tiếng nhất về AI.
Mặc dù vậy, sau đó không lâu, Timnit Gebru cho biết cô đã bị Google sa thải sau khi cô phản đối yêu cầu rút lại bài báo hoặc xóa tên của người quản lý. Trưởng bộ phận AI của Google cho biết công trình này “không đáp ứng được yêu cầu xuất bản của chúng tôi”. Kể từ đó, hơn 2.200 nhân viên của Google đã ký một lá thư yêu cầu công ty minh bạch hơn trong việc xử lý bản thảo.
Người quản lý trực tiếp của Timnit Gebru, nhà nghiên cứu AI của Google, Samy Bengio, đã viết trên Facebook rằng anh ấy “sốc” với sự kiện này và tuyên bố “Tôi đứng về phía bạn, Timnit.” Các nhà nghiên cứu AI bên ngoài Google cũng công khai chỉ trích việc công ty đối xử với Gebru.
Bài báo có gì đặc biệt?
Bài báo của Timnit Gebru không tấn công Google hoặc công nghệ của nó và có vẻ như không làm tổn hại đến danh tiếng của công ty nếu Timnit Gebru được phép xuất bản với chi nhánh Google của cô ấy.
Bài báo khảo sát nghiên cứu trước đây về những hạn chế của các hệ thống AI phân tích và tạo ra ngôn ngữ. Nó không đưa ra các thí nghiệm mới. Các tác giả trích dẫn các nghiên cứu trước đây cho thấy rằng AI ngôn ngữ có thể tiêu thụ một lượng lớn điện năng và lặp lại những thành kiến không tốt được tìm thấy trong văn bản trực tuyến. Và họ đưa ra đề xuất để các nhà nghiên cứu AI có thể cẩn trọng hơn với công nghệ này, bao gồm việc tài liệu hóa tốt hơn dữ liệu được sử dụng để tạo ra các hệ thống như vậy.
Những đóng góp của Google cho lĩnh vực được trích dẫn nhưng không được đưa ra để chỉ trích trực diện. Một trong những nghiên cứu được trích dẫn, cho thấy sự thiên vị trong các hệ AI ngôn ngữ đã được các nhà nghiên cứu của Google công bố vào đầu năm 2020.
Julien Cornebise, phó giáo sư danh dự tại Đại học College London, người đã xem bản thảo của bài báo cho biết: “Bài báo này là một tác phẩm rất chắc chắn và được nghiên cứu kỹ lưỡng. “Thật khó để thấy điều gì có thể gây náo động trong bất kỳ một phòng thí nghiệm nào, chưa nói đến việc dẫn đến ai đó phải mất việc vì nó.”
Tại sao Google có những động thái như vậy?
Phản ứng của Google có thể là bằng chứng cho thấy các nhà lãnh đạo của công ty cảm thấy dễ bị chỉ trích đạo đức hơn Timnit Gebru hoặc sự rời đi của cô ấy là không chỉ vì một bài báo. Các thành viên trong nhóm nghiên cứu đạo đức AI của Google cho rằng các nhà quản lý đã đổi quy trình đánh giá nghiên cứu nội bộ của Google để chống lại Timnit Gebru. Tuần trước, Gebru cho biết rằng cô ấy có thể đã bị đuổi việc vì chỉ trích các chương trình đa dạng văn hóa của Google và đề nghị đồng nghiệp ngừng tham gia vào các chương trình đó trong một email nhóm gần đây.
Bản thảo đã gây tranh cãi có tựa đề “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” “Về mối nguy của những con vẹt Stochastic: Liệu các mô hình ngôn ngữ có thể trở nên quá lớn?” (một biểu tượng cảm xúc con vẹt sau dấu chấm hỏi.) Bài báo đã hướng con mắt phê bình vào một trong những lĩnh vực nghiên cứu AI sôi động nhất.
Các công ty công nghệ như Google đã đầu tư rất nhiều vào AI từ đầu những năm 2010, khi các nhà nghiên cứu phát hiện ra rằng họ có thể giúp nhận dạng giọng nói và hình ảnh chính xác hơn nhiều bằng cách sử dụng một kỹ thuật gọi là học máy. Các thuật toán này có thể tinh chỉnh hiệu suất của chúng tại một nhiệm vụ, chẳng hạn như phiên âm giọng nói, bằng cách phân tích dữ liệu mẫu được chú thích bằng nhãn. Một cách tiếp cận được gọi là học sâu đã cho ra các kết quả mới tuyệt vời bằng cách kết hợp các thuật toán học máy với bộ sưu tập dữ liệu mẫu lớn hơn và máy tính mạnh hơn.
Trong vài năm qua, các nhà nghiên cứu đã tìm ra cách tạo các mô hình học máy siêu quy mô cho ngôn ngữ. Chúng đã cho thấy những tiến bộ lớn trong các nhiệm vụ như trả lời câu hỏi hoặc tạo văn bản bằng cách để các thuật toán học máy phân loại hàng tỷ từ văn bản được lấy từ web. Các hệ thống đó hoạt động dựa trên các mẫu thống kê của ngôn ngữ. Chúng không hiểu thế giới theo cách con người làm và vẫn có thể mắc phải những sai lầm có vẻ rõ ràng đối với một người. Nhưng chúng có thể tính toán theo cách riêng để đạt được những kỳ công ấn tượng như trả lời câu hỏi hoặc tạo văn bản mới một cách linh hoạt.
Một hệ thống như vậy, Google’s BERT, được sử dụng để cải thiện cách công cụ tìm kiếm của công ty xử lý các truy vấn dài. Microsoft cho biết họ sẽ cấp phép cho một hệ thống có tên GPT-3 từ phòng thí nghiệm độc lập OpenAI cũng đang được các doanh nhân khai thác để viết email và sao chép quảng cáo.
Sự tiến bộ đó đã khiến các nhà nghiên cứu khác đặt câu hỏi về những hạn chế và tác động xã hội có thể có của công nghệ ngôn ngữ mới này. Gebru, Bender và các đồng tác giả của họ bắt đầu phác thảo công việc này cùng nhau và đề xuất cách mà cộng đồng nghiên cứu nên phản hồi.
Nghiên cứu này có giá trị?
Các tác giả chỉ ra nghiên cứu trước đó đã tính toán rằng việc đào tạo một mô hình ngôn ngữ lớn có thể tiêu tốn rất nhiều năng lượng như việc một chiếc ô tô từ công trình xây dựng đi đến bãi rác, và một dự án cho thấy AI có thể bắt chước các nhà lý thuyết âm mưu trực tuyến.
Một nghiên cứu khác được trích dẫn bởi bài báo đã được các nhà nghiên cứu của Google xuất bản vào đầu năm nay cho thấy những hạn chế của BERT, mô hình ngôn ngữ riêng của công ty. Nhóm nghiên cứu, không bao gồm Gebru, đã chỉ ra rằng BERT có xu hướng liên kết các cụm từ đề cập đến các khuyết tật như bại não hoặc mù với ngôn ngữ tiêu cực. Tất cả các tác giả dường như vẫn làm việc tại Google.
Trong bài báo đưa đến sự rời đi của Gebru, cô ấy và các đồng tác giả của mình kêu gọi các nhà phát triển AI thận trọng hơn với các dự án ngôn ngữ. Họ khuyến nghị các nhà nghiên cứu làm nhiều hơn nữa để tài liệu hóa văn bản được sử dụng để tạo ngôn ngữ AI và những hạn chế của các hệ thống được tạo ra với chúng. Họ hướng người đọc đến một số ý tưởng được đề xuất gần đây để gắn nhãn các hệ thống AI với dữ liệu về độ chính xác và điểm yếu của chúng.
Bài báo yêu cầu các nhà nghiên cứu xây dựng hệ thống ngôn ngữ không chỉ xem xét quan điểm của các nhà phát triển AI mà còn phải xem xét cả quan điểm của những người bên ngoài lĩnh vực này, những người có thể phải chịu các kết quả đầu ra hoặc đánh giá của hệ thống.
Trong tuyên bố rằng bài báo có chất lượng kém, Jeff Dean, người đứng đầu bộ phận nghiên cứu của Google cho biết các tác giả đã thiếu sót trong việc không trích dẫn nghiên cứu về việc tạo ra các mô hình ngôn ngữ hiệu quả hơn và các cách để giảm thiểu sự thiên vị. Bender cho biết các tác giả đã đưa ra 128 trích dẫn và có thể sẽ bổ sung thêm. Những bổ sung như vậy là bình thường trong quá trình xuất bản học thuật và thường không phải là lý do để rút lại một bài báo. Cô và các nhà nghiên cứu AI khác cũng nói rằng bất chấp nhận xét của Dean, lĩnh vực này còn lâu mới phát minh ra một cách để xóa bỏ thành kiến ngôn ngữ một cách đáng tin cậy.
Oren Etzioni, Giám đốc điều hành của Viện Allen về AI, đã thực hiện nghiên cứu riêng của mình về chủ đề này, cho biết: “Sự thiên vị có nhiều dạng. Rất nhiều người làm việc trong lĩnh vực này đều công nhận rằng những mô hình này đang ngày càng có ảnh hưởng và chúng ta có nghĩa vụ đạo đức là phải triển khai chúng một cách có trách nhiệm.”
Quan điểm của bạn về vấn đề này như thế nào? Hãy chia sẻ bài viết và quan điểm của bạn đến những người quan tâm nhé!