Khi bắt đầu một dự án học máy, mọi người thông thường sẽ mong muốn dự án của mình sẽ thành công ngoài mong đợi. Nhưng mà … chỉ là “thông thường” thôi. Nếu như bạn muốn dự án học máy của bạn thất bại hoặc thất bại thảm hại thì cũng không quá khó.
1. Đặt câu hỏi sai
Nếu bạn hỏi những câu hỏi sai, bạn sẽ nhận được câu trả lời sai. Đây là cách phá hoại dự án một cách lợi hại nhất. Ví dụ bạn có một dự án về chính và vấn đề nhận dạng gian lận. Câu hỏi bạn sẽ đặt ra cho mô hình học máy trong trường hợp này là gì? Lấy tạm một ví dụ nhé “Giao dịch này có phải giao dịch gian lận hay không?”
Để trả lời câu hỏi này, mô hình sẽ cần một bộ dữ liệu có chứa các ví dụ về các giao dịch gian lận và không gian lận. Nhiều khả năng bộ dữ liệu này sẽ được tạo ra bởi con người. Tức là, việc ghi nhãn dữ liệu được thực hiện bởi một nhóm các chuyên gia về phát hiện gian lận. Tuy nhiên, bộ dữ liệu này có thể được các chuyên gia dán nhãn dựa trên hành vi gian lận mà họ đã chứng kiến trong quá khứ. Do đó, mô hình huấn luyện với bộ dữ liệu này sẽ chỉ bắt được các giao dịch gian lận tương tự các giao dịch gian lận trong quá khứ. Các giao dịch với cách thức gian lận mới sẽ bị bỏ sót.
Những kẻ muốn dự án thành công sẽ đặt một câu hỏi khác: “Có phải giao dịch này có bất thường hay không?” Với câu hỏi này, không nhất thiết phải tìm kiếm một giao dịch đã được chứng minh là gian lận trong quá khứ, nó sẽ tìm kiếm các giao dịch không phù hợp với những dấu hiệu bình thường. Việc chứng minh những giao dịch đó có phải gian lận hay không sẽ được giao cho những mô hình thông minh hơn – con người.
2. Giải quyết sai vấn đề
Trong một dự án thành công, việc giải quyết các vấn đề được lựa chọn sẽ mang lại giá trị cho công việc kinh doanh hiện tại. Nếu bạn muốn phá hoại dự án, hãy lựa chọn những vấn đề không quan trọng để giải quyết. Việc này không quá khó để thực hiện. Phần lớn những người thực hiện các dự án học máy là dân công nghệ. Chúng ta thường tập trung vào khâu thiết kế và lập trình, hiếm khi nào chúng ta để tâm đến việc khảo sát tính khả thi của sản phẩm. Kết quả là nhiều dự án bung bét dù có sản phẩm tuyệt vời, vì sau khi xây dựng xong chúng ta mới biết rằng thị trường cho sản phẩm tuyệt vời đó quá nhỏ bé hoặc không tồn tại.
3. Không thu thập đủ dữ liệu
Dữ liệu là nhiên liệu của học máy, chúng ta không thể có được những mô hình thông minh nếu thiếu dữ liệu. Không thu thập đủ dữ liệu là một trong những cách rõ ràng nhất để phá hoại dự án của bạn. Bên cạnh việc lựa chọn đúng vấn đề cần giải quyết, những kẻ thành công thường tìm cho mình phương án tối ưu trong thu thập dữ liệu. Nếu chúng ta muốn phá hoại dự án, hãy làm ngược lại: đừng lên kế hoạch thu thập dữ liệu, đừng quan tâm đến chất lượng dữ liệu hoặc hãy đâm đầu vào những nghiệp vụ có dữ liệu hiếm hoi hoặc bất khả thi để tiếp cận! Bạn hiểu ý tôi chứ?
4. Dùng dữ liệu kém chất lượng
Lại là một chiêu phá hoại dự án nữa liên quan đến dữ liệu. Bạn không nhất thiết phải phớt lờ khâu lấy dữ liệu để một dự án học máy đâm đầu xuống hố. Bạn chỉ cần dùng dữ liệu kém chất lượng là đạt được mục tiêu đó rồi. Thế nào là dữ liệu kém chất lượng?
- Dữ liệu gán sai nhãn: Các mô hình học máy chủ yếu dựa trên các phương pháp thống kê và tổng quát hóa. Huấn luyện mô hình với những dữ liệu sai nhãn là cách phá hoại đã được khoa học chứng minh.
- Dữ liệu không liên quan: Các mô hình học máy có khả năng lưu trữ và tính toán giới hạn. Khi sử dụng dữ liệu không liên quan, không những mô hình sẽ tổng quát hóa sai, mà có thể sẽ không thể hoạt động được vì tràn khả năng tính toán.
- Dữ liệu không thể trích xuất đặc trưng: Đây là chiều không mạnh lắm nhưng bạn cũng nên xem xét – hãy bỏ qua khâu tiền xử lý dữ liệu (preprocessing). Các mô hình học máy chỉ hoạt động hiệu quả nếu dữ liệu tập trung vào những khía cạnh của bài toán mà mô hình đang giải. Với dữ liệu ít và không được tiền xử lý, các mô hình sẽ phải chịu thua!
(Còn nữa …)