Hàm đánh giá dùng làm gì? Một trong những vấn đề của lính mới là phân biệt được các khái niệm na ná nhau trong machine learning. Bạn đã bao giờ nhầm lẫn giữa độ đo (metric) và hàm tối ưu (hàm loss) của một mô hình học máy? Nếu câu trả lời là có thì bạn nên đọc bài này.
Trong khoa học dữ liệu, bạn sẽ thấy mọi người dùng các hàm đánh giá cho ba mục đích chính:
- Đánh giá hiệu quả: Mô hình của chúng ta hoạt động tốt như thế nào?
- Tối ưu hóa mô hình: Chúng ta còn có thể làm cho mô hình tốt hơn được nữa không?
- Thống kê: Liệu mô hình có đủ tốt để chúng ta sử dụng không? (Đọc thêm về kiểm chứng giả thuyết)
Ba điều này na ná nhau những chúng có bản chất khác nhau. Do đó, chúng ta hãy xem xét sâu hơn từng mục đích.
Đánh giá hiệu quả
Độ đo hiệu quả cho chúng ta biết mô hình của chúng ta hoạt động tốt như thế nào. Mục tiêu của việc đánh giá hiệu quả là để một người đọc và hiểu được con số này và đưa ra kết luận về mô hình của chúng ta. Nói đơn giản, chủ thể sử dụng thông tin này là con người. Do đó, nó cần dễ hiểu với con người (human-readable).
Một độ đo tốt là độ đo được thiết kế để nắm bắt những gì mọi người quan tâm và nó truyền tải thông tin đó một cách hiệu quả tới họ. Nếu bạn sử dụng MSE Loss làm độ đo hiệu quả cho một mô hình trong bài toán phân tích cảm xúc, bạn có thể đốt cháy các nơ ron của những người quan tâm một cách vô ích.
Tối ưu mô hình
Khi bạn huấn luyện một mô hình thông qua dữ liệu của mình, về cơ bản bạn đang tinh chỉnh một tập hợp các tham số xác định trạng thái của mô hình để nó phù hợp với dữ liệu của bạn nhất có thể. Mục đích tối ưu hóa về cơ bản là tự động tìm ra bộ tham số tốt nhất của mô hình đối với dữ liệu.
Nếu như độ đo hiệu quả hướng tới con người thì lựa chọn hàm loss để tối ưu mô hình là để phục vụ các thuật toán tối ưu. Đây cũng là một trong những điểm để phân biệt một chuyên gia với một lính mới. Tùy vào đặc điểm của dữ liệu, chúng ta có thể lựa chọn hàm loss phù hợp nhất để đạt được mục tiêu với chi phí tính toán rẻ nhất. Khi mọi ý tưởng được công khai, kỹ năng cài đặt và huấn luyện mô hình là điều tạo nên sự khác biệt.
Thống kê
Một khía cạnh quan trọng liên quan đến các hàm tính điểm là việc thống kê để đưa ra quyết định. Các mô hình machine learning thường bị chi phối nhiều bởi các yếu tố ngẫu nhiên. Để đưa ra được các quyết định hiệu quả, nhà quản trị cần có được các số liệu thống kê về mô hình (Ví dụ: Mô hình này có khả năng gây ra lỗi là bao nhiêu, mức độ lỗi ảnh hưởng thế nào? Nếu tôi sử dụng mô hình này trong thực tế, xác suất để tôi có thể giành được 20% thị phần là bao nhiêu?). Hàm tính điểm tốt trong trường hợp này là hàm có thể phản ánh ranh giới giữa các quyết định quản trị một cách hiệu quả.
Hi vọng thông qua bài viết này, bạn đã hiểu thêm về các mục đích của các hàm đánh giá trong machine learning. Nếu bạn thích bài viết này, hãy chia sẻ nó với những người quan tâm. Hẹn gặp lại bạn trong các bài viết tiếp theo.