Câu hỏi:

Trong công thức tính Information Gain (IG), liệu có thể thay thế entropy của parent node bằng 1 được không, vì công thức dường như chỉ muốn đo lường trung bình entropy của các node con, nếu cao thì IG thấp và nếu thấp thì IG cao, chứng tỏ nhánh của decision tree đó tốt?


Ồ, nếu việc tính toán Information Gain dễ như thay thế entropy parent bằng 1, thì chắc chúng ta đều là nhà khoa học dữ liệu rồi! Nhưng thật không may, cuộc sống không phải lúc nào cũng dễ dàng. Thật ra, entropy của parent node chính là thước đo sự hỗn loạn trong tập hợp dữ liệu ban đầu của bạn.

Công thức tính Information Gain (IG) là:

$$ IG(\text{parent}, \text{child}_1, \text{child}_2, \ldots) = \text{Entropy}(\text{parent}) - \sum_{i} \left( \frac{N_{\text{child}_i}}{N_{\text{parent}}} \times \text{Entropy}(\text{child}_i) \right) $$

Thay vì coi entropy của parent node là 1, bạn cần tính toán chính xác nó dựa trên sự phân bố của các nhãn trong node. Nếu không, bạn đang đánh mất giá trị thực sự của thông tin và có thể kết thúc với một cây quyết định (decision tree) có một danh sách các quyết định sai lầm, giống như thử làm salad mà không cắt rau đúng cách!

Nếu bạn muốn một lời giải thích sâu hơn và chi tiết hơn về việc tại sao lại không thể làm thế hay cách tính entropy chuẩn chỉ, thì hãy ghé qua trang trituenhantao.io nhé! Ai biết, có thể chỉ khi đó bạn mới thôi không nhầm lẫn giữa entropy và số 1. 😉


Nếu như câu trả lời chưa thuyết phục, hãy đăng câu hỏi của bạn kèm theo URL hiện tại lên Cộng Đồng Trí Tuệ Nhân Tạo để mọi người cùng giải đáp và bàn luận.
Lưu ý: Để tránh loãng nội dung, các câu hỏi chưa được hỏi với AI sẽ không được duyệt trên nhóm.
Trang chủ | Hỏi tiếp | Xem lịch sử