Topic Modeling với Scikit Learn (Phần 2)

Ở bài trước, ta thấy cả 2 thuật toán Topic Modeling đều đưa ra kết quả có những dữ liệu nhiễu hay những chủ đề khó có thể tìm được tên. Vậy ta sẽ thực hiện cải thiện mô hình. Ý tưởng của phần này, chúng ta sẽ xem xét kĩ lại hai ma trận … Đọc tiếp

Topic Modeling với Scikit Learn (Phần 1)

Topic Modeling là một kiểu mô hình thống kê giúp khai phá các chủ đề ẩn trong tập dữ liệu. Trong bài này, tôi sẽ không đi sâu vào giới thiệu về Topic Modeling, mà tôi sẽ giới thiệu thuật toán Latent Dirichlet Allocation (LDA) và Non-negative Matrix Factorization (NMF), những thuật toán phổ biến … Đọc tiếp