Word Embedding – Vector hóa văn bản
Word Embedding là một bước quan trọng trong bài toán Text Mining bất kì. Trong bài này, tôi sẽ đưa ra lần lượt theo sự phát triển và cải tiến của các thuật toán Word Embeddings phổ biến hiện nay.
Word Embedding là một bước quan trọng trong bài toán Text Mining bất kì. Trong bài này, tôi sẽ đưa ra lần lượt theo sự phát triển và cải tiến của các thuật toán Word Embeddings phổ biến hiện nay.
Ở bài trước, ta thấy cả 2 thuật toán Topic Modeling đều đưa ra kết quả có những dữ liệu nhiễu hay những chủ đề khó có thể tìm được tên. Vậy ta sẽ thực hiện cải thiện mô hình. Ý tưởng của phần này, chúng ta sẽ xem xét kĩ lại hai ma trận … Đọc tiếp
Topic Modeling là một kiểu mô hình thống kê giúp khai phá các chủ đề ẩn trong tập dữ liệu. Trong bài này, tôi sẽ không đi sâu vào giới thiệu về Topic Modeling, mà tôi sẽ giới thiệu thuật toán Latent Dirichlet Allocation (LDA) và Non-negative Matrix Factorization (NMF), những thuật toán phổ biến … Đọc tiếp