Bài 4: K-means Clustering

K-means Clustering là một thuật toán phân cụm cổ điển và phổ biến, được sử dụng rộng rãi trong nhiều lĩnh vực của khoa học dữ liệu như phân loại khách hàng, xử lý ảnh, giảm chiều dữ liệu, và phát hiện outlier. Trong bài viết này, chúng ta sẽ tìm hiểu về thuật toán K-means Clustering, cách hoạt động của thuật toán, và một số ứng dụng của nó.

Trong thực tế, không phải lúc nào cũng có dữ liệu được gắn nhãn một cách hoàn chỉnh cho chúng ta làm dựa vào để huấn luyện các mô hình Machine Learning. Đôi khi chúng ta chỉ có dữ liệu thô không nhãn và cần phải tự điều chỉnh, phân loại dữ liệu để lấy thông tin hữu ích từ dữ liệu đó. Bài toán phân loại dữ liệu không nhãn, hay còn gọi là phân cụm (Clustering), là một trong những bài toán quan trọng của Machine Learning.

Thuật toán K-means Clustering

Bước 1: Khởi tạo

Thuật toán K-means Clustering bắt đầu bằng việc chọn k số điểm dữ liệu ngẫu nhiên (cụm) trong tập dữ liệu. K là số cụm cần phân loại, được lựa chọn trước khi thiết lập thuật toán.

Bước 2: Gán nhãn cho từng điểm dữ liệu

Sau khi có k cụm ban đầu, chúng ta sẽ tính toán khoảng cách giữa từng điểm dữ liệu với k cụm này và gán điểm dữ liệu đó vào cụm gần nó nhất. Khoảng cách giữa hai điểm dữ liệu thường được tính bằng khoảng cách Euclidean, công thức như sau:

\text{Khoảng cách Euclidean} = \sqrt{(x_2-x_1)^2 + (y_2-y_1)^2}

Bước 3: Cập nhật tâm của cụm

Sau khi đã gán nhãn cho tất cả các điểm dữ liệu, chúng ta cần xác định lại tâm của các cụm để cải thiện hiệu quả của thuật toán. Tâm mới của cụm sẽ được xác định bằng cách tính trung bình vị trí của tất cả các điểm dữ liệu thuộc cụm đó.

Bước 4: Kiểm tra điều kiện dừng

Quá trình gán nhãn và cập nhật tâm cụm sẽ được lặp lại cho đến khi tâm cụm không thay đổi sau mỗi vòng lặp (hay chênh lệch đủ nhỏ) hoặc đạt số lần lặp tối đa.

Ứng dụng của K-means Clustering

K-means Clustering được ứng dụng rộng rãi trong nhiều lĩnh vực của khoa học dữ liệu, một số ứng dụng nổi bật gồm:

Phân loại khách hàng: Dựa vào dữ liệu về hành vi mua sắm, thói quen sử dụng dịch vụ, các công ty có thể phân loại khách hàng thành các nhóm để đưa ra chính sách marketing, chăm sóc khách hàng hiệu quả hơn.
Phân loại văn bản: Dựa vào các từ khóa xuất hiện trong văn bản, có thể phân loại các văn bản vào các chủ đề khác nhau như tin tức, kinh tế, thể thao, giải trí, giáo dục, v.v.
Xử lý ảnh: K-means Clustering có thể giúp giảm số lượng màu trong hình ảnh, loại bỏ nhiễu và làm rõ đường biên giữa các đối tượng trong ảnh.
Giảm chiều dữ liệu: K-means Clustering có thể giúp giảm số lượng biến trong dữ liệu, giảm không gian chiều để các mô hình máy học dễ dàng hơn trong việc phân tích dữ liệu và tránh hiện tượng overfitting.

Mặc dù K-means Clustering thường được sử dụng trong các ứng dụng cơ bản, tuy nhiên, nó cũng có nhiều ứng dụng cao cấp ở một số lĩnh vực đòi hỏi phân tích dữ liệu sâu sắc hơn. Sau đây là một số ứng dụng cao cấp của thuật toán K-means Clustering:

Phân tích dữ liệu gen: Trong lĩnh vực sinh học, K-means Clustering được áp dụng để phân tích và quản lý dữ liệu gen, từ đó phát hiện sự giống nhau giữa các mẫu gen hoặc tìm ra mối quan hệ giữa các loài rộng lớn trong y học và nghiên cứu sinh học.
Phân tích hành vi người dùng trên mạng: Các công ty công nghệ sử dụng K-means Clustering để phân tích hành vi người dùng trong các ứng dụng di động hay trên các website xã hội. Việc phân cụm người dùng có hành vi tương tự giúp các công ty hiểu biết khách hàng và từ đó đưa ra chiến lược tiếp cận và quảng cáo chính xác.
An ninh mạng: Trong lĩnh vực an ninh mạng, K-means Clustering được áp dụng để phát hiện giao dịch bất thường hoặc đột nhập vào hệ thống mạng. Khi phân tích dữ liệu về các giao dịch hay các yêu cầu truy cập, những giao dịch bất thường sẽ nằm ngoài các cụm thông thường được tạo ra, từ đó giúp phát hiện ra các giao dịch gian lận hay đột nhập.
Gợi ý sản phẩm – hệ thống đề xuất tự động: Trong lĩnh vực thương mại điện tử, K-means Clustering được áp dụng để phân loại sản phẩm dựa vào các thông tin sản phẩm và đánh giá người dùng. Việc phân cụm chính xác đưa đến khả năng quảng bá sản phẩm phù hợp với nhu cầu của người dùng, từ đó gia tăng doanh thu và tính hiệu quả của kinh doanh.
Hiệu chỉnh dữ liệu mô hình 3D: Trong lĩnh vực công nghệ đồ họa 3D, K-means Clustering có thể được áp dụng để hiệu chỉnh và tối ưu hóa các mô hình 3D. Bằng cách phân cụm dữ liệu điểm ảnh và chỉ giữ lại chúng trong mỗi cụm, thuật toán giúp giảm không gian lưu trữ và thời gian xử lý cũng như giảm nhiễu mà không làm mất đi dữ liệu quan trọng.

Code mẫu Python bằng Scikit-Learn

Trong phần này, chúng ta sẽ cùng tìm hiểu cách thiết lập thuật toán K-means Clustering sử dụng thư viện Scikit-Learn trong Python. Scikit-Learn là thư viện phổ biến dành cho Machine Learning trong Python, cung cấp nhiều thuật toán và công cụ hỗ trợ phân tích dữ liệu.

Giả sử chúng ta có một tập dữ liệu đơn giản và muốn sử dụng thuật toán K-means Clustering để phân cụm dữ liệu. Có thể thực hiện như sau:

Import các thư viện và tạo dữ liệu mẫu:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# Tạo dữ liệu mẫu gồm 300 điểm được chia thành 4 cụm
data, labels = make_blobs(n_samples=300, centers=4, random_state=42)

Khởi tạo và huấn luyện mô hình K-means Clustering:

# Khởi tạo mô hình với k = 4 và số lần lặp tối đa là 300
kmeans = KMeans(n_clusters=4, max_iter=300, random_state=42)

# Huấn luyện mô hình với dữ liệu đầu vào
kmeans.fit(data)

Dự đoán nhãn của các điểm dữ liệu:

predictions = kmeans.predict(data)

Visualize kết quả phân cụm:

plt.scatter(data[:, 0], data[:, 1], c=predictions, cmap="viridis")
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c="red", marker="x")
plt.title("K-means Clustering")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

Trong ví dụ trên, chúng ta đã sử dụng thư viện Scikit-Learn để thiết lập một mô hình K-means Clustering với k = 4 và số lần lặp tối đa là 300. Sau đó, chúng ta huấn luyện mô hình với dữ liệu mẫu và dự đoán nhãn của các điểm dữ liệu. Cuối cùng, chúng ta vẽ đồ thị để trực quan hóa kết quả phân cụm dữ liệu.

Kết luận, K-means Clustering là một thuật toán đơn giản nhưng mang lại hiệu quả đáng kể trong việc phân loại dữ liệu không nhãn. Nó được sử dụng rộng rãi trong nhiều lĩnh vực của khoa học dữ liệu và là một tiền đề quan trọng của Machine Learning. Bằng cách nắm vững K-means Clustering và sử dụng thư viện Scikit-Learn, bạn đã có thêm một công cụ hữu ích trong bộ sưu tập của mình để giải quyết các vấn đề trong thực tế.