Giảm chiều dữ liệu trong machine learning là quá trình giảm thiểu số lượng đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
biểu diễn dữ liệu. Việc này có thể được thực hiện theo hướng lựa chọn các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
quan trọng hoặc trích xuất các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
mới từ các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
đã có. Giảm chiều dữ liệu hữu ích trong các trường hợp như trực quan hóa, lưu trữ và năng lực tính toán hạn chế. Trong bài này hãy cùng tìm hiểu hai phương pháp giảm chiều dữ liệu nổi tiếng là PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
và Autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
.
Phân tích thành phần chính (PCA)
PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
là viết tắt của Principal Component Analysis, có nghĩa là phân tích thành phần chính. Ý tưởng của PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
là tạo ra các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
mới độc lập là kết hợp tuyến tính của các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
cũ. Các đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
mới định nghĩa một hình chiếu của dữ liệu lên một không gian con sao cho khoảng cách giữa hình chiếu và dữ liệu gốc là nhỏ nhất. Nói một cách khác, PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
tìm kiếm một không gian tuyến tính tốt nhất để xấp xỉ dữ liệu thông qua hình chiếu của nó.
Autoencoder
Bộ tự mã hóa Autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
là cách chúng ta sử dụng mạng nơ ron
Nơ ron
Một nơ ron hay tế bào thần kinh nhân tạo (còn được gọi là perceptron) là một hàm toán học. Nó là tổng của một hoặc nhiều yếu tố đầu vào được nhân với các trọng số. Giá trị này sau đó được chuyển đến một hàm phi tuyến tính, được gọi là hàm kích hoạt, để trở thành đầu ra của nơ ron.
để giảm chiều dữ liệu. Ý tưởng chung của mô hình này là sử dụng một bộ mã hóa (encoder
encoder
Bộ mã hóa trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
) và bộ giải mã (decoder
decoder
Bộ giải mã trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
) để học ra cách biểu diễn dữ liệu tốt nhất. Điều đặc biệt trong kiến trúc của autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
là nó tạo ra một nút thắt cổ chai giữa encoder
encoder
Bộ mã hóa trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
và decoder
decoder
Bộ giải mã trong kiến trúc sử dụng bộ mã hóa và bộ giải mã, thường thấy trong các mô hình seq2seq. Encoder mã hóa chuỗi đầu vào thành một biểu diễn gọi là "vectơ ngữ cảnh". Vectơ này được Decoder sử dụng để sinh chuỗi đầu ra.
. Dữ liệu khi đi qua nút thắt cổ chai được mô hình cố gắng khôi phục lại giống với dữ liệu gốc, từ đó các thông tin tại nút thắt là những thông tin đặc trưng
Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
tốt nhất cho dữ liệu.
Mục tiêu của Autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
và PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
đều là giảm chiều dữ liệu nhưng giữa hai phương pháp có những khác biệt nhất định:
- PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
hoạt động tốt trên không gian tuyến tính còn Autoencoder Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
có thể hoạt động trên các hàm phi tuyến phức tạp - PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
chỉ đơn thuần là việc lấy hình chiếu trực giao do đó các đặc trưng Đặc trưng
Trong học máy và nhận dạng mẫu, một đặc trưng (feature) là một thuộc tính hoặc đặc tính có thể đo lường riêng lẻ của một hiện tượng đang được quan sát.
không có nhiều quan hệ. Autoencoder Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
, mặt khác, có các thuộc tính quan hệ với nhau để khôi phục thông tin gốc. - Chi phí tính toán của PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
thấp hơn Autoencoder Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
nhiều lần - Autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
với câu hình phức tạp có thể bị overfitting
Dưới đây là minh họa về PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
và Autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
khi khôi phục một số hàm
Hi vọng thông qua bài viết này, các bạn đã hiểu về hai phương pháp phổ biến trong giảm chiều dữ liêu là PCA
PCA
Phân tích thành phần chính (PCA) là một kỹ thuật thống kê sử dụng phép biến đổi trực giao để chuyển một tập hợp các biến tương quan thành tập hợp các biến không tương quan.
và Autoencoder
Autoencoder
Bộ tự mã hóa là phương pháp học cách biểu diễn dữ liêu hiệu quả thông qua học không giám sát sử dụng mạng nơ ron nhân tạo.
. Nếu bạn thấy bài viết hữu ích, hãy chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website và đăng ký (dưới chân trang) để nhận được những kiến thức cập nhật nhất về lĩnh vực.