Machine Learning và các khái niệm cơ bản

Không thể phủ nhận machine learning là một trong những công nghệ có ảnh hưởng mạnh mẽ nhất trên thế giới ngày nay. Quan trọng hơn, phải cần một khoảng thời gian rất lâu nữa, ta mới thấy được hết tiềm năng của nó. Hãy cùng trituenhantao.io tìm hiểu về các khái niệm cơ bản trong machine learning.

Machine learning là gì?

Machine learning (học máy) là công cụ chuyển đổi thông tin thành tri thức. Trong 50 năm qua, đã có một sự bùng nổ dữ liệu, mặc dù vậy, khối dữ liệu này là vô dụng trừ khi chúng ta phân tích và tìm ra các mẫu ẩn bên trong nó. Các kỹ thuật machine learning được thiết kế để giúp chúng ta làm điều đó. Các mẫu hay tri thức tìm được trong dữ liệu có thể được sử dụng để dự đoán các sự kiện trong tương lai hay hỗ trợ ra quyết định.

Hầu hết chúng ta đều không biết rằng chúng ta đã và đang tương tác với Machine Learning mỗi ngày. Mỗi khi ta Google một cái gì đó, nghe một bài hát hoặc thậm chí chụp ảnh là ta đang sử dụng machine learning. Nó giúp cho các hệ thống học hỏi và cải thiện từ các tương tác của người dùng. Nó cũng có mặt trong những ứng dụng “xịn xò” hơn như các hệ thống phát hiện ung thư, điều chế thuốc và xe tự lái.

Machine learning được sử dụng mỗi lần ta chụp ảnh.

Lý do khiến cho machine learning là một công nghệ thú vị là bởi vì nó là một bước tiến rất xa so với các hệ thống rule-based. Một cách truyền thống, các kỹ sư sẽ lập trình các luật cho phần mềm đối với các trường hợp của dữ liệu để tìm ra đáp án cho một bài toán. Trái lại, machine learning sử dụng dữ liệu và các đáp án mẫu để tìm ra các luật đằng sau một bài toán. Cách tiếp cận này hiệu quả hơn so với cách truyền thống. Để viết đầy đủ các luật để máy tính nhận ra hình ảnh của một chú chó gần như bất khả thi, nhưng để máy tính tự học ra các luật từ các ví dụ là cách thú vị và hiệu quả hơn nhiều.

Để tìm ra luật chi phối một hiện tượng, máy tính phải trải qua một quá trình học tập (huấn luyện), thử các quy luật khác nhau và cải thiện dựa trên chính sai lầm của mình. Đó là lý do tại sao công nghệ này được gọi là machine learning. Có nhiều nhánh của machine learning bao gồm: học có giám sát (supervised), học không giám sát (unsupervised), học bán giám sát (semi-supervised) và học tăng cường (reinforcement learning). Mỗi nhánh có một cách tiếp cận khác nhau nhưng đều dùng chung các lý thuyết và quy trình cơ bản.

Quy trình xây dựng mô hình machine learning

Thu thập dữ liệu: Thu thập dữ liệu để mô hình học
Chuẩn bị dữ liệu: Xử lý và đưa dữ liệu về định dạng tối ưu, trích chọn đặc trưng hoặc giảm chiều dữ liệu
Huấn luyện: Tại pha này, thuật toán machine learning thực hiện việc học thông qua các ví dụ đã được thu thập và chuẩn bị từ hai bước trên
Đánh giá: Kiểm thử mô hình để đánh giá xem chất lượng của mô hình tốt đến đâu
Tinh chỉnh: Tinh chỉnh mô hình để tối ưu hiệu quả

Ý tưởng cơ bản

Ada Lovelace, một trong những người sáng lập ngành điện toán, và có lẽ là lập trình viên máy tính đầu tiên, nhận ra rằng mọi thứ trên thế giới đều có thể được mô tả bằng toán học.

Quan trọng hơn, điều này có nghĩa là một công thức toán học có thể được tạo để rút ra mối quan hệ đại diện cho bất kỳ hiện tượng nào. Ada Lovelace nhận ra rằng máy móc có tiềm năng hiểu thế giới mà không cần sự trợ giúp của con người.

Khoảng 200 năm sau, những ý tưởng cơ bản này rất quan trọng trong machine learning. Bất kể bài toán là gì, thông tin của nó có thể được thể hiện trên biểu đồ dưới dạng các điểm dữ liệu. Machine learning sau đó cố gắng tìm ra các mô hình toán học và các mối quan hệ ẩn trong thông tin ban đầu.

Một nhà toán học khác, Thomas Bayes, đã sáng lập ra những ý tưởng rất cần thiết trong lý thuyết xác suất được thể hiện trong machine learning.

Chúng ta sống trong một thế giới xác suất. Tất cả mọi thứ xảy ra đều có sự không chắc chắn kèm theo nó. Giải thích xác suất Bayes là nền tảng của machine learning. Xác suất Bayes có thể xem là công cụ giúp định lượng sự không chắc chắn của một sự kiện. Giá trị xác suất này được tính dựa trên một loạt các thông tin liên quan.

Các tiếp cận của machine learning

Có nhiều cách tiếp cận có thể được thực hiện khi tiến hành machine learning. Chúng thường được xếp vào các nhóm dưới đây. Học có giám sát và học không giám sát là những cách tiếp cận kinh điển và được sử dụng phổ biến nhất. Học bán giám sát và học tăng cường là những cách tiếp cận mới hơn, phức tạp hơn nhưng cũng đã cho thấy những kết quả ấn tượng.

Định lý No Free Lunch là một định lý nổi tiếng trong machine learning. Nó nói rằng không có thuật toán duy nhất nào hoạt động tốt cho tất cả các nhiệm vụ. Mỗi nhiệm vụ mà bạn cố gắng giải quyết đều có những đặc điểm riêng. Do đó, có rất nhiều thuật toán và cách tiếp cận phù hợp với từng vấn đề riêng lẻ.

Học có giám sát

Trong học có giám sát, mục tiêu của mô hình là tìm ra luật để ánh xạ giữa đầu vào và đầu ra. Ví dụ, đầu vào là thông tin về thời tiết, đầu ra là số lượng người sẽ đến bãi biển và trong học có giám sát, mô hình cần tìm được mối liên hệ giữa thời tiết và lượng người đến bãi biển.

Các ví dụ đã được gán nhãn là các dữ liệu quá khứ chứa các cặp đầu vào / đầu ra. Qua quá trình huấn luyện, mô hình sẽ thử đoán giá trị của đầu ra và so sánh với nhãn chuẩn, từ đó hiệu chỉnh lại dự đoán của mình. Khi được huấn luyện đủ nhiều, mô hình sẽ bắt đầu có được những dự đoán chính xác. Đây cũng là lý do cách tiếp cận này gọi là học có giám sát.

Một mô hình tốt là mô hình có khả năng tổng quát hóa tốt dữ liệu. Trường hợp mô hình chỉ tập trung ghi nhớ các ví dụ trong tập dữ liệu huấn luyện mà không tìm ra được quy luật tổng quát, mô hình không thể làm việc tốt trên dữ liệu tương lai. Một điểm cần lưu ý nữa đó là dữ liệu chuẩn bị cho học có giám sát cần tin cậy và khách quan. Không có dữ liệu tốt thì không có mô hình tốt.

Học không giám sát

Trong học không giám sát, dữ liệu không được gán nhãn, nhiệm vụ của mô hình là tự mình tìm ra các mẫu ẩn nằm trong dữ liệu. Ví dụ trực quan cho cách tiếp cận này là việc xếp các đồng xu cùng loại vào cùng một đống. Dù bạn không biết đồng xu đó là tiền của nước nào, mệnh giá bao nhiêu nhưng bạn vẫn có thể nhóm các đồng xu giống nhau vào với nhau.

Khó khăn trong học không giám sát là việc định nghĩa bài toán. Việc không tập trung vào một mục tiêu cụ thể có thể khiến cho mô hình cho ra những kết quả mơ hồ. Tương tự như việc học chơi đàn, việc tự mày mò với cây đàn để tạo ra được những bản nhạc bất hủ sẽ khó hơn rất nhiều so với việc học với giáo viên hoặc những ví dụ cụ thể.

Nhưng bù lại, học không giám sát không bị bó buộc bởi những kiến thức hoặc định kiến được thể hiện qua dữ liệu huấn luyện, do đó nó có thể mang đến những cách tiếp cận mới mẻ để giải quyết vấn đề. Vì thế học không giám sát còn được biết đến như phương pháp để khai phá tri thức.

Cách tiếp cận này có những ứng dụng thú vị. Ví dụ, ta có thể biết được những khách hàng nào có hành vi mua hàng giống nhau, những mặt hàng nào thường được mua cùng với nhau, phát hiện bất thường trong các giao dịch. Ngoài ra, cách tiếp cận này có thể tìm ra cách biểu diễn dữ liệu hiệu quả hơn thông qua việc giảm chiều dữ liệu.

Học bán giám sát

Học bán giám sát là sự pha trộn giữa học có giám sát và không giám sát. Quá trình huấn luyện không được giám sát chặt chẽ với các nhãn đầu ra cho mỗi ví dụ đầu vào. Nhưng chúng ta cũng không để mô hình sinh ra các kết quả một cách tùy tiện.

Pha trộn một lượng nhỏ dữ liệu có nhãn và một lượng lớn hơn các dữ liệu không có nhãn giúp giảm gánh nặng trong các bài toán không có nhiều dữ liệu. Do đó, ta có thể đưa machine learning vào nhiều bài toán với nhiều ứng dụng thú vị hơn. GAN là một trong những ví dụ ấn tượng cho các mô hình học bán giám sát.

Học tăng cường

Học tăng cường là cách tiếp cận không sử dụng nhãn của dữ liệu mà giúp mô hình học thông qua cơ chế thưởng phạt. Ý tưởng đằng sau cách tiếp cận này là việc đưa ra những phản hồi tích cực và tiêu cực giúp tăng cường các hành vi đúng đắn. Phương pháp này có những nét chung với phương pháp “Cây gậy – Củ cà rốt” trong quản trị học.

Cách tiếp cận này giống với cách học của con người. Khi chúng ta thực hiện một hành vi mang lại một kết quả tốt, bộ não tiết ra các hormone giúp ta cảm thấy hưng phấn và mong muốn lặp lại các hành vi tương tự. Chúng ta không cần thường xuyên học một cách có giám sát nhưng vẫn học và tiến bộ một cách rất hiệu quả. Bên cạnh đó, sức mạnh của học tăng cường nằm ở khả năng thích nghi trong một môi trường luôn biến động.

Các nhà nghiên cứu thường thử nghiệm học tăng cường với các trò chơi. Thuật toán học tăng cường tìm cách tối đa hóa phần thưởng qua nhiều lần chơi với các chiến thuật khác nhau. AlphaGo là một trong những thành tựu vượt bậc của machine learning với cách tiếp cận này.

Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập trituenhantao.io hoặc đăng ký (dưới chân trang) để nhận được những thông tin và kiến thức chuyên sâu về lĩnh vực này các bạn nhé!