Sampling và Resampling là gì?

Dữ liệu là nguồn năng lượng của máy học ứng dụng. Do đó, việc thu thập và sử dụng dữ liệu hiệu quả là vô cùng quan trọng. Trong bài này, hãy cùng trituenhantao.io tìm hiểu SamplingResampling, hai phương pháp cần thiết để đạt được mục tiêu tối ưu việc thu thập và sử dụng dữ liệu.

Sampling là gì?

Trong thống kê và các phương pháp nghiên cứu định lượng, sampling (lấy mẫu) là việc tạo ra một tập hợp các quan sát được thu thập từ một quần thể thống kê theo một quy tắc nhất định.

Hãy cùng quay trở lại với khái niệm cơ bản nhất của ngành IT: dữ liệu. Một cách đơn giản, có thể hiểu dữ liệu là thông tin về thế giới được lưu trữ trong các thiết bị mà máy tính có thể đọc được. Trong các tập dữ liệu, mỗi dòng đều chứa một quan sát nào đó về một sự vật hiện tượng nào đó của thế giới.

Thực tế, khi làm việc với dữ liệu, chúng ta hiếm có cơ hội tiếp cận được toàn bộ các quan sát có thể có về một đối tượng. Có nhiều nguyên nhân của việc này, ví dụ như:

  • Vấn đề tiếp cận dữ liệu
  • Chi phí thu thập dữ liệu
  • Khó khăn trong tập hợp dữ liệu
  • Các dữ liệu chưa tồn tại (tương lai)

Các quan sát có được trong một miền nào đó chỉ là một mẫu đại diện cho một quần thể rộng hơn. Khi bạn đọc một bài báo tuyên bố rằng người Việt Nam có độ dài“ngón tay” trung bình ngắn hơn của người Mỹ, bạn có thể giật mình vì thực tế chưa có ai đến đo “ngón tay” của bạn. Thực tế, việc cầm thước đi đo tất cả mọi người là bất khả thi, và đa phần các ước lượng chúng ta có đều dựa trên một mẫu đại diện.

Sampling là gì?
Sampling là gì?

Thậm chí trong thời đại của dữ liệu, cho dù chúng ta sử dụng nền tảng big data trên toàn bộ dữ liệu mà chúng ta có, đó vẫn chỉ là một mẫu đại diện cho một quần thể rộng hơn ngoài đời thực. Và chất lượng của sampling sẽ ảnh hưởng trực tiếp đến chất lượng của các quyết định mà chúng ta có.

Sampling là quá trình chọn ra một tập con của một quần thể với mục tiêu đánh giá các tính chất của quần thể đó. Cách thức lấy mẫu phụ thuộc trực tiếp vào mục tiêu đánh giá của chúng ta, do đó sampling nằm gần ranh giới giữa việc quan sát khách quan và việc thực hiện các thực nghiệm mang tính chủ quan.

Một số khía cạnh chúng ta cần cân nhắc khi lấy mẫu dữ liệu bao gồm:

  • Mục tiêu.Tính chất của quần thể mà chúng ta muốn khảo sát đánh giá.
  • Quần thể. Phạm vi khảo sát dựa trên lý thuyết.
  • Tiêu chí lựa chọn. Các nguyên tắc cho việc chấp nhận / loại bỏ các quan sát.
  • Kích thước mẫu. Số lượng các quan sát được thu nhận trong mẫu.

Trong thống kê, sampling là một lĩnh vực nghiên cứu rộng, nhưng đối với machine learning, ba phương pháp hay sử dụng nhất bao gồm:

  • Sampling ngẫu nhiên: Các mẫu được lấy ra với cùng xác suất.
  • Sampling có hệ thống: Các mẫu được lấy ra dựa trên một quy tắc nhất định, ví dụ như dựa trên tần suất.
  • Sampling phân lớp: Các mẫu được lấy ra từ các nhóm được định nghĩa trước.

Ngoài ra, cần phân biệt sampling có thay thế và sampling không thay thế:

  • Sampling có thay thế: Các mẫu được lấy ra từ quần thể không giới hạn số lần lấy. Điều này có nghĩa là việc lấy ra một mẫu không làm ảnh hưởng tới xác suất của việc lấy ra các mẫu khác.
  • Sampling không thay thế: Một mẫu đã được lấy ra từ quần thể thì không thể được lấy ra trong lần tiếp theo. Điều này có nghĩa là việc lấy ra một mẫu sẽ làm ảnh hưởng tới xác suất của việc lấy ra mẫu tiếp theo.

Resampling là gì?

Với sampling, chúng ta có thể khái quát các tính chất của quần thể dựa trên việc khảo sát mẫu. Mặc dù vậy, nếu chỉ sử dụng một ước tính duy nhất, chúng ta không có thông tin để đánh giá độ chắc chắn của ước tính đó. Để giải quyết vấn đề này, chúng ta thực hiện khảo sát nhiều lần trên mẫu thu được. Phương pháp này gọi là resampling.

Các phương pháp resampling giúp nâng cao hiệu quả sử dụng dữ liệu, thể hiện ở độ chính xác và độ chắc chắn của các ước tính. Các phương pháp này dễ sử dụng và không yêu cầu nhiều kiến thức về toán học. Mặc dù vậy, resampling đỏi hỏi tài nguyên tính toán. Thông thường, để có được một ước lượng mạnh mẽ và tin cậy, resample có thể phải được thực hiện hàng chục cho đến hàng ngàn lần.

Có hai phương pháp resampling thường được sử dụng là bootstrapk-fold cross-validation.

  • Bootstrap. Các mẫu được lấy ra từ dataset một cách ngẫu nhiên, cho phép một mẫu được xuất hiện nhiều hơn một lần.
  • k-fold Cross-Validation. Dataset được chia thành k nhóm, mỗi nhóm sẽ được sử dụng để đánh giá 1 lần.

Trong kỷ nguyên dữ liệu, việc sử dụng dữ liệu hiệu quả là vô cùng quan trọng. Hi vọng thông qua bài này các bạn đã hiểu thêm về hai công cụ quan trọng sampling/resampling phục vụ mục đích đó.

Nếu các bạn thấy bài viết hữu ích, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập trituenhantao.io hoặc đăng ký (dưới chân trang) để có những kiến thức mới nhất về chủ đề này!