Chú thích dữ liệu là gì?

Việc xây dựng một mô hình AI hoặc ML hoạt động giống như con người đòi hỏi khối lượng lớn dữ liệu đào tạo. Đối với một mô hình đưa ra quyết định và thực hiện hành động, nó phải được đào tạo để hiểu thông tin cụ thể. Chú thích dữ liệu là phân loại và gắn nhãn dữ liệu cho các ứng dụng AI. Dữ liệu đào tạo phải được phân loại và chú thích hợp lý cho từng trường hợp sử dụng cụ thể. Với chú thích dữ liệu chất lượng cao và với sức mạnh con người, các công ty có thể xây dựng và cải thiện việc triển khai AI. Kết quả là một giải pháp nâng cao trải nghiệm khách hàng chẳng hạn như đề xuất sản phẩm, kết quả công cụ tìm kiếm có liên quan, thị giác máy tính, nhận dạng giọng nói, chatbots, v.v.

Chú thích dữ liệu

Chú thích Văn bản

Loại dữ liệu được sử dụng phổ biến nhất là văn bản – theo báo cáo Tình hình về AI và Machine Learning năm 2020, 70% công ty sử dụng văn bản. Chú thích văn bản bao gồm nhiều loại chú thích như cảm xúc, ý định và truy vấn.

Chú thích cảm xúc

Phân tích cảm xúc giúp đánh giá thái độ, cảm xúc và ý kiến, nhưng điều quan trọng là phải có dữ liệu đào tạo phù hợp. Để có được dữ liệu đó, các chuyên gia chú thích là con người thường được tận dụng vì họ có thể đánh giá một cách cảm tính, giúp kiểm duyệt nội dung trên tất cả các nền tảng web, bao gồm cả phương tiện truyền thông xã hội và các trang web Thương mại điện tử, với khả năng gắn thẻ và báo cáo về các từ khóa tục tĩu, nhạy cảm hoặc những từ ngữ mới,..

Chú thích ý định

Khi con người giao tiếp nhiều hơn với thiết bị giao tiếp người và máy, máy móc phải có khả năng hiểu cả ngôn ngữ tự nhiên và ý định của người dùng. Việc thu thập và phân loại dữ liệu đa mục đích có thể phân biệt mục đích thành các danh mục chính bao gồm yêu cầu, lệnh, đặt chỗ, đề xuất và xác nhận.

Chú thích ngữ nghĩa

Chú thích ngữ nghĩa vừa giúp cải thiện danh sách sản phẩm vừa đảm bảo khách hàng có thể tìm thấy sản phẩm họ đang tìm kiếm. Điều này giúp biến người có ý định mua thành người mua. Bằng cách gắn thẻ các thành phần riêng lẻ trong tiêu đề sản phẩm và truy vấn tìm kiếm, dịch vụ chú thích ngữ nghĩa đào tạo thuật toán của bạn giúp bạn nhận ra các phần riêng lẻ đó và cải thiện mức độ liên quan của tìm kiếm tổng thể.

Chú thích Âm thanh

Chú thích âm thanh là quá trình phiên âm và ghi dấu thời gian của dữ liệu giọng nói, bao gồm phiên âm của cách phát âm và ngữ điệu cụ thể, cùng với việc xác định ngôn ngữ, phương ngữ và nhân khẩu học của người nói. Mỗi trường hợp sẽ được sử dụng khác nhau và một số trường hợp yêu cầu một cách tiếp cận rất cụ thể, ví dụ: gắn thẻ các chỉ báo phát ngôn gây hấn và âm thanh không phải tiếng nói như tiếng vỡ kính để sử dụng trong các ứng dụng công nghệ đường dây nóng an ninh và khẩn cấp.

Chú thích Hình ảnh

Chú thích hình ảnh rất quan trọng đối với một loạt các ứng dụng như: thị giác máy tính, thị giác robot, nhận dạng khuôn mặt và các giải pháp dựa vào máy học để diễn giải hình ảnh. Để tạo ra các giải pháp này, siêu dữ liệu phải được gán cho các hình ảnh dưới dạng số nhận dạng, chú thích hoặc từ khóa.

Từ hệ thống thị giác máy tính – được sử dụng cho các phương tiện tự lái, các loại máy móc chọn và phân loại sản phẩm, đến các ứng dụng chăm sóc sức khỏe tự động giúp xác định tình trạng y tế, có nhiều trường hợp yêu cầu khối lượng lớn hình ảnh chú thích. Chú thích hình ảnh tăng độ rõ ràng và chính xác bằng việc đào tạo một cách hiệu quả các hệ thống này.

Chú thích Video

Dữ liệu do con người chú thích là chìa khóa để tạo nên sự thành công của machine learning. Con người chỉ đơn giản là giỏi hơn máy tính trong việc quản lý những việc mang tính chủ quan, hiểu được các ý định và đối phó với sự mơ hồ. Ví dụ: khi xác định xem một kết quả của công cụ tìm kiếm có tính liên quan hay không, cần có ý kiến ​​đóng góp từ nhiều người để có sự đồng thuận. Khi đào tạo thị giác máy tính hoặc giải pháp nhận dạng mẫu, con người là cần thiết để giúp xác định và chú thích dữ liệu cụ thể, chẳng hạn như phác thảo tất cả các pixel chứa cây cối hoặc biển báo giao thông trong một hình ảnh. Từ việc sử dụng dữ liệu có cấu trúc này, máy móc có thể học cách nhận ra những mối quan hệ trong quá trình thử nghiệm và sản xuất.

Dữ liệu luôn là một tài nguyên quan trọng đối với sự phát triển của các hệ AI. Hi vọng thông qua bài viết này, các bạn đã hiểu thêm về chú thích dữ liệu. Để có thể tham gia chú thích dữ liệu hoặc tìm cho mình những bộ dữ liệu tốt, hãy tham gia Chợ dữ liệu ngay hôm nay.

Bạn muốn trích dẫn bài này:
-----
"Chú thích dữ liệu là gì?," Trí tuệ nhân tạo, Ngày xuất bản: 22/07/2021, URL: https://trituenhantao.io/kien-thuc/chu-thich-du-lieu-la-gi/, Ngày truy cập: 23/10/2021.



Về trituenhantao.io

Trituenhantao.io là trang web chia sẻ thông tin, kiến thức, kinh nghiệm học tập và triển khai các chương trình và dự án sử dụng trí tuệ nhân tạo trên thế giới.
Xem tất cả các bài viết của trituenhantao.io →