BPE – Byte Pair Encoding – Vũ khí bí mật của NLP hiện đại

Byte Pair Encoding là một thuật toán nén dữ liệu được giới thiệu lần đầu tiên vào năm 1994, giúp tăng hiệu quả của tất cả các mô hình NLP tiên tiến hiện nay (bao gồm cả BERT). Mặc dù vậy, thuật toán này không phải ai cũng biết. Trong bài viết này, hãy cùng … Đọc tiếp

Chính sách bảo mật

Chúng tôi thiết lập những nguyên tắc về quyền riêng tư phù hợp với tất cả những người sử dụng sản phẩm và dịch vụ của trituenhantao.io. Những nguyên tắc này là kim chỉ nam để định hướng cho các sản phẩm, quy trình và nhân sự của chúng tôi trong việc đảm bảo dữ … Đọc tiếp

Hướng dẫn Fine-Tuning BERT với PyTorch

Bài viết này sẽ hướng dẫn bạn cách sử dụng BERT với thư viện PyTorch để fine-tuning (tinh chỉnh) mô hình một cách nhanh chóng và hiệu quả. Ngoài ra, bài viết sẽ chỉ cho bạn ứng dụng thực tế của transfer learning trong NLP để tạo ra các mô hình hiệu suất cao với … Đọc tiếp

tqdm

tqdm là một tiện ích của python, từ này có nghĩa là “tiến trình” trong tiếng Ả Rập (taqadum, تقدّم) . Trong python, nó giúp hiển thị các vòng lặp dưới dạng một giao diện tiến độ một cách thông minh – chỉ cần bọc bất kỳ vòng lặp nào bằng tqdm và bạn không … Đọc tiếp

Phần 2: Phân loại Naive Bayes (Coding)

Trong phần trước, tôi đã giới thiệu các bạn lý thuyết và cách hoạt động của phân loại Naive Bayes. Trong phần này, tôi sẽ giới thiệu các bạn về code phân loại Naive Bayes với thư viện Sklearn – một thư viện mạnh về các thuật toán trên Python.   Ví dụ Trong bài … Đọc tiếp

XLNet – Người khổng lồ thay thế vị trí của BERT

Năm 2018, Google giới thiệu BERT, mô hình học sâu pre-trained lập kỷ lục với 11 kết quả state-of-the-art với các nhiệm vụ của Xử lý ngôn ngữ tự nhiên. Nó nhanh chóng nhận được sự quan tâm lớn của các nhà khoa học và công nghiệp trên toàn thế giới. Các công trình nghiên … Đọc tiếp