Vocabulary

Có thể dịch là bộ ngữ liệu. Trong NLP, các đoạn văn bản thường được biểu diễn bởi các thành phần nhỏ hơn như từ, ký tự hoặc các biểu diễn trung gian. Vocabulary chứa toàn bộ các thành phần như vậy mà một mô hình ánh xạ trong bộ nhớ của nó. Vocabulary của … Đọc tiếp

Transformer

Transformer là mô hình học sâu được giới thiệu vào năm 2017, được sử dụng chủ yếu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).

Các dataset tiếng Việt

https://github.com/undertheseanlp/underthesea Underthesea – Vietnamese NLP Toolkit https://github.com/stopwords/vietnamese-stopwords Stop word trong tiếng Việt https://github.com/duydo/elasticsearch-analysis-vietnamese Vietnamese Analysis Plugin for Elasticsearch https://github.com/phuonglh/vn.vitk A Vietnamese Text Processing Toolkit https://github.com/coccoc/coccoc-tokenizer Tách từ tiếng Việt bởi Cốc cốc https://github.com/trituenhantaoio/CentralVietnamDataset Dataset phương ngữ miễn Trung

Hướng dẫn Fine-Tuning BERT với PyTorch

Bài viết này sẽ hướng dẫn bạn cách sử dụng BERT với thư viện PyTorch để fine-tuning (tinh chỉnh) mô hình một cách nhanh chóng và hiệu quả. Ngoài ra, bài viết sẽ chỉ cho bạn ứng dụng thực tế của transfer learning trong NLP để tạo ra các mô hình hiệu suất cao với … Đọc tiếp

XLNet – Người khổng lồ thay thế vị trí của BERT

Năm 2018, Google giới thiệu BERT, mô hình học sâu pre-trained lập kỷ lục với 11 kết quả state-of-the-art với các nhiệm vụ của Xử lý ngôn ngữ tự nhiên. Nó nhanh chóng nhận được sự quan tâm lớn của các nhà khoa học và công nghiệp trên toàn thế giới. Các công trình nghiên … Đọc tiếp

Token

NLP – Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm. Blockchain – Token là một loại tài sản kỹ thuật số … Đọc tiếp

QA

Question Answering – Trả lời câu hỏi là một vấn đề nghiên cứu trong NLP. Mặc dù là một trong những lĩnh vực nghiên cứu lâu đời nhất, QA có ứng dụng trong rất nhiều nhiệm vụ, chẳng hạn như truy xuất thông tin và trích xuất thực thể.

Language Model

Mô hình ngôn ngữ là phân phối xác suất trên các chuỗi từ hoặc ký tự. Mô hình này có thể giúp dự đoán từ hoặc ký tự tiếp theo trong một chuỗi các từ hoặc ký tự. Mô hình ngôn ngữ sử dụng mạng nơ ron có kết quả nổi bật hơn so với … Đọc tiếp