Word embedding

Word embedding là một trong những phương pháp biểu diễn phổ biến nhất của từ vựng làm đầu vào cho các mô hình học máy. Nó có khả năng nắm bắt ngữ cảnh của một từ trong tài liệu, sự tương đồng về ngữ nghĩa và cú pháp so với các từ khác. [Tìm hiểu … Đọc tiếp

Word Embedding – Vector hóa văn bản

Word Embedding là một bước quan trọng trong bài toán Text Mining bất kì. Trong bài này, tôi sẽ đưa ra lần lượt theo sự phát triển và cải tiến của các thuật toán Word Embeddings phổ biến hiện nay.

Word embedding là gì? Tại sao nó quan trọng?

Mạng nơ ron hay bất kỳ mô hình tính toán nào đều làm việc với các con số. Vậy làm thế nào để các mô hình tính toán có thể làm việc với ngôn ngữ tự nhiên? Chúng ta đều biết từ là đơn vị ngôn ngữ nhỏ nhất mang ý nghĩa hoàn chỉnh. Do … Đọc tiếp

10 Thuật Ngữ NLP Phổ Biến Nhất

Nếu bạn muốn tìm hiểu về Xử lý ngôn ngữ tự nhiên, hãy cùng dành thời gian tìm hiểu 10 thuật ngữ phổ biến trong NLP nhé. Việc biết các thuật ngữ là điều cần thiết để hiểu bất kì một hướng dẫn nào. Khi các Lập trình viên và các Nhà khoa học dữ … Đọc tiếp

Minh họa Transformer

Minh họa Transformer là bản dịch tiếng Việt của The Illustrated Transformer, Bản gốc được viết bởi Jay Alammar ( @JayAlammar ), hiện được sử dụng tại các lớp học tại MIT. Bản dịch được sửa đổi một phần không đáng kể để phù hợp hơn với bạn đọc. Transformer được đề xuất trong paper Attention is All You Need. … Đọc tiếp

ELECTRA – Thành viên mới của dòng họ Transformer

ELECTRA — Efficiently Learning an Encoder that Classifies Token Replacements Accurately — là phương pháp pretrain mới được công bố bởi Google AI vượt trội hơn các kỹ thuật hiện tại với cùng nguồn lực tính toán. Gần đây các tiến bộ của các mô hình pretrain đối với ngôn ngữ tự nhiên đã thay đổi tạo ra những đột phá đáng … Đọc tiếp

Transformer hoạt động như thế nào?

Transformer là một dòng mạng nơ ron nhân tạo đang ngày càng trở nên phổ biến. Trong bài này, hãy cùng trituenhantao.io tìm hiểu cách thức hoạt động của chúng. Transformer được sử dụng bởi GPT-2 của OpenAI hay trong AlphaStar của DeepMind — một chương trình có khả năng đánh bại những người chơi đỉnh … Đọc tiếp

Gradient trong Deep Learning là gì?

Tìm hiểu về Deep learning chắc hẳn các bạn sẽ gặp nhiều thuật ngữ đặc thù. Để có thể hiểu sâu sắc các khía cạnh kỹ thuật của Deep learning, bạn cần phải hiểu về Gradient (độ dốc) – một khái niệm trong tính toán không gian véc tơ. Gradient (độ dốc) là khái niệm … Đọc tiếp

Token

NLP – Một chuỗi gồm một hoặc nhiều ký tự được ánh xạ làm đầu vào cho các mô hình trong NLP. Trong word embedding, token là chuỗi các ký tự liền kề giữa hai khoảng trắng hoặc giữa dấu cách và dấu chấm. Blockchain – Token là một loại tài sản kỹ thuật số … Đọc tiếp

Hướng dẫn sử dụng GloVe

Chúng tôi đã có nhiều bài viết về Word Embedding hay các phương pháp Véc tơ hóa văn bản (các bạn có thể xem tại đây). Bài viết này sẽ hướng dẫn cách nạp các véc tơ đã được huấn luyện của GloVe để có thể sử dụng trong các mô hình học máy. GloVe … Đọc tiếp

Cài Trí tuệ nhân tạo vào điện thoại.