BPE – Byte Pair Encoding – Vũ khí bí mật của NLP hiện đại

Byte Pair Encoding là một thuật toán nén dữ liệu được giới thiệu lần đầu tiên vào năm 1994, giúp tăng hiệu quả của tất cả các mô hình NLP tiên tiến hiện nay (bao gồm cả BERT). Mặc dù vậy, thuật toán này không phải ai cũng biết. Trong bài viết này, hãy cùng … Đọc tiếp

NLP

Natural language processing – Xử lý ngôn ngữ tự nhiên là một lĩnh vực của khoa học máy tính và trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và con người thông qua ngôn ngữ.

Sự thú vị của NLP – Phần 1

Xử lý ngôn ngữ tự nhiên có thể hiểu đơn giản là ngôn ngữ của con người. Máy tính được lập trình để xử lý tốt đối với dữ liệu có cấu trúc như các bảng số hay database. Nhưng ngôn ngữ của con người lại được thể hiện trên từ ngữ. Dữ liệu được … Đọc tiếp

[NLP] Xử lý POS với thuật toán Conditional Random Fields

Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), hầu hết các mô hình cơ bản đều được xây dựng dựa trên phương pháp Bag of Words. Nhưng, các mô hình như vậy không thể xác định được các mối quan hệ về cú pháp giữa các từ. Ví dụ: với một mô hình … Đọc tiếp