Lý thuyết cú pháp của Chomsky được cho là đóng góp lớn nhất của ông cho ngôn ngữ học. Lý thuyết này sau đó được mở rộng cho cấu trúc ngữ nghĩa. Đây là một lý thuyết toán học tổng quát về một mô hình sinh câu trong ngôn ngữ.
Mô hình gồm các luật sinh (production rule) để biến đổi các chuỗi ký hiệu. Ở dạng không giới hạn, mô hình này tương đương với một máy Turing. Ở các dạng giới hạn, mô hình này tương đương với các máy Automat đơn giản hơn. Các luật sinh bao gồm các ký hiệu terminal và nonterminal. Ký hiệu terminal là các ký hiệu cơ bản được định nghĩa trong một ngôn ngữ. Ký hiệu nonterminal là ký hiệu có thể được thay thế bởi một nhóm các ký hiệu terminal. Ví dụ, trong ngôn ngữ tự nhiên, ký hiệu nonterminal có thể là câu, cụm danh từ, cụm động tư; ký hiệu terminal có thể là các từ hay các ký tự.
Tập hợp các ký hiệu nonterminal (N), tập hợp các ký hiệu terminal (T), tập luật sinh (P) và ký hiệu bắt đầu (S) tạo thành một ngữ pháp (G) (một số sách dùng từ “văn phạm”).
G=(N, T, P, S)
.
Ngữ pháp được sử dụng để sinh câu, hay nói cách khác, chỉ các câu đúng ngữ pháp mới có thể được sinh ra từ ký hiệu bắt đầu. Cấu trúc này cũng được sử dụng để phát hiện ra câu trong một ngôn ngữ. Việc phân tích cú pháp và sinh ngôn ngữ là rất quan trọng trong NLP và là cơ sở để xây dựng các hệ thông minh có khả năng ngôn ngữ.
S → NP VP | A → a | the |
NP → A N | VP → V |
V → sat | meowed | slept | N → table | chair | cat | mat |
Bảng trên là một phần ví dụ về ngữ pháp phi ngữ cảnh. (CFG) Trong ngữ pháp này, một câu (S) chỉ có thể được tạo bởi một cụm danh từ (NP) và một cụm động từ (VP). Cụm danh từ (NP) chỉ có thể được tạo thành từ mạo từ (A) và danh từ (N). Ta thấy câu “the cat slept” là một câu hợp lệ thuộc ngôn ngữ được quy định bởi ngữ pháp này.
Ngữ pháp này được gọi là ngữ pháp phi ngữ cảnh hay ngữ pháp không phụ thuộc ngữ cảnh vì bên trái của các luật sinh chỉ chứa một ký hiệu nonterminal. Đa phần các ngôn ngữ tự nhiên tuân theo các mẫu đệ quy, do đó ngữ pháp phi ngữ cảnh thường đủ khả năng để biểu diễn các cú pháp cơ bản của ngôn ngữ. Mặc dù vậy, với những cú pháp tinh tế hơn, ngữ pháp phi ngữ cảnh không thể biểu diễn được. Cùng với ngôn ngữ phi ngữ cảnh, Chomsky giới thiệu 3 loại ngôn ngữ nữa là ngôn ngữ chính quy (regular), ngôn ngữ phụ thuộc ngữ cảnh (context-sensitive) và ngôn ngữ không giới hạn (unrestricted). Mỗi ngôn ngữ này có thể được xử lý bằng một Automat tương ứng.
Ngôn ngữ | Automat | Ngữ pháp / Văn phạm |
Regular | Finite State Automaton (FSA) | Loại 3 |
Context-Free | Push-Down Automaton (PDA) | Loại 2 |
Context-Sensitive | Linear Bounded Automaton (LBA) | Loại 1 |
Unrestricted | Turing Machine (TM) | Loại 0 |
Ngôn ngữ chính quy có thể biểu diễn các chuỗi đơn giản và lặp lại (như abcbcbcd). Ngôn ngữ phụ thuộc ngữ cảnh cho phép nhiều ký hiệu terminal nằm bên trái luật sinh do đó biểu diễn được ngữ cảnh. Ví dụ, luật sinh α1Aα2 → α1βα2 có nghĩa rằng A chỉ có thể được thay thế bởi β trong ngữ cảnh α1-α2. Với ngữ pháp không giới hạn, mọi ký hiệu có thể nằm bên trái luật sinh, tạo ra những sự biến hóa không có giới hạn. Để thao tác được ngữ pháp không giới hạn cần đến một Máy Turing, tức là một máy có năng lực tương đương con người, có thể học mọi ngữ pháp. Điều này cũng cho thấy sự sâu sắc trong năng lực ngôn ngữ. (Đọc thêm về Siêu trí tuệ)
Tính linh hoạt và tổng quát của CFG đã dẫn Chomsky đến với một luận điểm triết học về ngôn ngữ được gọi là tính tự chủ của cú pháp. Luận điểm này cho rằng cú pháp có thể được coi là độc lập với các yếu tố khác của ngôn ngữ con người. Chomsky công nhận sự tồn tại của một ngữ pháp phổ quát bẩm sinh trong não người. Ông đề xuất rằng chỉ sử dụng cú pháp và ngữ dụng có thể giải thích toàn bộ nhận thức ngôn ngữ của con người, và coi ngữ nghĩa chỉ là một lớp cú pháp khác. Trường phái Ngôn ngữ học của Chomsky cuối cùng đã chính thức hóa cách tiếp cận này, khi họ công nhận nhiều biến đổi hơn từ cấu trúc bề mặt sang cấu trúc được cho là sâu hơn, bao hàm tất cả các khía cạnh ý nghĩa của câu.
Nếu bạn thích bài viế này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website để có những kiến thức chuyên sâu về lĩnh vực!