Audrey - Hệ thống nhận dạng giọng nói đầu tiên

Ngày nay, từ điện thoại thông minh đến tivi, laptop và cả máy tính cá nhân phần lớn đều sử dụng công nghệ nhận dạng giọng nói, một lĩnh vực của NLP. Vậy bạn có biết phần mềm nhận dạng giọng nói bắt đầu từ đâu và ai là người đã tiên phong mở đường cho những tiến bộ sau này? Hãy cùng tìm hiểu về Audrey trong bài viết này.

Trước các hệ thống như Dragon hay Siri cực kì thông minh ngày nay, Audrey là hệ thống đầu tiên có thể nhận dạng giọng nói của con người, “công cụ nhận dạng chữ số tự động” này được phát triển bởi Bell Labs vào năm 1952. Là một hệ thống từ năm 1952, Audrey chỉ có thể phân biệt giữa mười số (từ “0” đến “9”).

Audrey có thể nhận dạng các con số từ 0 đến 9.

Giống như hầu hết các thiết bị điện tử thế hệ đầu tiên, Audrey có kích thước khá lớn. Điều mà hiện nay bạn có thể thực hiện từ một chiếc điện thoại thông minh có kích thước chỉ bằng bàn tay, toàn bộ hệ thống của Audrey cần một phòng thí nghiệm. Chỉ riêng phần giá đỡ của Audrey đã cao 6 feet, ngoài ra còn cần đến bộ khuếch đại, bộ tích hợp và bộ lọc – tất cả chỉ để nghe và phân biệt mười con số.

Thế nhưng từ lắng nghe đến nhận dạng giọng nói là cả một quá trình. Các nhà khoa học trước tiên phải đưa âm thanh giọng nói vào hệ thống, sau đó để hệ thống xác nhận nghe được những âm thanh đó đòi hỏi phải có các mạch điện đặc biệt và quy trình phức tạp. Quy trình từ đầu vào đến đầu ra diễn ra như sau: Người nói đọc các chữ số vào hệ thống, đảm bảo tạm dừng 350 mili giây giữa mỗi từ. Audrey sẽ lắng nghe đầu vào của người nói, sau đó sắp xếp âm thanh thành các lớp điện phù hợp với các mẫu tham chiếu đã được thiết lập sẵn vẽ bằng điện tử và được giữ trong một bộ nhớ tương tự trước đó. Audrey sẽ phản ứng bằng cách nhấp nháy ánh sáng một cách thích hợp. Với tất cả thiết bị đặc biệt và khá cồng kềnh của mình, hệ thống vẫn phải tinh chỉnh liên tục để có thể hoạt động với công suất tối ưu. Ngoài ra, Audrey còn phải làm quen với một đầu vào nhất định để đạt được độ chính xác cao.

Mặc dù với vốn từ vựng ít ỏi, Audrey vẫn là một kỳ quan của khoa học. Hiện nay, công nghệ máy tính đã nâng cao hiệu quả và khả năng xử lý của các phần mềm nhận dạng giọng nói, dựa trên 10 chữ số của Audrey để chứa vô số lượng từ khác. Rất nhiều người bao gồm cả bạn đang sử dụng phần mềm nhận dạng giọng nói mỗi ngày để hoàn thành nhiệm vụ kinh doanh, thực hiện các nhiệm vụ cá nhân hay giúp đỡ cuộc sống thường ngày của chúng ta trở nên dễ dàng hơn.

Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website để có những thông tin chuyên sâu về lĩnh vực.

Cài Trí tuệ nhân tạo vào điện thoại.