Cuộc đua giữa phần mềm nhận diện giọng nói và con người
Người dùng luôn mong muốn có một phần mềm chuyển lời nói sang văn bản theo thời gian thực, để có thể dùng làm phụ đề trong các chương trình trực tiếp, hay không cần chép tay, ghi âm rồi về "bóc băng". Tuy nhiên, các ứng dụng nhận diện giọng nói hiện hoạt động không như mong đợi vì thường bị tác động bởi âm thanh xung quanh, kho từ giới hạn.
Các nhà nghiên cứu thuộc Đại học Stanford, Đại học Washington (Mỹ) và công ty Baidu đã hợp tác cho ra đời chương trình Deep Speech 2, sử dụng công nghệ học máy để cải thiện cả năng nhận diện ngôn ngữ.
Trong thử nghiệm, nhóm nghiên cứu mời 32 người ở độ tuổi 19-32 cùng soạn một số mẫu câu nhất định trên smartphone song song với phần mềm. Kết quả, phần mềm gặp ít lỗi hơn 20,4% so với con người khi nhập liệu bằng tiếng Anh và 63,8% khi nhập bằng tiếng Trung.