Giọng đọc nhân tạo thay thế vai trò con người

Ngày nay, các công nghệ xử lý, tổng hợp tiếng nói đang ngày càng phát triển và có nhiều ứng dụng hữu ích trong cuộc sống, có thể kể đến như báo nói, truyện nói, tổng đài chăm sóc khách tự động, nhà thông minh… Nắm bắt được xu thế đó, Trung tâm Không gian mạng Viettel đã quyết tâm nghiên cứu, xây dựng các giọng đọc nhân tạo với độ tự nhiên vượt trội, tiệm cận với giọng đọc của con người.

Ứng dụng báo nói

Dù “sinh sau đẻ muộn” so với các loại hình báo chí khác, nhưng với sự phát triển nhanh chóng của Internet (wifi/4G) và thay đổi thói quen trong “văn hóa đọc”, Báo điện tử (BĐT) đang khẳng định vị trí quan trọng trong các kênh truyền thông hiện đại.

Số liệu nguồn tiếp cận thông tin của độc giả Việt Nam (nguồn: Dân Trí).

Tuy nhiên, vẫn còn một bộ phận khó tiếp cận thông tin trên báo điện tử đó là người già và người khiếm thị. Theo kết quả nghiên cứu chuyên sâu Tổng Điều tra dân số và nhà ở năm 2019, cả nước có 11,4 triệu người cao tuổi (từ 60 tuổi trở lên) chiếm 11,86% tổng dân số. Còn theo số liệu của Bệnh viện Mắt Trung ương nước ta đang có 2 triệu người khiếm thị. Vậy báo điện tử có đang bỏ qua đối tượng độc giả này?

Để trả lời cho câu hỏi trên cũng chính là gia tăng thêm các giá trị nhân văn cho báo điện tử, hoàn thiện hệ sinh thái truyền thông đa phương tiện. Trong 2 năm gần đây, Viettel đã cung cấp dịch vụ báo nói cho các tòa soạn hoàn toàn miễn phí. Đặc biệt, báo nói dễ dàng tích hợp với các trang báo/trang tin điện tử để việc xuất bản bản tin báo nói và báo viết là đồng thời, đơn giản, nhanh chóng, đáp ứng nhu cầu một bộ phận độc giả không quá lớn nhưng có nhu cầu nắm bắt tin tức rất cao.

Dựa trên lợi thế sở hữu giọng đọc nhân tạo số 1 tại Việt Nam, từ năm 2019, VTCC đã hợp tác cùng các đối tác như báo Dân trí, báo Dân Việt, báo Dân sinh, Tạp chí Tài chính & Doanh nghiệp để đưa công nghệ Voice AI Text To Speech (Báo nói) tích hợp với hệ thống báo điện tử, mở rộng thêm mảng báo nói trên nền tảng digital. Sau 2 năm tích hợp công nghệ Text to Speech, mỗi ngày trung bình VTCC hỗ trợ Báo Dân Trí tạo ra 300 đến 400 bài báo nói, tạo ra các nội dung hấp dẫn, trải nghiệm mới mẻ cho độc giả.

Trải nghiệm công nghệ Báo nói trên Báo điện tử Dân Trí.

Chỉ cần đầu vào là nội dung văn bản, hệ thống Voice AI của Viettel sẽ tự động giúp các tòa soạn xuất bản báo nói đồng thời cùng với báo viết mà không cần qua bất kỳ bước thu âm hay xử lý âm thanh nào khác. VTCC Voice AI sử dụng công nghệ học sâu (deep learning) tiên tiến thay vì áp dụng các kỹ thuật truyền thống như HMM (Hidden Markov Model) hay ghép nối các từ… giúp cho giọng đọc tự nhiên, liền mạch đạt điểm MOS 4.5 tương đương giống đến 95% giọng người thật, đa dạng vùng miền Bắc – Trung – Nam, dễ dàng tích hợp với mọi hệ thống.

Viettel Podcast

Trong thời gian sắp tới đây, Viettel Media sẽ cho ra mắt mục Podcast (Bản tin số dạng âm thanh) trên nền tảng Viettel. VTCC tự hào được đồng hành cũng Viettel Media để đưa công nghệ Voice AI vào phục vụ thêm các nội dung, thông tin đa dạng, hấp dẫn cho toàn bộ Cán bộ công nhân viên Viettel.

Giao diện Podcast Viettel sử dụng công nghệ Voice AI của VTCC.

Trải nghiệm dịch vụ trực tiếp và qua API trên nền tảng Viettelgroup.ai:

Giao diện trải nghiệm dịch vụ tại https://viettelgroup.ai/service/tts.

Hiện tại, các giọng đọc ứng dụng công nghệ mới nhất đã có thể trải nghiệm trên nền tảng Viettel AI Open Platform – https://viettelgroup.ai/. Với số lượng đang có là 11 giọng đọc nam, nữ trải đều 3 phương ngữ Bắc Trung Nam, VTCC là một trong những nhà cung cấp công nghệ chuyển đổi tiếng nói thành văn bản hàng đầu trên thị trường cả về số lượng và chất lượng.

Kể từ khi chính thức vận hành (05/2019) cho đến nay, hệ thống tổng hợp tiếng nói của VTCC đã xử lý hơn 12,6 tỷ ký tự văn bản, tương đương 112.000 giờ tín hiệu tiếng nói. Hiện nay, sản phẩm tiếng nói nhân tạo của VTCC đang được triển khai trên nhiều sản phẩm ứng dụng và nhận được những phản hồi tích về chất lượng sản phẩm, trong nhiều trường hợp, khách hàng không thể phân biệt được giữa giọng đọc tổng hợp và giọng người thật. Trong thời gian tới, VTCC sẽ tiếp tục nghiên cứu và phát triển sản phẩm để có thể ứng dụng rộng rãi hơn nữa (trợ lý ảo, nhà thông minh, đô thị thông minh, chính quyền điện tử,…)

Góc công nghệ:

Công nghệ tổng hợp tiếng nói là công nghệ có khả năng biến văn bản thành tiếng nói (text to speech). Trong những năm qua, công nghệ xử lý tiếng nói nói chung và công nghệ tổng hợp tiếng nói nói riêng đã có những bước tiến rất nhanh và đáng kể. Khởi thủy từ những kỹ thuật như tổng hợp ghép nối, tổng hợp formant với nhiều hạn chế như: tiếng nói tổng hợp không liền mạch và mang những âm hưởng rè rè đặc trưng của robot. Hiện nay, nhờ sự tiến bộ của khoa học tính toán, những công nghệ giọng đọc nhân tạo mới nhất, sử dụng trí tuệ nhân tạo, đã có thể sinh tiếng nói với độ tự nhiên rất tốt. Không nằm ngoài dòng chảy đó, nhóm các kỹ sư công nghệ lõi xử lý tiếng nói đã bắt kịp xu thế công nghệ thế giới đồng thời tự mầy mò, nghiên cứu để áp dụng những công nghệ tiên tiến nhất cho ngôn ngữ quốc gia của mình – tiếng Việt.

Sơ đồ hệ thống Tổng hợp tiếng nói tại VTCC.

Hệ thống tổng hợp tiếng nói Tiếng Việt của trung tâm Không gian mạng Viettel sử dụng công nghệ end2end tiên tiến nhất hiện nay với cấu trúc gồm 3 khối: chuẩn hóa văn bản (Text normalization); mô hình âm học (Acoustic model) và bộ tái tạo âm (Vocoder).