¿Qué es Text-to-Speech (TTS) y cómo funciona?

TTS |

junio 18, 2022

Imagínese esto: es el Día de Acción de Gracias y ha estado deseando invitar a sus seres queridos a un delicioso pastel de camote casero. No recuerdas bien la receta, así que tomas tu teléfono inteligente y te diriges a tu blog de cocina favorito. Tan pronto como llegue a la publicación de la receta, notará un pequeño reproductor de audio en la parte superior de la página. Curioso, haces clic en «reproducir», luego una voz suave y natural comienza a leerte la receta en voz alta. En ese momento, te das cuenta de que puedes seguir las instrucciones “escuchando” la receta en lugar de tener que mirar la pantalla cada segundo. Todo esto es posible gracias a una tecnología simple pero poderosa llamada «Text-to-Speech».

Text-to-Speech ha existido durante décadas, pero los propietarios de sitios web y los blogueros solo recientemente comenzaron a darse cuenta de su inmenso poder y valor. Esto tiene mucho que ver con el hecho de que la gente está escuchando ahora más que nunca, y los editores necesitan una forma de satisfacer de manera efectiva la demanda y la expectativa de una audiencia creciente. Pero, en primer lugar, ¿cómo funciona Text-to-Speech? ¿Qué es, incluso? Nos alegra que hayas preguntado porque este artículo explica eso y mucho más.

Contents

¿Qué es Texto a voz?

Text-to-Speech , abreviado como TTS, es una tecnología que convierte texto digital en voz similar a la humana. Puede tomar texto en una computadora u otro dispositivo digital y leerlo en voz alta como audio de sonido natural con un simple clic de un botón o el toque de un dedo.

Text-to-Speech ha ganado una inmensa popularidad debido a lo simple y accesible que es. Es compatible con la mayoría (si no todos) los dispositivos móviles, incluidos los teléfonos inteligentes, las computadoras portátiles, las computadoras de escritorio y las tabletas, y puede leer todo tipo de archivos de texto, desde documentos de Word y Page hasta páginas web en línea.

Además, puede ser una característica conveniente o una herramienta de accesibilidad para niños y adultos que luchan contra la baja visión, la ceguera o problemas relacionados con el enfoque, el aprendizaje y la lectura de texto impreso en una pantalla.

¿Cómo funciona Texto a voz?

Supongamos que tiene un bloque de texto que desea que su computadora o dispositivo móvil hable en voz alta. ¿Cómo convierte las palabras en palabras que realmente puedes escuchar? Lo creas o no, solo hay tres etapas involucradas: convertir el texto en palabras, transformar las palabras en fonemas y luego convertir los fonemas en sonido.

Aquí hay un desglose detallado de lo que sucede en cada fase:

Convertir el texto en palabras

La etapa inicial de TTS generalmente se denomina preprocesamiento o normalización. Implica preparar el texto para que la computadora lo entienda y cometa menos errores al leer las palabras en voz alta.

Un algoritmo especial escanea el texto y convierte números, fechas, abreviaturas, acrónimos, puntuación y caracteres especiales en palabras. Sin embargo, el algoritmo tiene que determinar si «1923» significa «mil novecientos veintitrés», «mil novecientos veintitrés» o «uno, nueve, dos, tres» antes de que pueda descomponer el texto en sus constituyentes. piezas, por ejemplo.

Si bien esto suele ser una hazaña fácil para los humanos, las computadoras tienen que usar técnicas de probabilidad estadística o redes neuronales para llegar a la interpretación más probable. Entonces, si la palabra «año» aparece en la misma oración que «1923», podría ser razonable interpretarla como una fecha y pronunciarla como «mil novecientos veintitrés».

El preprocesamiento también tiene que descifrar homógrafos (palabras que comparten la ortografía exacta pero tienen pronunciaciones diferentes, dependiendo de sus significados). Un ejemplo perfecto de un homógrafo es la palabra «leer». Se puede pronunciar como «rojo» o «reed».

Entonces, una oración como “leí una historia” plantea un problema inmediato para un sintetizador de voz. Sin embargo, si puede reconocer que el texto anterior está completamente en tiempo pasado, al observar verbos en tiempo pasado como «me desperté» o «desayuné», puede hacer una suposición informada de que «leí [rojo] una historia” es probablemente correcto. Del mismo modo, si el texto anterior es «Me despierto» o «Tomo el desayuno», entonces «Leo [reed] una historia» probablemente sea la pronunciación correcta.

Transformar las palabras en fonemas

Ahora que el sistema ha descubierto las palabras que se pronunciarán, la computadora tiene que convertir las palabras en secuencias de sonido. Dado que cada palabra se puede pronunciar de manera diferente según su significado y contexto, la computadora necesita una lista de fonemas para entender cómo pronunciar cada palabra.

Los fonemas aquí son los componentes básicos de las palabras habladas. Por ejemplo, “taza” consta de tres fonemas: un sonido /k/ representado por la letra “c”, una vocal corta /u/ definida por la letra “u” y la /p/ al final.

El motor TTS hace coincidir la combinación de letras con los fonemas correspondientes para crear una transcripción fonémica. Debido a que algunas palabras tienen múltiples pronunciaciones, el sistema debe consultar con reglas preprogramadas específicas para determinar las pronunciaciones correctas.

Además de los fonemas, el motor TTS identifica entonaciones como sílabas con tonos ligeramente elevados o bajos, algo de volumen adicional aquí o allá, o una duración gradualmente mayor, como el «pero» en «mantequilla». Luego, el texto se convierte en una cadena de fonemas anotados para convertirse en sonido.

Convirtiendo los fonemas en sonido

Durante la etapa final, el sistema utiliza un modelo acústico para leer el texto procesado. Luego, un algoritmo de aprendizaje automático establece la conexión entre los fonemas y los sonidos para darles entonaciones precisas.

Después de eso, la computadora usa un generador de ondas de sonido para crear un sonido vocal. Las características de frecuencia de las frases finalmente se cargan en el generador de ondas de sonido. Estas características generalmente se obtienen de grabaciones de humanos diciendo los fonemas, frecuencias de sonido generadas por computadora o un enfoque que implica imitar el mecanismo de la voz humana.

Muchos sistemas TTS permiten a los usuarios elegir el tipo de voz, como masculino o femenino, el idioma, la velocidad de reproducción, etc. Algunos también pueden leer textos y emitirlos de forma similar a la humana (con todas las entonaciones y cadencias) , mientras que algunos pueden sonar robóticos y muy aburridos.

Tipos de herramientas de texto a voz

Hay muchas herramientas diferentes de TTS disponibles según el lugar donde se necesite la tecnología.

Algunos sitios web tienen herramientas de texto a voz basadas en la web en el sitio que permiten a los visitantes usar la función para escuchar varios tipos de contenido escrito.
Las herramientas integradas de texto a voz también están disponibles en muchos dispositivos, incluidas computadoras de escritorio y portátiles, tabletas digitales, teléfonos inteligentes y Chromebooks.
Muchos desarrolladores de software de alfabetización ofrecen programas de software de texto a voz en dispositivos para ayudar a niños y adultos que luchan con problemas de alfabetización y diversas discapacidades.
Los usuarios pueden descargar aplicaciones de texto a voz en computadoras y otros dispositivos. También hay extensiones de navegador de texto a voz que se pueden agregar a navegadores web como Chrome.

Usos comunes de texto a voz

La tecnología de conversión de texto a voz se ha vuelto tan popular que muchas personas se topan con ella todos los días sin siquiera darse cuenta, y probablemente usted también. Eso es de esperar porque a medida que la tecnología avanza, se vuelve más difícil saber si está escuchando una grabación simple o si está en juego Texto a voz.

Aquí hay algunos lugares en los que es probable que encuentre texto a voz a medida que avanza en un día típico:

1. Procesadores de texto con texto a voz

Text-to-Speech viene integrado en muchos procesadores de texto, como Microsoft Word. Word, en particular, tiene una función de «Leer en voz alta» en el menú «Revisar» que leerá el documento actual en voz alta si lo desea. Google Docs también tiene funciones de texto a voz, pero necesitará un complemento para usarlas.

2. Sistemas operativos de computadoras y teléfonos con texto a voz

Las funciones de accesibilidad, como Text-to-Speech, están integradas en casi todos los tipos de computadoras o teléfonos inteligentes del mercado. En Windows y Mac, puede habilitar la función Narrador para describir en voz alta lo que hay en su pantalla para que pueda usar esa información para navegar por su dispositivo. Los teléfonos inteligentes generalmente vienen con funciones de asistente de voz que brindan comentarios de voz para ayudar a los usuarios ciegos o con baja visión.

3. Lectores de libros electrónicos con texto a voz

Los lectores de libros electrónicos más populares, incluidos los nuevos dispositivos Kindle Fire, tienen una opción de conversión de texto a voz. Esto también incluye lectores en línea, como Internet Archive. Al comprar un libro electrónico para Kindle Fire, puede verificar si se puede leer en voz alta buscando la etiqueta «Texto a voz: Habilitado» en su página de detalles antes de comprarlo.

4. Cajeros automáticos con texto a voz

Algunos cajeros automáticos más nuevos están equipados con funciones de texto a voz para brindar servicios a los clientes que tienen dificultades para leer las pantallas. Por ejemplo, el audio paso a paso ayuda a los usuarios a retirar efectivo, consultar saldos de cuentas y realizar depósitos.

5. Asistentes virtuales y parlantes inteligentes con texto a voz

Text-to-Speech se ve con mayor frecuencia con asistentes inteligentes como Alexa de Amazon, Siri de Apple, Asistente de Google. Estos asistentes utilizan Text-to-Speech para proporcionar noticias y actualizaciones meteorológicas, emitir recordatorios y responder a preguntas y comentarios. Por lo general, funcionan aprovechando una biblioteca predeterminada de palabras y frases. Los parlantes inteligentes también usan la tecnología Text-to-Speech para realizar muchas de sus funciones principales.

6. Despertadores con texto a voz

Es posible que tenga un despertador que lo despierte diciendo la hora, o tal vez haya oído hablar de la función. En cualquier caso, esa es otra aplicación común de Text-to-Speech.

7. Software GPS con texto a voz

Google Maps, Apple Maps y la mayoría de los demás software y aplicaciones de GPS modernos están diseñados para leer en voz alta indicaciones paso a paso mediante la tecnología Text-to-Speech.

Pensamientos finales

Text-to-Speech existe desde hace algún tiempo, pero ha crecido hasta convertirse en una parte integral de muchas aplicaciones y tecnologías que usamos hoy en día, desde procesadores de texto y asistentes virtuales hasta cajeros automáticos modernos y software de GPS. Sorprendentemente, Text-to-Speech utiliza un proceso de tres etapas para leer contenido textual en voz alta, primero convirtiendo el texto en palabras, transformando las palabras en fonemas y luego convirtiendo los fonemas en sonido. A medida que la inteligencia artificial (IA) y otras tecnologías amplían lo que se puede lograr con la síntesis de voz, Text-to-Speech inevitablemente seguirá aumentando y se convertirá en una característica imprescindible para las empresas que intentan encontrar su voz y competir en un espacio digital.

8 beneficios de agregar texto a voz a su sitio web de blog

Uso de texto a voz (TTS) para crear una identidad de marca vocal única

Instagram agrega texto a voz a Reels