Google está actualizando su teclado Gboard en teléfonos Pixel con dictado fuera de línea impulsado por AI . La actualización significa que los usuarios podrán dictar correos electrónicos y mensajes de texto de manera más rápida y confiable, dice Google, sin preocuparse de si están conectados a Internet.

"Imagínese que está saliendo de su edificio y desea enviar un mensaje a alguien que dice 'Me estoy retrasando'", dice Françoise Beaufays, científica investigadora y líder del equipo en el grupo de reconocimiento de voz y entrada móvil de Google. "Este es exactamente el momento en el que no tiene conectividad porque se está moviendo de Wi-Fi hacia un plan celular". Con la actualización a Gboard, Beaufays, "ese problema ya no existe".

Esto puede parecer un caso de uso trivial, pero Beaufays sostiene que las mejoras en el reconocimiento de voz revolucionarán lentamente la forma en que interactuamos con nuestros dispositivos móviles. Ella señala que aunque el reconocimiento de voz ha mejorado en los últimos años, sigue siendo una tecnología inmadura. Es computacionalmente intensivo, lo que significa que la mayoría de los sistemas de reconocimiento de voz tienen que enviar datos a través de Internet, y el resultado es un dictado lento y poco confiable.

"Imagínese si tuviera un teclado en el que no podría hacer clic en las teclas cuando la conectividad es mala", dice Beaufays. "Simplemente no usarías ese teclado". Pero al desconectar el sistema, dice, el dictado se convertirá en una opción más natural.

Para lograr esta transición, el equipo de Google pasó cinco años investigando el problema y simplificando los sistemas de inteligencia artificial que la aplicación utiliza para el reconocimiento de voz. Por ejemplo, mientras que las versiones anteriores del software de dictado de Gboard utilizan tres componentes separados para modelar formas de onda de audio, hacer coincidir los sonidos con los fonemas y luego combinar esos fonemas en una salida escrita, la versión actualizada integra todo este trabajo en un solo paso.

El nuevo modelo también adelgaza una parte del sistema conocida como el "gráfico de decodificador", un componente que funciona como un índice en un libro, que combina formas de onda de audio con palabras escritas. En la versión anterior del modelo de dictado de Gboard, este gráfico de decodificador tenía un tamaño de 2 GB, demasiado grande para el procesamiento en el dispositivo. La nueva versión, en comparación, es solo 80 megabytes, 25 veces más pequeña.

El lanzamiento de esta actualización se limita al dictado en inglés americano y los teléfonos Pixel por ahora, pero Beaufays sugiere que estará más disponible en el futuro, extendiendo el alcance del reconocimiento de voz de AI. "Desde un punto de vista tecnológico, diría que podemos permitirnos hacer esto en más teléfonos que Pixel", dice Beaufays. "Creo que lo que sucederá es que probablemente podamos lanzarlo en más dispositivos [y] en más idiomas".
[left-side]

Google actualiza el teclado Gboard con un dictado más rápido y más confiable de IA

La actualización solo está disponible en teléfonos Pixel ahora, pero debería afectar a otros dispositivos en el futuro