Ya puedes tener reconocimiento de voz en tu distro Linux

Hace unos días hablamos del desarrollo de James McClain, un joven programador que había implementado una solución de reconocimiento de voz, Ubuntu Speech Recognition, basada en la API de Google Voice para poder realizar diversas tareas con órdenes de voz en una máquina Linux, de forma similar a como funciona Siri en dispositivos iOS.

Esta aplicación permite al usuario abrir sitios web en el navegador, preguntar cosas y realizar otras tareas con solo la voz. Aunque originalmente estaba desarrollada para Ubuntu, podía ser utilizada para otras distribuciones.

Ahora el desarrollador, que había iniciado un programa de beta privada para evaluar el desarrollo, quiere mejorar su evolución, y para ello ha liberado el código bajo licencia GPLv3.

Lo cuentan en Muktware, donde revelan un vídeo en el que se puede ver el programa en acción, y en el que indican dónde poder descargar el código fuente desde GitHub, donde uno de los ficheros (el famoso README.txt) explica cómo instalarlo antes de poder usarlo. A continuación, el mencionado vídeo. No está mal, ¿a que no? Habrá que ver si funciona en español…

Google presenta Chrome 25 con soporte de reconocimiento de voz

Google ha publicado Chrome 25 para Windows, OS X y Linux, y lo ha hecho con una característica destacada: el soporte del reconocimiento de voz a través de la nueva API Web Speech, una API en JavaScript que permite a los desarrolladores integrar el reconocimiento de voz en sus aplicaciones web.

El soporte de voz es algo que Google ha estado impulsando en su sistema operativo Android, y que poco a poco está llevando a la versión de escritorio de sus soluciones (se habla de que Google Now también estará pronto disponible en Chrome). Con este soporte para el reconocimiento de voz, los usuarios podrán no solo buscar a través de la voz, sino también dictar documentos o controlar servicios web con comandos dictados.

Otra de las mejoras destacadas es la inclusión del soporte para el protocolo WebRTC, un proyecto Open Source que proporciona a los usuarios de Internet la capacidad de comunicarse en tiempo real con voz y con vídeo si el navegador lo soporta. Firefox 18 ya tiene soporte preliminar para este estándar, y Chrome 25 lo soporta desde la edición beta. Podéis probar este soporte en la Web Speech API Demonstration.

También han deshabilitado la instalación «silenciosa» de extensiones, y en Chrome 25 se deshabilitarán de forma automática aquellas que se hayan añadido sin permiso del usuario, aunque podremos mantener cualquiera de ellas aceptando esa opción cuando Chrome 25 nos pregunte. Normalmente instalamos extensiones desde la Chrome Web Store, pero algunas se instalan de forma silenciosa sin notificar al usuario, y algunos desarrolladores independientes estaban abusando de esta característica.

Podéis acceder a la nueva versión desde el menú de actualización del navegador, o bien instalar Chrome 25 desde la página oficial del proyecto, aquí.

Un programador independiente desarrolla un sistema de reconocimiento de voz en Ubuntu

Una potente herramienta de reconocimiento de voz ha sido desarrollada en Ubuntu por parte de un joven programador llamado James McLain que ha prometido ofrecer una beta privada de esta herramienta durante las próximas horas.

Con este sistema de reconocimiento de voz los usuarios pueden abrir y cerrar aplicaciones, navegar por la web, realizar tareas básicas con ficheros, realizar dictados de voz, enviar notas y recordatorios a una dirección de correo e incluso obtener a preguntas a través de los motores de búsqueda integrados en Ubuntu.

La herramienta se lanza con un atajo de teclado que activa la espera de un comando de voz, y que luego hace uso del motor de reconocimiento para luego contrastarse con un diccionario que en caso de encontrar la palabra, aplica el comando o acción adecuado.

Una de las características del software es esa «búsqueda borrosa» (fuzzy search) que permite que los usuarios ejecuten una aplicación o naveguen por cierta web usando distintas palabras. Por ejemplo, «abre firefox», «ejecuta firefox» o «corre firefox» se encargarían de lanzar una instancia del navegador web de Mozilla.

El vídeo publicado por McLain deja claro la capacidad de este motor de reconocimiento de voz, que tiene una pinta realmente prometedora: