Ir al contenido principal

Marcelino - Reconocimiento de voz en español

MARCELINO



    ¡Hola Marcelino!

    En esto de las tecnologías creo que todos tenemos una obsesión que nos ronda por la cabeza, es como una espina que siempre está ahí y que a veces hace que incluso te olvides de que la hora de comer pasó hace tres horas.
     Yo lo que quiero es un Jarvis :P

     Hablando en serio, lo que aqui pongo hoy son los pasos para poder construir un modelo de lenguaje y un modelo acustico para Julius, EN ESPAÑOL.
     Julius es una aplicación para el reconocimieno de voz, el desarrollo lleva muchos años pero el problema que yo me encontré es que no existe un desarrollo integro en español. Julius se distribuye con modelos en ingles y en japones y para el que sepa estos idiomas es perfecto pero para mi que quiero hablarle a mi ordenador en español como es lógico, no me valen.

     Los pasos que publico aquí son una traducción e interpretación de los pasos que existen en la pagina de voxforge (http://www.voxforge.org/home/dev/acousticmodels/linux/create/htkjulius/tutorial/data-prep/), aunque no se queda simplemente ahí ya que hay ciertos archivos que estando creados para desarrollar el modelo en ingles los he rehecho para adaptarlos al español. He intentando adaptarlo todo para poder ser coherente con mi idioma pero algunas cosas las he tenido que dejar en ingles.

    Ya que soy un poco "ganso", escribi un script en python para poder hacer de forma mas o menos automático el proceso de creacion del modelo pero para poder usarlo bien hay que entender, aunque sea un poco cuales son los pasos que se dan.

     En mi repositorio de github se puede encontrar el trabajo que voy haciendo con Marcelino (https://github.com/daribes/marcelino-dev), el script del que hablaba esta en escucha/guion.gy y para poder usarlo hay que crear los archivos que se detallan en el README, pero bueno, espero que nadie lo use.

     La creación de un modelo para Julius es el primer paso que he decidido dar para la creación de un asistente de voz que pueda controlar ciertas cosas, quiero ir un poco mas allá e investigar como poder hacer que aprenda de forma automática y claro, todo esto lo intentaré llevar a una RPi3. En principio el desarrollo lo he llevado desde una Ubuntu 16.04 pero con la idea de trasladarlo a la RPi.

     Las siguientes tareas que tengo son:
         - Interpretar lo reconocido
         - Sintetización de texto
         - Aprendizaje continuo

     Puede que este gran proyecto parezca demasiado ambicioso, nunca me han gustado los retos fáciles.