Ir al contenido principal

Marcelino - Paso 5 - Codificación de los datos (audio)

Paso 5 - Codificación de los datos (audio)

  Crear Codetrain.scp

    HTK llama a este último paso en la preparación de datos la "parametrización de las formas de onda de voz sin procesar en secuencias de vectores de características". Todo esto significa que HTK no es tan eficiente en el procesamiento de archivos wav como lo es con su formato interno. Por lo tanto, es necesario convertir los archivos de audio wav a otro formato llamado formato MFCC (que se refiere a Mel Frequency Cepstral Coefficients , que se denominan más generalmente vectores de características).

    Utilice la herramienta HCopy para convertir sus archivos wav al formato MFCC. Tienes 2 opciones. Puede ejecutar manualmente el comando HCopy para cada archivo de audio que creó en el paso 3 o crear un archivo que contenga una lista de cada archivo de audio de origen y el nombre del archivo MFCC al que se convertirá y utilizarlo como Un parámetro para el comando HCopy. Usaremos el segundo enfoque en este ejemplo.

    Cree el archivo de script HTC de codetrain.scp en su carpeta 'voxforge/tutorial'.

      ../train/wav/muestra1.wav ../train/mfcc/muestra1.mfc
      ../train/wav/muestra2.wav ../train/mfcc/muestra2.mfc
      ../train/wav/muestra3.wav ../train/mfcc/muestra3.mfc
      ../train/wav/muestra4.wav ../train/mfcc/muestra4.mfc
      ../train/wav/muestra5.wav ../train/mfcc/muestra5.mfc
      ../train/wav/muestra6.wav ../train/mfcc/muestra6.mfc
      ../train/wav/muestra7.wav ../train/mfcc/muestra7.mfc
      ../train/wav/muestra8.wav ../train/mfcc/muestra8.mfc
      ../train/wav/muestra9.wav ../train/mfcc/muestra9.mfc
      ../train/wav/muestra10.wav ../train/mfcc/muestra10.mfc
      ../train/wav/muestra11.wav ../train/mfcc/muestra11.mfc
      ../train/wav/muestra12.wav ../train/mfcc/muestra12.mfc
      ../train/wav/muestra13.wav ../train/mfcc/muestra13.mfc
      ../train/wav/muestra14.wav ../train/mfcc/muestra14.mfc
      ../train/wav/muestra15.wav ../train/mfcc/muestra15.mfc
      ../train/wav/muestra16.wav ../train/mfcc/muestra16.mfc
      ../train/wav/muestra17.wav ../train/mfcc/muestra17.mfc
      ../train/wav/muestra18.wav ../train/mfcc/muestra18.mfc
      ../train/wav/muestra19.wav ../train/mfcc/muestra19.mfc
      ../train/wav/muestra20.wav ../train/mfcc/muestra20.mfc
      ../train/wav/muestra21.wav ../train/mfcc/muestra21.mfc
      ../train/wav/muestra22.wav ../train/mfcc/muestra22.mfc
      ../train/wav/muestra23.wav ../train/mfcc/muestra23.mfc
      ../train/wav/muestra24.wav ../train/mfcc/muestra24.mfc
      ../train/wav/muestra25.wav ../train/mfcc/muestra25.mfc
      ../train/wav/muestra26.wav ../train/mfcc/muestra26.mfc
      ../train/wav/muestra27.wav ../train/mfcc/muestra27.mfc
      ../train/wav/muestra28.wav ../train/mfcc/muestra28.mfc
      ../train/wav/muestra29.wav ../train/mfcc/muestra29.mfc
      ../train/wav/muestra30.wav ../train/mfcc/muestra30.mfc
      ../train/wav/muestra31.wav ../train/mfcc/muestra31.mfc
      ../train/wav/muestra32.wav ../train/mfcc/muestra32.mfc
      ../train/wav/muestra33.wav ../train/mfcc/muestra33.mfc
      ../train/wav/muestra34.wav ../train/mfcc/muestra34.mfc
      ../train/wav/muestra35.wav ../train/mfcc/muestra35.mfc
      ../train/wav/muestra36.wav ../train/mfcc/muestra36.mfc
      ../train/wav/muestra37.wav ../train/mfcc/muestra37.mfc
      ../train/wav/muestra38.wav ../train/mfcc/muestra38.mfc
      ../train/wav/muestra39.wav ../train/mfcc/muestra39.mfc
      ../train/wav/muestra40.wav ../train/mfcc/muestra40.mfc

  Archivo de configuración

    El comando HCopy realiza la conversión del formato wav a MFCC. Para ello, se requiere un archivo de configuración (config) que especifique todos los parámetros de conversión necesarios. Cree un archivo llamado wav_config en su carpeta 'voxforge/tutorial' y añada lo siguiente:

      SOURCEFORMAT = WAV
      TARGETKIND = MFCC_0_D
      TARGETRATE = 100000.0
      SAVECOMPRESSED = T
      SAVEWITHCRC = T
      WINDOWSIZE = 250000.0
      USEHAMMING = T
      PREEMCOEF = 0.97
      NUMCHANS = 26
      CEPLIFTER = 22
      NUMCEPS = 12

    Si desea obtener más detalles sobre el contenido del archivo de configuración, consulte la documentación de HTK.

    Cree un nuevo directorio llamado 'mfcc' en su carpeta 'voxforge/train'. A continuación, ejecute HCopy desde la carpeta 'voxforge/tutorial' de la siguiente manera:

      ../soft/htk/HTKTools/HCopy -A -D -T 1 -C wav_config -S codetrain.scp

    El resultado es la creación de una serie de archivos mfc correspondientes a los archivos listados en su script codetrain.scp en la carpeta "voxforge/train/mfcc". Asegúrese de supervisar la salida del comando HCopy para asegurarse de que todos los archivos wav se procesen correctamente. La mayoría de los problemas están relacionados con rutas de archivos o archivos de audio en formato no-wav.