Análisis y diseño de un sistemas de conversión texto-voz para dispositivos celulares aplicadas a las personas con necesidades especiales
Este trabajo presenta un sistema de conversión texto voz para celular programado bajo plataforma J2ME el cual es capaz de generar de forma automática una secuencia de sonidos que produciría una persona al leer un texto cualquiera en voz alta, este permitirá generar en la gran mayoría de los casos cu...
Autor Principal: | Morales Panamá, Jorge Fabián |
---|---|
Otros Autores: | Naula Pulla, Janneth Karina, Silva Palacios, Daniel Andrés |
Formato: | bachelorThesis |
Idioma: | spa |
Publicado: |
2010
|
Materias: | |
Acceso en línea: |
http://dspace.ups.edu.ec/handle/123456789/520 |
Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
Sumario: |
Este trabajo presenta un sistema de conversión texto voz para celular programado bajo plataforma J2ME el cual es capaz de generar de forma automática una secuencia de sonidos que produciría una persona al leer un texto cualquiera en voz alta, este permitirá generar en la gran mayoría de los casos cualquier enunciado en español, incluyendo la reproducción de números.
Al ser la síntesis de voz la producción artificial del habla humana, el estudio incluyo un análisis general del aparato fonador, se realizó un breve estudio de los órganos implicados en la producción del habla obteniendo así una idea general de cómo se forma la voz y sus características principales.
De igual manera se presentó la arquitectura más completa para el desarrollo de estos conversores texto a voz y se han analizado aquí cada fase siempre aplicado al desarrollo de nuestro proyecto de conversor para celular. Se planteó tres fases para el desarrollo primeramente el procesamiento lingüístico, el procesamiento prosódico y la síntesis de voz.
El procesado lingüístico se dedica fundamentalmente a determinar los sonidos que se van a producir y como producirlos para la lectura del texto de entrada. Para esto se realiza un preprocesado del texto y de tal manera que se quiten los diferentes números, símbolos y signos y se pueda realizar la selección de sonidos. Se analizó además el análisis y categorización gramatical, la formulación de un corpus, marcación de palabras, segmentación de frases, estructuración de diccionarios y análisis de los mismos. Se examinó la manera en que se podrían establecer las pausas dentro de las oraciones en función de los acentos y su posición dentro de la oración.
Para el procesado lingüístico la investigación incluyo un estudio teórico muy completo de FONÉTICA Y FONOLOGÍA específico para nuestro país (especialmente el habla de las personas que viven en la sierra del ecuador), punto fundamental para poder realizar la conversión de texto a voz, ya que los humanos reproducimos un texto en palabras, sin embargo el tratar que un conversor utilice palabras como unidad para la síntesis de voz es imposible esto debido a que no se podría almacenar en un móvil una base de datos con todas las palabras que incluye el léxico español, por lo tanto se debe realizar un división de menor nivel como es el caso de las silabas, ya que la cantidad de silabas es mucho menor que las palabras, en el proyecto se incluyó 164 silbas grabadas, las mismas que son reproducidas de acuerdo a la división silábica del texto de entrada en donde dicha división silábica se la logra en base a las reglas de fonética y fonología.
Para el procesamiento prosódico se estudió sus principales parámetros como son las pausas y el ritmo. Además se revisó los procesos de estilización de patrones melódicos para las diferentes tipos de frases para el español. Se planteó los patrones melódicos en función de las frases definiendo conceptos como la curva melódica que genera la señal de la voz. Se investigó como se podría de esta manera asignar las curvas y frecuencias fundamentales a las frases.
Como ya se mencionó anteriormente para la conversión de texto voz es necesaria la utilización de una base de datos de sonidos, ya que esta deberá contener el grupo de unidades digitalizadas pregrabadas, que posteriormente deberá emplear el sintetizador, para este primer avance del proyecto se utilizó una base de datos con voz femenina, la misma que puede ser obtenida en base a la grabación de frases, párrafos, palabras las cuales posteriormente con la utilización herramientas como "Speech Analyzer" deberán ser divididas en silabas, igual procedimiento se podrá seguir para la creación de una base de datos de voz masculina.
El conversor texto a voz está construido en base a la metodología de desarrollo RUP (RATIONAL UNIFIED PROCESS), el cual junto con UML (Lenguaje Unificado de Modelado), constituye la metodología estándar más utilizada para el análisis, implementación y documentación de sistemas orientados a objetos, otra razón por la que se utilizó el RUP es porque se trata de un conjunto de metodologías que se adapta a las necesidades de cada usuario, en este caso nuestro equipo de desarrollo. |
---|