Segmentación automática de textos, mediante redes neuronales convolucionales en imágenes documentos históricos

Los manuscritos históricos contienen valiosa información, en los últimos años se han realizado esfuerzos para digitalizar dicha información y ponerla al alcance de la comunidad científica y público en general a través de imágenes en bibliotecas virtuales y repositorios digitales. Sin emb...

Descripción completa

Autor Principal: Ascarza Mendoza, Franco Javier
Formato: info:eu-repo/semantics/masterThesis
Idioma: Español
Publicado: Pontificia Universidad Católica del Perú 2018
Materias:
Acceso en línea: http://tesis.pucp.edu.pe/repositorio/handle/123456789/13050
Etiquetas: Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
Sumario: Los manuscritos históricos contienen valiosa información, en los últimos años se han realizado esfuerzos para digitalizar dicha información y ponerla al alcance de la comunidad científica y público en general a través de imágenes en bibliotecas virtuales y repositorios digitales. Sin embargo, existen documentos y manuscritos históricos escritos en un lenguaje extinto en la actualidad y una cantidad limitada de profesionales expertos en la interpretación y análisis de dichos documentos. Las imágenes de los documentos y manuscritos históricos poseen características particulares producto precisamente de su antigüedad como por ejemplo: La degradación del papel, el desvanecimiento de la tinta, la variabilidad en iluminación y textura, entre otros. Tareas como recuperación de información o traducción automática de imágenes de manuscritos históricos requieren una etapa de pre-procesamiento importante debido a las características mencionadas en el párrafo anterior. Entre las tareas de pre-procesamiento se puede mencionar la binarización y la segmentación de la imagen en regiones de interés. La presente tesis se enfoca en el procedimiento de segmentación en regiones de interés de las imágenes de manuscritos históricos. Existen métodos para segmentar imágenes de documentos históricos basados fundamentalmente en la extracción manual de características con previo conocimiento del dominio. La finalidad de la presente tesis es desarrollar un modelo general que automáticamente aprenda a extraer características de los pixeles de las imágenes de los documentos históricos y utilizar dichas características para clasificar los pixeles en las clases que previamente se definirán.