Investigación
Semana 6
Semana 6
La sexta reunión con mi asesora de tesis la lleve a cabo en línea el 21 de Febrero del 2014 donde se dio revisión a mi avance de tesis de acuerdo a lo contemplado para la semana, se pidieron hacer correcciones en el documento de la tesis, se pidió completar los primeros capítulos por completo, y por último se explicó de forma general lo que había que hacer para esta semana.
Tareas realizadas
De forma general las tareas realizadas fueron las que se listan a continuación:- Corrección de errores.
- Se cambio el diseño de la matriz de características.
- Agregar más contenido a algunos párrafos.
- Terminar los primeros capítulos.
- Redactar la autobiografía.
- Proponer la metodología.
- Estructurar el contenido que se hará para la solución propuesta
- Avance de código en el pre-procesamiento de la imagen.
Metodología y solución propuesta
En el capítulo de solución propuesta se agregará todo lo que contribuimos. En forma general se explica qué y cómo hicimos el proyecto. Algunas secciones pueden ser:- El diseño para la interfaz de usuario.
- El diseño de la arquitectura.
- La implementación de algoritmos.
- Especificaciones.
- Casos de uso.
- Características, funcionalidades y módulos.
- La planeación del proyecto.
- La selección de herramientas.
- Las fases de desarrollo.
- Requisitos del sistema.
Mejora del pre-procesamiento de la imagen
Se realizaron cambios en el módulo encargado de procesar la imagen antes de pasarlo al módulo de reconocimiento de texto.En esta ocasión se tomó la siguiente imagen como muestra y se probó la nueva secuencia de filtros para conocer el resultado. Como se puede ver en esta imagen original, el texto es menos visible que en ejemplos usados anteriormente, lo cual dificulta mucho el reconocimiento de texto ya que se pierde con el color de fondo.
En este caso usando binarización invertida se logró el siguiente resultado.
memories:research ramongonzalez$ python improvement.py Tesseract Open Source OCR Engine v3.02.02 with Leptonica RESPONSABLE DE LA FABRICACION: UNILEVER DE MEXICO, 3. P: E2: DL cv. IEPALCAPA ND. 2. COL. RANCHO STO. DOMINGO, mg‘: AN. EDO. DE MEXICO. C.P. 54900. HECHO EN MEXICO. :mWD=.uxDLw v DISTRIBUIDO POR UNILEVER DE CENTROAMERLCA, SA, EN GUATEMALA, 24 AVENIDA CALZADA ATANASIO TZUL 356?. ZONA 12 , REG. D.G.R.V.C.S.-D.R.C.A. A-40091; EL SALVADOR, BLVD. DEL EJERCITO NAC. KM 3 1/2, SAN SWADOR, RLEG.19849D.G.S.; HONDURAS, ANILLO PERLEERLCD. TEGUCIGALPA, REGRSA; NICARAGUA CARRETERA NUEVA A LEON KM 10 1/2, MANAGUA. REG. No.; COSTA RLCA, DEL CRUCEDE I 1 SAN ANTONIO DE BELEN, 400 m OE _ 800 g.- E L LEREDLA, REGLSIRD SANDADLD L , :1-:“:¢\:.;¥€9‘ memories:research ramongonzalez$
El resultado en la misma imagen fue el siguiente, y como podemos ver el trazo de las líneas verdes coinciden con la ubicación de líneas de texto.
Después de esto faltará crear un cuadro delimitador que encierre sólo el texto, recortarlo y probar nuevamente con el reconocimiento de texto.
Avances para la siguiente semana
- Implementación de la solución propuesta.
- Hacer cambios sugeridas a la tesis.
- Implementar el modelo de la base de datos.