Oportunidad

Extracción de información desde documentos educativos PDF

Esta investigación se enmarca en el área de PDF mining para el dominio de educación. Específicamente, se parte de dos bases de datos de documentos educativos para todos los años escolares de Lenguaje y Comunicación en Chile. La primera son los documentos en PDF de todos los libros de texto estudiantiles seleccionados por el MINEDUC para ser el libro oficial de ese nivel escolar, junto con sus correspondientes guías docentes, que sugieren actividades, lineamientos pedagógicos y mejores prácticas para el uso del libro de texto en clases. La segunda es una base de datos relacional de creación propia en una IPRE anterior, que transformó cada página de los PDFs a texto plano. El desafío consiste en generar un método automático para poblar una tabla de la segunda base de datos según la información multimodal contenida en la primera: relacionar las páginas de cada guía docente a la página en específico del texto del estudiante a la que hacen referencia. El texto del estudiante está contenido como imagen en la guía docente en una ubicación predecible, por lo que se espera que se utilicen técnicas de computer vision, interacción con el código fuente del PDF y/o creación de bots para resolver la tarea. Se priorizarán la eficiencia de cómputo y la capacidad de generalización en la medida que cambie la editorial y el libro ganador de licitación año a año, para seguir actualizando la base de datos con todas sus relaciones.

Fecha de Creación	21/07/2025
Vacantes Disponibles	1/1
Créditos	10
Modalidad	Nota 1-7
¿Es CMD? De tener un carácter Interdisciplinario puede ser considerado como OFG	No
Mentores	Jorge Andres Baier Aranda (Responsable)

¿Es pública? Las oportunidades públicas son visibles para personas externas a la plataforma	Sí
¿Es postulable? Las oportunidades postulables son visibles para estudiantes y tienen vacantes disponible	Sí
¿Tiene fecha límite? La oportunidad dejará de ser postulable después de la fecha límite	No