Desarrolladores
Last updated
Last updated
De acuerdo con el equipo de ingenieros, el portal de microdatos es una buena herramienta porque permite centralizar, en un solo repositorio, un importante número de dataset pertenecientes a diversas entidades privadas y públicas del país. Dentro del Informe Final se referencian varias de estas bases de datos, ya que son una de las fuentes que acompaña los análisis y las conclusiones de los investigadores; en este sentido, la herramienta se convierte en un instrumento de contraste de lo establecido en el documento. En últimas, la Comisión realizó toda una labor de búsqueda de información, articulación, convenios interinstitucionales, con el fin de acceder a información clasificada que pudiera contrastar las hipótesis de investigación.
En ese sentido, si bien existe en el país un sin número de portales abiertos, no hay un repositorio que centralice el universo de datos existente, ya que cada entidad publica solo su información. La Comisión de la Verdad, en su portal de microdatos, ha centralizado la información de alrededor de 120 organizaciones públicas y privadas, lo cual convierte a la herramienta en el mayor portal de datos abiertos del país en función del conflicto armado:
Es un trabajo bastante grande; y si necesitan un portal de datos abiertos de información estructurada sobre conflicto armado en el país, creería que esta es la primer versión de lo que habría. Ni siquiera la Unidad de Búsqueda, ni la JEP tienen algo parecido frente a información estructurada; entonces, creo que eso sería un plus para nosotros (...) Es un buen inicio que seamos la única entidad del sistema que tiene un catálogo de microdatos, más allá de que nuestra duración sea más corta que la JEP y la Unidad de Búsqueda... Tener algo avanzado como CKAN, hace ver que la Comisión sí le paró bastante atención a todo lo de información estructurada que va a estar en el Informe...
Es este trabajo inmenso lo que llevó a replantear la versión de CKAN Andino implementada al principio. Según el equipo, fueron varios los inconvenientes, entre ellos el tema de seguridad, que obligó a readaptar otra versión de este software libre. Siguiendo lo planteado por los ingenieros, en el CKAN Andino todos los dataset quedaban públicos, incluyendo los que no estaban anonimizados (con información o datos personales); eso fue un motivo de alerta que obligó a realizar todo un proceso de migración y readaptación de la herramienta.
Enfrentarse a un código abierto como el de CKAN conllevó una serie de experiencias y aprendizajes importantes para el conjunto de ingenieros desarrolladores. Para poder desarrollar el CKAN en función de las demandas de la Comisión de la Verdad, fue necesario un proceso de adaptación y acoplamiento con el núcleo del código; proceso que implicó varias horas de estudio y trabajo, y más si se tiene en cuenta que la documentación del CKAN es limitada.
Fue difícil al principio, me tocó adaptarme y entender el código de CKAN; poderme adaptar a ese código de CKAN para poder hacer las cosas... una vez pude entender cómo funcionaba CKAN, ahí sí pude realizar las cosas, los cambios que se iban a hacer...
De acuerdo con esto, y en términos del funcionamiento del portal, varios de los aprendizajes vienen dados en función del conocimiento y manejo de microdatos. En otras palabras, los ingenieros pueden estar familiarizados con los lenguajes de programación y las lógicas de desarrollo; no obstante, ello no implica que haya un conocimiento en el manejo de datos estructurados y/o microdatos, de allí que este aspecto se halla convertido, para varios de ellos, en un aprendizaje importante y necesario para llevar a buen término el desarrollo de la herramienta.
Ahora bien, trabajar con una herramienta como CKAN, que resguarda datos estructurados, implica tener contacto con otros equipos con el fin de definir aspectos como los metadatos, el etiquetado, entre otros aspectos; de hecho, uno de los desarrollos propios que se hicieron sobre el código de CKAN fue la reformulación de ciertos campos y la implementación del plugin DDI para los metadatos. De acuerdo con el equipo de desarrollo, se trabajó de la mano el equipo de lenguaje controlado para formalizar todo el tema de las etiquetas, ya que cada etiqueta asignada a un dataset debe estar previamente normalizada.
Asimismo, se realizó un trabajo colaborativo con el equipo de catalogación, para coordinar el tema de las licencias y los metadatos (estos últimos en función de la estructura del y todo el tema de los campos DDI):
Debíamos establecer unas equivalencias entre CKAN y la estructura que se creó para el buscador. Entonces, allí hay unos esquemas que se definieron alrededor de los cuales hemos tenido que hacer ajustes en CKAN... Adicionalmente, no teníamos muy claro cómo iban a ser los campos DDI, había que buscar las equivalencias con personas que fueran expertas en el tema. Allí hubo unas diez reuniones para poder definirlas y estar hablando el mismo lenguaje...
Implementar un repositorio de bases de datos implica establecer parámetros sobre permisos de acceso, etiquetado y catalogación, licencias para el uso y reproducción de los datos, entre otros aspectos que deben ser tenidos en cuenta dentro del desarrollo de la herramienta. Este proceso conlleva un trabajo colaborativo con profesionales de diferentes áreas: lingüistas, catalogadores, analistas/estadistas, etc.
La expectativa más grande que existe dentro del equipo, es la posibilidad de que la ciudadanía se apropie de la información publicada, y sea el inicio de un trabajo importante alrededor de la verdad, más allá del Informe Final entregado por la Comisión.
El proceso de anonimización llevado a cabo por la Comisión de la Verdad, se instaura como uno de los procesos más importantes dentro del portal de microdatos, en tanto es el proceso que permite que un mayor número de bases de datos sean públicas.
A nivel del código, se dejan publicadas las modificaciones realizadas a CKAN, con el fin de que se pueda descargar y actualizar la herramienta; adicionalmente, se espera que pueda seguir mejorando en términos de rendimiento y/o tipos de catalogación.