DATA 2.0 GCBA

Especificaciones Técnicas

Introducción a la Versión 2 del Catálogo

La versión 2.0 de data.buenosaires.gob.ar supone para el Gobierno de la Ciudad de Buenos Aires una oportunidad de revisar los criterios con que se han organizado los datos del catalogo hasta el momento.

En base a la experiencia acumulada en la primera etapa de la iniciativa, se han incluido una serie de cambios tanto en la forma en que se organizan los datos como su denominación y formatos. A continuación se detallan los criterios empleados.

CKAN es software libre distribuido bajo la licencia “GNU Affero General Public License” http://www.gnu.org/licenses/

Plataforma

El catálogo de datos utiliza CKAN (http://ckan.org/) en su versión 2.0 como plataforma.

CKAN es una herramienta desarrollada por la Open Knowledge Foundation (http://okfn.org/) y actualmente se encuentra entre las plataformas más populares siendo utilizada, entre otros, por el Gobierno Británico, de Brasil, Chile y ciudades como Londres, Berlin o Helsinki.

CKAN permite tanto la organización de los conjuntos de datos y recursos como el acceso programático a estos datos aplicando estándares aprobados internacionalmente.

A partir de su versión 1.8 CKAN permite la integración de una herramienta denominada Recline.js (http://okfnlabs.org/recline/), también desarrollada por la Open Knowledge Foundation. Recline permite la visualización de los distintos recursos de modo intuitivo, acercando la experiencia a una mayor cantidad de usuarios.

La implementación de CKAN para nuestro catálogo de datos carece de una funcionalidad explicada con mayor detalle en el siguiente link: Legacy Mode

Conjuntos de Datos

Los “conjuntos de datos” (también denominados “datasets”) son la pieza principal en todo el catálogo de datos. Los conjuntos de datos agrupan uno o más recursos de datos así como la documentación que les da contexto.

Criterios de Agrupamiento

Para pertenecer a un mismo conjunto de datos, los recursos deben:

  1. Versar sobre un mismo tema y
  2. tener la misma de estructura o encontrarse relacionados entre sí de tal modo que adquieran valor al utilizarlos en conjunto.

Asimismo, un conjunto de datos puede contener recursos documentales que sin proveer datos permiten su interpretación y enriquecen el análisis, así como recursos alternativos en una variedad de formatos que permitan la reutilización con un mayor número de herramientas.

Recursos

Los recursos son la pieza de información más pequeña del catálogo.

Formato de los recursos

Si bien pueden existir casos en los que por cuestiones técnicas u operativas esto no sea posible, en el catálogo se prefiere la publicación de los datos en los siguiente formatos:

  • Tablas: Comma Separated Value (csv), utilizando “comas” (,) como delimitador y “comillas dobles” (“) para indicar campos de texto.
  • Información Geográfica: en el caso de información geográfica se utilizará también csv pero incorporando un campo WKT (http://www.opengeospatial.org/standards/ct) o los campos Longitud y Latitud (WGS84)
  • Encoding: en todos los casos la codificación de caracteres (character encoding) será UTF8, según los estándares propuestos por la IETF http://tools.ietf.org/html/rfc3629
  • Fechas: se preferirá la utilización de las fechas en el siguiente formato: YYYY-MM-DD HH:MM:SS. En caso de que no corresponda ingresar datos de tiempo basta con completar con ceros. Ej. 2002-12-25 00:00:00.
  • Documentos: para los documentos se utilizarán los formatos PDF, TXT o MD.
  • Denominación de los campos: se utilizarán mayúsculas para nombrar los campos.
  • Archivos comprimidos: se preferirá la compresión en zip de los archivos.

Grandes Archivos

En el caso de archivos grandes que dificulten su manipulación, se incorporará -además del original- un fraccionamiento de los mismos siguiendo los siguientes criterios:

  • por períodos, en caso de tratarse de información temporal (Ej.: años, semestres, trimestres, meses, semanas, días),
  • por zonas, en caso de tratarse de información geográfica (Ej.: comunas, barrios, secciones, manzanas),
  • en caso de no prevalecer ningún otro criterio se lo hará por cantidad de registros.

Formatos alternativos

Además de los archivos con el formato detallado anteriormente, en algunos casos se procederá a brindar formatos alternativos atentos a ampliar la variedad de aplicaciones con que puedan ser manipulados, por ejemplo, shapefiles o geojson en el caso de información geográfica.

Documentación Anexa

Cada uno de los recursos cargados estará acompañado por un recurso denominado “Documentación Anexa-Nombre del Recurso de Origen” (Ej.: Documentación Anexa-Estaciones Saludables). Este documento describe el tipo de información que se publica, el proceso por el cual se obtiene, la campos del recurso y cualquier información extra que facilite su correcta interpretación, procesamiento y lectura.

Metadata

Para facilitar la navegación en el sitio y la búsqueda de conjuntos de datos se utiliza los estándares de metadata propuestos por defecto en CKAN (dublin core http://dublincore.org/ y dcat http://www.w3.org/TR/2013/WD-vocab-dcat-20130312/)

Dataset

  • Título: descriptivo y único. Lo suficientemente abstracto como para abarcar la multiplicidad de recursos. No incluye referencia a fechas ni lugares.
  • Descripción: una descripción amplia de los temas que aborda el conjunto de datos.
  • Tags: etiquetas que colaboran en la búsqueda de los usuarios. Los tags escritos, en singular y respetando la existencia de tags anteriores.
  • Organización: área del gobierno responsable del mantenimiento del dato.
  • Autor: unidad que genera la información. Estructura jerárquica separada por guiones. Ej: Ministerio de Cultura- SS Patrimonio Cultural- DG del Libro, Bibliotecas y Promoción de la Lectura
  • Responsable: En algunos casos puede que el responsable de publicar y mantener la información actualizada no responda a la misma unidad que el generador de la información; en dicho caso se detalla al igual que se lo hizo con el autor. En caso de que coincidan, se repite la información.
  • Email del Responsable: dirección de correo para la recepción de consultas.
  • Frecuencia de actualización Value: frecuencia de actualización acordada con el área que produce/mantiene el conjunto de datos.
  • Grupo: área/s temáticas/s predefinida a la que el conjunto de datos pertenece.

Recurso

  • Nombre del Recurso: nombre simple y descriptivo.
  • Descripción: descripción simple de la información contenida en el recurso. No más de una línea.
  • Formato: formato del archivo.

API

CKAN provee acceso a los datos y a la metadata por medio de una API.

La documentación puede encontrarse en el siguiente link: http://docs.ckan.org/en/latest/api.html

Glosario

  • Datos abiertos (open data): datos públicos completos, primarios, oportunos, accesibles, procesables, no discriminatorios, de uso libre y con formatos no restringidos.
  • Recurso: archivos con datos o documentación de contexto.
  • Conjunto de Datos (Dataset): Agrupamiento de recursos que tratan sobre un mismo tema y/o tienen una misma estructura.
  • Codificación de caracteres (encoding): estándares por los cuales un sistema informático reproduce un carácter al lenguaje natural.
  • API (Interfaz de Programación de Aplicaciones): es una interfaz de comunicación entre componentes software.
  • Aplicación: programa compilado y escrito en cualquier lenguaje de programación que suele resultar una solución informática para la automatización de ciertas tareas.
  • Catálogo de datos: herramienta que reúne, ordena y categoriza datasets de diverso tipo para facilitar su descubrimiento y localización.
  • Metadatos: datos y/o documentos que describen otros datos en términos de contexto, contenido o, en general, cualquier aspecto que se considere necesario para ampliar la conceptualización del dato descrito.
  • Software Libre: software que una vez obtenido puede ser usado, copiado, estudiado, modificado,y redistribuido libremente.
  • Licencia Abierta (de contenido abierto): es toda aquella formalización por escrito -por parte del titular, originario o no, de los derechos de propiedad intelectual de una determinada información- que recoja necesariamente la cesión explícita en exclusiva de los derechos patrimoniales de reproducción, distribución y comunicación pública de dicha información, incluyendo la puesta a disposición interactiva.

Normativa

Existen un gran conjunto de leyes, normas y jurisprudencia que otorgan marco a la iniciativa de datos abiertos en el contexto del Gobierno de la Ciudad Autónoma, tanto en materia del Derecho de Acceso a la Información como en materia de Protección de Datos Personales.

Entre ella se destaca la Ley N° 104 de Acceso a la Información Pública, cuyo objetivo es garantizar el derecho de toda persona a solicitar y recibir información de manera que la misma sea completa, veraz, adecuada y oportuna (documentos escritos, fotografías, grabaciones, soporte magnético o digital, etc) relativa a los actos o a la actividad administrativa de los poderes ejecutivo, legislativo y judicial, sin que exista la necesidad de indicar los motivos y la finalidad de dicha solicitud de información.

Asimismo, la Ley N° 1845 sobre Protección de Datos Personales faculta a los ciudadanos a decidir cuáles de esos datos personales quieren brindar a terceros, ya sea el Estado o un particular; o bien, cuáles datos pueden esos terceros obtener, permitiendo asimismo que se sepa quién posee sus datos personales y por qué motivo, pudiendo oponerse a esa posesión o uso. Esta última ley intenta proteger ciertos aspectos de la personalidad que formen un perfil determinado de una persona. Frente a esa posibilidad surge el derecho de sus titulares de exigir que esos datos permanezcan en el ámbito de su privacidad.

Links Útiles

Plataforma de Datos. http://ckan.org/

Open Knowledge Foundation: http://okfn.org/