¿Qué es Open Data?
Open Data es una filosofía que tiene por objetivo poner a disposición de la sociedad los datos que gestiona la administración pública en formatos fáciles de manipular.
Cualquier ciudadano o empresa puede analizar, reutilizar y redistribuir estos datos, generando nuevos servicios y permitiendo que la administración pública mejore en transparencia (gobierno abierto) y fomente la generación de riqueza a través de la gestión inteligente de los recursos (gobierno inteligente).
El objetivo es que ciudadanos y empresas puedan reaprovechar estos datos para generar valor económico. Podrán construir sobre ellos una nueva idea que genere nuevos datos, conocimientos o incluso la creación de nuevos servicios que reporten beneficios económicos y/o sociales. A estas empresas o personas se les denomina «infomediarios» o «reutilizadores».
¿Open Data o RISP?
Los términos Open Data y RISP (Reutilización de la Información del Sector Público) están muy relacionados. En ambos casos se trata de poner a disposición de la sociedad datos «en bruto» que mantenga la administración.
Aunque los términos puedan parecer similares, el concepto Datos Abiertos persigue ofrecer los datos en formatos completamente libres (no propietarios) y no se contempla el pago por el uso de datos (deben ser gratuitos). Sin embargo, la Reutilización de la Información de las Administraciones Públicas prevé la posibilidad del pago por el uso de estos datos y la publicación de los datos en cualquier formato.
Principios del Open Data
Para asegurar que se está hablando de Datos Abiertos y no de un sucedáneo que no entraría dentro de la filosofía real del Open Data, es necesario que se los datos ofrecidos cumplan los siguientes principios:
- Públicos
Se deben abrir todos los datos de carácter público (todos aquellos, claro está, que no estén sujetos a restricciones de privacidad, seguridad o derechos de autor). Así, no debería existir ninguna otra traba por parte de la administración a la hora de decidir qué datos es pertinente publicar - Detallados
Hay que publicar los datos tal y como están en su origen, sin procesar y, por tanto, manteniendo el mayor nivel de detalle posible, lo que se conoce como datos en bruto. - Actualizados
Los datos deben ser puestos a disposición de los usuarios con la frecuencia necesaria para que no pierdan su valor y sean precisos y actuales. - Accesibles
Hay que hacer accesibles los datos al mayor número de usuarios posible. No debería existir ninguna restricción para todos aquellos que quieran hacer uso de los datos, ni en el propósito de uso. - Automatizados
Los datos deben estar estructurados para que puedan ser procesadas de forma automática por un ordenador. Esta es una condición muy importante para que se puedan reutilizar los datos de una forma automática. - Sin registro
Los datos deben estar disponibles para todos, sin necesidad de identificarse previamente. - Abiertos
Los formatos de los datos deben ser no propietarios; es decir, no pueden depender de una entidad o de una herramienta propietaria de una entidad. Como ejemplo, un formato abierto sería CSV o XML, mientras que formatos propietarios serían Word, Excel, etc. - Libres
Los datos deben ser de uso 100% libre para los usuarios. Así, los datos deben estar libres de derechos, patentes, copyright y no estar sujetos a derechos de privacidad, seguridad o privilegios que puedan estar regladas por otras normas.
¿Qué es un dataset (conjunto de datos)?
El término dataset o conjunto de datos hace referencia a la categorización de los datos públicos en catálogos de datos. Los datos en bruto se organizan en datasets para ser más fácilmente indexados y localizados. Por ello, se utilizan campos (metadatos) que definen el grupo de datos como la descripción, la frecuencia de actualización, el formato o la licencia de uso entre otros.
Los formatos de datos más utilizados para la apertura de los mismos son:
- CSV (Comma-separated values): es un tipo de documento de texto plano para representar datos tabulados en columnas separadas por comas (o punto y coma) y filas separadas por saltos de línea. Es muy sencillo de utilizar y en muchos casos es trivial exportar los datos de una hoja Excel a formato CSV.
- XML (eXtensible Markup Language): es un metalenguaje simple que permite la interpretación de datos para diferentes lenguajes. Es el estándar para el intercambio de información estructurada entre diferentes plataformas. Muchas bases de datos permiten la exportación de sus datos a formato XML.
- RDF XML/TURTLE /N3 – (Resource Description Framework) no es un formato concreto sino una infraestructura para la descripción de los recursos de la web mediante expresiones de la forma sujeto-predicado-objeto. El sujeto es el recurso que se describe, el predicado es la propiedad sobre la que se quiere establecer el recurso y el objeto es el valor de la propiedad con el que se establece la relación. La combinación de RDF con otras herramientas permite añadir significado a las páginas y es una de las tecnologías esenciales para la web semántica. Existen varios formatos de representación: XML, para procesamiento automático; N3, para representación en texto plano de forma más legible para humanos; Turtle, como simplificación de la anterior.
- JSON (JavaScript Object Notation), es un formato ligero para el intercambio de datos. JSON es un subconjunto de la notación literal de objetos de JavaScript que no requiere el uso de XML.
- JSON-LD (JavaScript Object Notation for Linked Data) – JSON-LD, es un método de transporte de datos enlazados (Linked Data) utilizando JSON.
- WMS (Web Map Service) – Es un servicio definido por el OGC (Open Geospatial Consortium) que produce mapas de datos referenciados espacialmente, de forma dinámica a partir de información geográfica. Es un estándar internacional que define un mapa como una representación de la información geográfica en forma de un archivo de imagen digital.
- WFS (Web Feature Service) – también del Consorcio Open Geospatial Consortium es un servicio estándar, que ofrece una interfaz de comunicación que permite interactuar con los mapas servidos por el estándar WMS , como por ejemplo, editar la imagen que nos ofrece el servicio WMS o analizar la imagen siguiendo criterios geográficos.
- GML (Geography Markup Language) – Es un sublenguaje de XML descrito como una gramática en XML Schema para el modelaje, transporte y almacenamiento de información geográfica. Su importancia radica en que a nivel informático se constituye como una lengua franca para el manejo y trasvase de información entre los diferentes software que hacen uso de este tipo de datos, como los Sistemas de Información Geográfica.
- KML (Keyhole Markup Language) – es un lenguaje de marcado basado en XML para representar datos geográficos en tres dimensiones. Fue desarrollado para ser manejado con Keyhole LT, precursor de Google Earth. Su gramática contiene muchas similitudes con la de GML.
Otros formatos impiden que los datos puedan ser considerados como abiertos, como las imágenes (JPEG, GIF, TIFF, etc.), ya que las máquinas no pueden interpretar su contenido de una manera automática al no estar estructurados.
En el caso de los archivos PDF, aunque su origen se pretendía la portabilidad, tampoco son adecuados al no ser estructurados ya que pueden contener imágenes o ser directamente una imagen que contiene texto.
Los formatos como Word o Excel requieren disponer de licencia para su uso por lo que no sería aconsejable su uso en el el ámbito de los datos abiertos. En el caso de los datos en formato Excel, estos son fácilmente exportables a formatos de texto como CSV que sí cumplirían los requisitos de formato no propietario.
Beneficios del Open Data
Según apunta la Ley 37/2007 de reutilización de la información del sector público, «la información generada desde las instancias públicas, con la potencialidad que le otorga el desarrollo de la sociedad de la información, tiene un gran interés para las empresas a la hora de operar en sus ámbitos de actuación, contribuir al crecimiento económico y a la creación de empleo, y para los ciudadanos como elemento de transparencia y guía para la participación democrática». La propia Administración, mejorando su eficiencia y capacidad de interoperar con otras administraciones también es beneficiaria de esta apertura. De lo que se deduce que hay tres roles para los cuales se generan beneficios: empresas, ciudadanos y Administración.
Beneficios para las empresas
Las ventajas económicas del Open Data provienen de la posibilidad de que las empresas generen valor económico a partir de los datos públicos servidos por las administraciones, creando servicios y aplicaciones a partir de estos datos libres.
Esto se traduce en un nuevo nicho de mercado basado en contenidos digitales, lo que ayuda a la creación de riqueza y la posibilidad de dar servicios de valor añadido. Asimismo fomenta la competitividad entre empresas, al brindar la posibilidad de monetizar esta información pública y libre obteniendo un beneficio.
Beneficios para el ciudadano
La principal ventaja que conlleva la libre difusión de datos públicos es el acercamiento a los principios de gobierno abierto e inteligente, es decir, aquel en permanente conversación con los ciudadanos y que facilita la participación y colaboración de la ciudadanía en el ejercicio de sus funciones.
El uso y utilización de los datos públicos puede generar diversas aplicaciones y nuevos servicios de valor social que mejoren la vida de los ciudadanos. La creación de nuevos servicios por parte de las iniciativas privadas con el uso de los catálogos de datos abiertos, conlleva la generación de nuevos puestos de trabajo.
Por otra parte, proporciona una mayor transparencia por el hecho de exponer los datos públicos en un portal web de forma estandarizada, de manera que tanto ciudadanos como empresas u otras instituciones puedan hacer uso. Esto supone un gran paso para la transparencia informativa y la consecución de uno de los objetivos del gobierno abierto. Los ciudadanos pueden tener una visión más clara de las acciones y servicios de su administración así de cómo se está invirtiendo su contribución y gestionando los recursos públicos.
Beneficios para la administración pública
Las administraciones pueden reducir notablemente los costes de la realización de aplicaciones costosas que ahora pueden diseñar las empresas infomediarias, dinamizando de esta manera la economía.
La Administración también se beneficia de la colaboración de los ciudadanos, los cuales colaboran activamente en la mejora del servicio público con contenidos generados por ellos mismos o ideas e iniciativas creadas y promovidas por ellos o nuevas aplicaciones desarrolladas a partir de los datos públicas liberadas.
El poder intercambiar los datos entre diferentes administraciones (local, central, autonómica) promoviendo así la interoperabilidad da como resultado una mayor eficiencia en el funcionamiento de la Administración y la carga de trabajo de los empleados públicos, incrementando la colaboración entre administraciones, beneficiando, por tanto, al ciudadano.
La interoperabilidad conlleva también una reducción de costes debido al hecho de que en la medida en que dos conjuntos de datos se refieran al mismo tipo de información, si el formato elegido por las diferentes administraciones es el mismo, permite obtener más fácilmente nuevos usos de los datos al combinar.
La posibilidad de que el ciudadano colabore permite a los responsables políticos estar al día de las inquietudes y los intereses de sus vecinos.