Ciencia abierta y de datos: retos y realidades
1. Una nueva realidad
Es temprano en una mañana cualquiera en la Estación Chama del Sur del Lago de Maracaibo Venezuela. Carlos Montiel, biologo investigador adscrito a esa estación se sirve café y continua pensando como poder predecir la incidencia de la Sigatoka Negra en las plantaciones de platano vecinas. Los productores fumigan cada 15 días y los niveles de químicos en los ríos que desembocan al lago estan subiendo de forma alarmante. Desde el Portal del Investigador -el nuevo servicio de datos disponible para la red de investigadores de América Latina- Carlos se conecta al buscador semántico de la red de repositorios datos bioclimaticos y logra correlacionar la información proveniente dos conjuntos de repositorios -biológicos y climaticos- y con ello descubrir una relación entre el aumento del cociente humedad relativa/humedad absoluta con la densidad de esporas de Sigatoka en el ambiente en los últimos meses. Hace una búsqueda en los últimos diez años y los resultados son asombrosos. Hay varios productores conectados al portal y Carlos escribe una nota. Incluye las gráficas de la serie temporal y propone cambiar el patrón de fumigación en la zona. Calcula los ahorros en vuelos, combustible y químicos. Se sorprende. A través del Portal cuatro de los productores responden que haran la prueba en los meses que siguen.
Este relato de “ficción” cada vez con mayor frecuencia se va convirtiendo en realidad en una cre- ciente actividad científica centrada en los datos, bien sea medidos por infinidad de sensores de todo tipo y/o simulados por complejos sistemas computacionales[1]. Desde siempre los descubrimientos científicos se apoyan en observaciones, en medidas experimentales, pero hoy lo radicalmente diferente no es solo la inmensa capacidad de cómputo disponible y el acceso a ingentes cantidades de datos, sino el surgimiento de una significativa cantidad de datos generada por nuestro comportamiento a través del uso de medios electrónicos. Los descubrimientos no serán simples comprobaciones estadísticas de predicciones teóricas, sino relaciones entre datos de distintas fuentes, capturados, catalogados e interrogados por mecanismos automáticos e inteligentes. Muchos descubrimientos recientes son hallazgos estadísticos, son inferencias sobre desviaciones de una o varias variables respecto a un comportamiento promedio establecido y mas lo serán de forma semiautomática.
Quizá no tengamos una conciencia clara de los profundos cambios que habrán de experimentarse en nuestra actividad de investigación producto de esa capacidad de simular, manejar y analizar inmensos volúmenes de datos provenientes de distintas fuentes. Es tal la cantidad de información a la cual hoy tienen acceso nuestros estudiantes, que debemos repensar las metodologías que utilizamos cotidianamente en su formación. Nuestra función como docentes habrá de focalizarse en la enseñanza de los principios básicos en ciencias y humanidades, proveyendo la capacitación necesaria para que puedan encontrar en la red la información pertinente y valorar su calidad[2]. Si bien los ingentes volúmenes de datos provenientes de mediciones reales y disponibles a través de la WEB, abren inmensas posibilidades para hacer una docencia productora de nuevos conocimientos y, mas aún, se comienzan a ver los esfuerzos por utilizar herramientas y metodologías de la e-investigación en la educación[2, 3, 4, 5], existe una resistencia de los mismos investigadores en utilizar Tecnologías de Información y Comunicación (TIC) en su docencia cotidiana[5, 6, 7]. Nos aferramos a los viejos paradigmas y visiones de la actividad científica. No percibimos que nos cambió el panorama y nos resistimos a entrar en la era informacional.
En este trabajo apunta a iniciar una reflexión que nos ayude vencer esa marcada resistencia y constituye una continuación de un esfuerzo desarrollado por años orientado a garantizar y difundir el acceso libre al conocimiento [8, 9, 10, 11, 12, 13, 14, 2, 15]. En la próxima sección discutiremos los cambios que se estan presentando en la actividad cotidiana de los investigadores y grupos de investigación, también comentaremos algunos conceptos de metadatos y sus estándares. En la sección 3 analizaremos dos nuevos retos que se tejen alrededor del linaje (provenace) de los datos: su veracidad (trustworthiness) y su reproducibilidad. Discutiremos también algunas estrategias que se perfilan para abordar el reto de garantizar la reproducibilidad del conocimiento científico. Finalizaremos con la sección 4 donde haremos algunas reflexiones sobre la necesidad para preservar el patrimonio intelectual producto de mediciones científicas financiadas con fondos públicos.
2. Un nuevo método científico
Los cambios mas dramáticos se registran en “zona” de validación experimental y la caracterización del estado del arte. El uso de TIC para la generación de ingentes volúmenes de datos (tanto simulados como medidos) viene modificando la cotidianidad de los investigadores y grupos de investigación. El “estado del arte” de tema lo define, no solo artículos accesibles a través de bases de datos documentales, nuevos “objetos” de información (datos, imágenes, audio, videos) asociados a los documentos tradicionales (los artículos).
Estos nuevos elementos son descubiertos, por buscadores semánticos, a partir de redes de repositorios con variados contenidos y que nos ofrecen tanto los artículos como los datos relacionados a éstos. Los nuevos “insumos” refinan el planteamiento del problema, generando nuevas preguntas y planteando novedosos derroteros para investigar las respuestas. Los datos -textuales, imágenes, audios y/o videos- accesibles pueden ser validados por haber servido para corroborar algún constructo teórico o experimental, como datos “crudos” sin interpretar y ambos pueden ser accedidos en varias etapas del proceso investigación.
La significativa e infraestructura1 permite generar grandes volúmenes de datos simulados, que son correlacionados con múltiples mediciones adquiridas a través de “nubes” de sensores, para luego validar o rechazar las posibles hipótesis de investigación. Esos datos con entidad propia -tienen autoría y dan muestra de confiabilidad- son accedidos por otros sistemas computacionales los cuales, a su vez, generan otros conjuntos de datos, conformando una cadena de datos que hacen referencia a otros que los antecedieron y, con múltiples formatos se fusionan con los artículos científicos.
Para ser descubiertos, accedidos y analizados, los datos deben ser fácilmente identificables. En pocas palabras, para que los datos sean útiles deben poder ser descubiertos y para ello deben ser descritos apegados a estándares acordados por las comunidades productoras. A esa información básica utilizada para describir los datos: su contenido, formato, fechas importantes, condiciones de uso, fuente, propiedad y otras características, se conoce con el nombre de metadatos. Esta información permite al usuario evaluar si determinado conjunto de datos es adecuado para sus fines y facilitar el acceso a la información. Obviamente, los metadatos pueden ser o no digitales y los datos a los que están asociados pueden existir en ambas formas. La utilización de metadatos facilita [16, 17] la identificación y adquisición de datos para un tema determinado y para un período de tiempo o localización geográfica específica; el procesamiento, análisis y modelado automático de los datos; y la incorporación de elementos de conocimiento semántico asociado a los datos. Una adecuada documentación sobre el muestreo, procedimientos analíticos, anomalías y calidad de los datos, así como sobre la estructura de las colecciones de datos, ayudará a que esos datos puedan ser correctamente interpretados y reinterpretados en el futuro. Por lo tanto los metadatos son claves porque generan confianza en los datos y, adicionalmente tienen “estampada” la autoría de quienes fueron los responsables de su adquisición.
3. Los datos, su confianza y la reproducibilidad de conocimiento
En este novedoso y complejo panorama se plantean nuevos retos alrededor de lo que se ha denominado “ambientes de descubrimiento” y surgen conceptos claves alrededor del linaje de los datos: su veracidad y su reproducibilidad.
La confianza en la veracidad de los datos está relacionada con la curaduría de los datos, con la calidad de los metadatos que muestre fehacientemente la adhesión a protocolos confiables de registro o generación de los datos2 que se realizan en cualquier desarrollo de investigación. Se confía en un investigador o un grupo de investigación por la meticulosidad y seguimiento estricto de un protocolo de descubrimiento con el cual respalda o respaldan sus resultados[15].
La reproducibilidad de los datos -o del conocimiento que de éstos emerge- es un concepto muy debatido por su variados matices, que van desde la “mera replicación” -manteniendo condiciones experimentales o sistemas computacionales equivalentes- hasta su “reproducción independiente” siguiendo esquemas experimentales o códigos computacionales distintos a los que los generaron [18, 19, 19, 20, 21]. La reproducibilidad está íntimamente ligada al acceso a las fuentes de datos que permite su remanipulación y reanálisis.
En un intrincado panorama surge la propuesta DART (por sus siglas en ingles de Data Accessibility, Reproducibility and Trustworthiness) la cual involucra, no solo posibilidad de acceso a las mediciones originales con sus metadatos detallados y de calidad, sino la necesidad de utilizar y manipular los sistemas computacionales que generan las simulaciones [22].
Esta es una iniciativa generada en el proyecto europeo CHAIN REDS (por Coordination and Harmonisation of Advanced e- infrastructure for Research and Education Data Sharing) que promueve la estandarización y cooperación en computación avanzada a escala global [23, 24].
CHAIN REDS promueve garantizar la veracidad y reproducibilidad de los datos a partir de la integración de recursos y servicios computacionales basados en tres principios fundamentales: 1. Adopción de estándares internacionales para el descubrimiento, caracterización del linaje y recuperación de datos: OAIPMH para la recuperación de datos[25]; esquema de metadatos ajustado al estándar Dublin-Core [26]; SPARQL para búsquedas y recuperaciones semánticas[27] y XML para el intercambio de datos.
2. Asignación de autoría de los archivos de datos mediante identificadores persistentes (PID, Persistent IDentifiers [28]) e identidades digitales a los usuarios a través de federaciones de proveedores de identidad. El PID, garantiza una autoría unívoca a cada conjunto de datos que será independiente de las restructuraciones que puedan ocurrir en la base de datos. La identidad digital vía federaciones de proveedores de identidad, es una forma simple y estándar de acceder a la e-infraestructura a escala mundial.
3. Acceso a recursos de computo avanzado para realizar sofisticados modelos que serán contrastados con los modelos provenientes de los datos descubiertos, accedidos y analizados. El acceso a esta variada infraestructura de servicios computacionales (supercomputación, Grid, Cloud o Clusters) debe ser posible a través de interfaces web intuitivas del tipo de los Science Gateway o portales científicos [24].
Este esquema de servicios y herramientas computacionales que vincula el acceso a los datos, a documentos y sistemas computacionales, viene siendo utilizado por varias comunidades de investigación en el mundo[15, 22, 24].
4. Reflexiones finales
La mayor parte de las investigaciones en Astronomía, Física de Altas Energía, Ecología y Medio Ambiente, Geología, Genética y Biología Molecular, por citar las áreas mas relevantes productoras de datos para la e-investigación, están financiadas con fondos públicos. Por ello es de intuir que los datos provenientes de simulaciones y mediciones, y no solo las publicaciones producidas a partir de éstos, pertenecen a todos los ciudadanos. Quizá el acceso a los datos pueda ser limitado si su utilización arriesga la seguridad de individuos o especies, compromete derechos de confidencialidad, o viola prerrogativas para su explotación temporal por quienes los recolectaron o generaron [29], pero los datos pueden ser el comienzo (o corroboración) de las ideas y, consecuentemente, deberían ser de libre acceso para que, con su uso y reutilización se pueda seguir la cadena de producción del conocimiento: Datos – información – Conocimiento – información – Datos.
La idea central es que los datos generados por financiamientos públicos son patrimonio de la humanidad y deben estar accesibles y disponibles tan amplia y directamente como se pueda [30, 31, 32]. Esta visión contrasta con la actitud de investigadores y grupos de investigación que consideran los datos como su patrimonio y, sobre todo, se enfrenta a la reciente posición de muchos editores, quienes comienzan a exigir los datos que respaldan las publicaciones, haciéndoles extensivo el derecho de reproducción (copyright), con la consecuente restricción para su reutilización.
Sin duda estos cambios que están ocurriendo en la actividad científica ameritan una discusión dentro de la misma comunidad científica y, sobre todo, una apertura de criterios cuando los actores políticos evalúen y orienten la productividad de investigadores y grupos de investigación.
Referencias
[1] M. Nielsen. Reinventing Discovery: The New Era of Networked Science. Princeton University Press, October 2011.
[2] H. Asorey, L.A. Núñez y C. SarmientoCano. Exposición temprana de nativos digitales en ambientes, metodologías y técnicas de investigación en la universidad. arXiv preprint arXiv:1501.04916, 2015.
[3] J. Gray y A. Szalay. The world-wide telescope. Commun. ACM, 45(11):50–55, 2002.
[4] M. Bardeen, E. Gilbert, T. Jordan, P. Nepywoda, E. Quigg, M. Wilde y Y. Zhao. The quark- net/grid collaborative learning e-lab. Future Gener. Comput. Syst., 22(6):700–708, 2006.
[5] C. Borgman. What can studies of e-learning teach us about collaboration in e-research? some findings from digital library studies. Computer Supported Cooperative Work (CSCW), 15(4):359–383, August 2006.
[6] P. Wouters. What is the matter with e-science? – thinking aloud about informatisation in knowledge creation. THE PANTANETO FORUM, July 2006.
[7] N. F. Foster y S. Gibbons. Understanding faculty to improve ir content recruitment. D-Lib Magazine, 11(1), January 2005.
[8] L.A. Núñez. La reconquista digital de la biblioteca pública. Interciencia, 27(4):195–201, 2002.
[9] J. A. Davila, L.A. Núñez, B. Sandia y R. Torréns. Los repositorios institucionales y la preservación del patrimonio intelectual académico. Interciencia, 31(1):22–29, 2006.
[10] J. A. Davila, L.A. Núñez, B. Sandia, J. G. Silva y R. Torréns. www.saber.ula.ve: un ejemplo de repositorio institucional universitario. Interciencia, 31(1):29–37, 2006.
[11] H.Y. Contreras, Z. Méndez, R. Torréns y LA Núñez. Desarrollo de la red bioclimática del estado Mérida, Venezuela: Estrategias de captura, manejo y preservación de datos ambientales. Interciencia, 33(11):795, 2008.
[12] L.A. Torres, L.A. Núñez, R. Torréns y E.H. Barrios. Implementación de un repositorio de datos científicos usando dspace. E-Colabora, 1(2):101–117, 2011.
[13] R. Torréns, Y. Briceño, Y. López y L.A. Núñez. Estrategias y políticas institucionales para captura de contenidos en la universidad de los andes, Mérida (Venezuela). E-Colabora, 1(2):65– 85, 2011.
[14] L.A. Núñez, J.G. Silva, y G. Vargas. Consejo de computación académica: 25 años de experiencia en servicios de computación en los andes venezolanos. In Actas Segunda Conferencia de Directores de Tecnología Gestión de las TI en Ambientes Universitarios TICAL2012, pages 224–244, 2012.
[15] H Asorey, D. Cazar-Ramírez, R Mayo-García, LA Núñez, M RodríguezPascual, LA Torres- Niño y the LAGO Collaboration. Data accessibility, reproducibility and trustworthiness with LAGO data repository. In The 34th International Cosmic Ray Conference, volume PoS(ICRC2015), page 672, 2015.
[16] W. Michener, J. Brunt, J. Helly, T. Kirchner y S.G. Stafford. Nongeospatial metadata for the ecological sciences. Ecological Applications, 7(1):330–342, Jan 1997.
[17] R. Torréns. Desarrollo de sistemas de información bioclimática. Master’s thesis, Ingeniería de Sistemas, Facultad de Ingeniería, Universidad de Los Andes, Mérida, Venezuela, 2003.
[18] J. Cooper, J. O. Vik y D. Waltemath. A call for virtual experiments: accelerating the scientific process. Progress in biophysics and molecular biology, 117(1):99–106, 2015.
[19] R. D. Peng. Reproducible research in computational science. Science (New York, Ny), 334(6060):1226, 2011.
[20] S. Bechhofer, I. Buchan, D. De Roure, P. Missier, J. Ainsworth, J. Bhagat, P. Couch, D. Cruickshank, M. Delderfield, I. Dunlop, M. Gamble, C. Goble, D. Michaelides, P. Missier, S. Owen, D. Newman y S. Sufi. Why linked data is not enough for scientists. Future Generation Computer Systems, 29(2):599–611, 2013.
[21] C. Drummond. Replicability is not reproducibility: nor is it good science. Available: http://cogprints.org/7691/. Accessed 19 June 2015., 2009.
[22] R. Barbera, B. Becker, C. Carrubba, G. Inserra, S. Jalife-Villal´on, C. Kanellopoulos, K. Kou- mantaros, R. Mayo-Garc´ıa, L.A. Nu´n˜ez, O. Prnjate, R. Ricceri, M. Rodr´ıguez-Pascual, Antonio RubioMontero, F. Ruggieri y el Proyecto CHAINREDS. Chain-reds dart challenge. In ANAIS DAS SESSO˜ ES TEMA´TICAS E POˆ STERS, page 166, 2014.
[23] G. Andronico, V. Ardizzone, R. Barbera, B. Becker, R. Bruno, A. Calanducci, D. Carvalho, L. Ciuffo, M. Fargetta, E. Giorgio, et al. e-infrastructures for e-science: a global view. Journal of Grid Computing, 9(2):155–184, 2011.
[24] R. Barbera, B. Becker, C. Carrubba, G. Inserra, S. Jalife-Villalón, C. Kanellopoulos, K. Koumantaros, R. Mayo-García, L.A. Núñez, O. Prnjate, R. Ricceri, M. RodríguezPascual, Antonio Rubio-Montero, F. Ruggieri y el Proyecto CHAIN-REDS. A chain-reds solution for accessing computational services. In Actas Cuarta Conferencia de Directores de Tecnología de Información, Gestión de las TICs para la Investigación y la Colaboración, volume TICAL2014, pages 15–24, 2014.
[25] H. Van de Sompel, M. L. Nelson, C. Lagoze y S. Warner. Resource harvesting within the oai-pmh framework. D-lib magazine, 10(12):1082–9873, 2004.
[26] S. Weibel, J. Kunze, C. Lagoze y M. Wolf. Dublin core metadata for resource
discovery. Technical report, 1998.
[27] J. Pérez, M. Arenas y C. Gutierrez. Semantics and complexity of sparql. ACM Transactions on Database Systems (TODS), 34(3):16, 2009.
[28] J. Hakala. Persistent identifiers: an overview. KIM Technology Watch Report, 2010. [29] P. Murray-Rust. Open data in science. precedings.nature.com, 2008. [30] P. Arzberger, P. Schroeder, A. Beaulieu y G. Bowker. Science and government: An international framework to promote access to data. Science, 303:1777=1778, Jan 2004.
[31] L. Lessig. Free Culture. THE PENGUIN PRESS, new york edition, Feb 2004.
[32] B. Alonso y F. Valladares. Bases de datos y metadatos en ecología: compartir para investigar en cambio global. Ecosistemas, 6(2):410, Jan 2006.
______________________________________________
1. Conjunción de grandes capacidades de cómputo, almacenamiento y comunicación que se ofrece a través de Internet.
2. Estamos considerando como protocolo científico aquel conjunto de reglas que generan las mediciones (montaje experimental, condiciones de registro de los instrumentos) o las suposiciones o propuestas que respaldan a determinados sistemas o códigos computacionales que generan los datos simulados.