Síguenos
El Cefca reta la capacidad de almacenamiento de información sobre el cosmos con su data center El Cefca reta la capacidad de almacenamiento de información sobre el cosmos con su data center
Héctor Vázquez y Tamara Civera en la EDAM-NG del Cefca en la plaza San Juan, una máquina de acceso externo a datos

El Cefca reta la capacidad de almacenamiento de información sobre el cosmos con su data center

La Unidad de Análisis y Procesamiento de Datos (UPAD) con todo su desarrollo es la otra gran joya del centro con el Observatorio Astrofísico
banner click 236 banner 236

El mundo está hoy al alcance de cualquiera a través de los móviles, que se han convertido en una prolongación cognitiva de las personas con sus 128 gigabytes de capacidad de almacenamiento estándar que tienen. Abarcar la inmensidad del Universo, cuyas dimensiones desbordan la imaginación del ser humano, es otra cosa, pero en Teruel hay un cerebro que lo está haciendo y en el que están quedando atrapados millones de objetos celestes. Se trata de la Unidad de Procesamiento y Análisis de Datos (UPAD) del Centro de Estudios de Física del Cosmos de Aragón (Cefca), cuya capacidad de almacenamiento hoy día alcanza los 5 millones de gigas. Detrás del desarrollo de esta maravilla científica y tecnológica hay un equipo de once personas que están sentando cátedra en la materia, y lo están haciendo desde Teruel.

Todo resulta muy complejo para el profano cuando se habla de almacenamiento y procesamiento de datos, y en particular si son de astrofísica, aunque para personas como Héctor Vázquez y Tamara Civera, profesionales del Cefca, desenvolverse entre esos conceptos científicos y de alta ingeniería es pan comido. Su trabajo, y el de sus compañeros de departamento, permite procesar toda la información que por las noches registran los telescopios de Javalambre.

Hasta hace poco toda esa información llegaba por radioenlace desde el Observatorio Astrofísico de Javalambre (OAJ) hasta la sede del Cefca en el antiguo edificio del Banco de España en la capital turolense, desde donde se redirecciona a los equipos de procesamiento y almacenamiento que se encuentran en la Delegación Territorial del Gobierno de Aragón.

Desde hace poco las instalaciones científicas se han conectado a la red óptica de RedIRIS gracias al despliegue de fibra óptica que se ha hecho desde el Pico del Buitre, lo que permite en este momento una potencia de 100 gigabytes. Aunque no se hace uso ahora de toda esa capacidad de transferencia, permitirá en adelante hacer una utilización cada vez mayor de ese potencial conforme se vayan renovando los equipos. Lo importante, de momento, es que eso ha aportado estabilidad al envío de datos desde el Pico del Buitre, donde está el OAJ, puesto que las condiciones meteorológicas influían antes en el sistema de radioenlace. Incluso en alguna ocasión llegó a cortarse la conexión al verse dañadas las antenas.

A diferencia de lo que se puede ver en el Observatorio de Javalambre, por la espectacularidad de sus telescopios y el tamaño de sus cámaras, entre las que está la que hasta hace poco era la segunda más grande del mundo y ahora ha pasado a ser la tercera, la UPAD no destaca por su aspecto físico, sino que más bien es discreta. De hecho, son solo unos armarios metálicos con procesadores y una librería robótica de cintas.

Su importancia reside en el desarrollo tecnológico que hay detrás para procesar toda la información que se registra con los telescopios en una noche de observación, el tratamiento que se hace de la misma y la puesta a disposición a los científicos.

Procesamientos astronómicos

La del Cefca es una de las siete Infraestructuras Científicas y Técnicas Singulares (ICTS) en astronomía que hay en España, que está compuesta tanto por el Observatorio Astrofísico de Javalambre como por la UPAD. Como su nombre indica, esta última es la unidad en la que se procesan y analizan los datos registrados con los telescopios, en donde se almacenan y se ofertan a los usuarios a través de portales en Internet.

Al frente de este trabajo están el científico Héctor Vázquez, que es el responsable del Departamento de Procesado y Archivo de Datos, y Tamara Civera, ingeniera de bases de datos científicos y responsable del área de Publicación de Datos. Ellos, junto con otras nueve personas, hacen posible que los objetos celestes que cada noche caen en las redes de los observatorios del Pico del Buitre, hablando en términos metafóricos, estén disponibles para los astrofísicos.

La velocidad a la que se puede acceder es brutal, puesto que en apenas un cuarto de hora desde que se hace la observación con el telescopio, los investigadores de un proyecto determinado ya pueden disponer de esa información, prácticamente en tiempo real y desde cualquier parte del mundo.

“Desde que se ha observado la imagen, en menos de 15 minutos el equipo de estos proyectos tiene acceso a las imágenes”, comenta Tamara Civera. Su compañero de departamento, Héctor Vázquez, precisa que es una “versión ligera” de esa información procesada, “pero es muy rápido”.

Vázquez aclara que es un proceso “complejo” pero que, una vez hecho, “es rápido”. “De esta forma pueden hacer la ciencia lo antes posible”, añade Civera, quien explica que “se da acceso a lo que son las imágenes crudas, a las imágenes calibradas y a los productos como los catálogos”, que es donde de forma sistematizada se ofrece una amplia información sobre los objetos detectados.

Todo ello se hace a través de un acceso “sencillo y fácil” que pueden visualizar y descargar “incluso en bloques para no tener que hacerlo imagen por imagen”, continúa explicando Civera. Se hace a través de dos portales online, el Tac Data para los proyectos de tiempo abierto (aquellos para los que se oferta tiempo de observación al tratarse de una ICTS y que son explotados en exclusividad por los científicos que lo desarrollan), y por otra el Cefca Catalogues Portal, que es donde se vuelcan los datos de los cartografiados que se están haciendo con los dos telescopios grandes, tanto J-PLUS como J-PAS y J-VAR.

Primero disponen de esa información los miembros de la colaboración científica de estos proyectos. Pasado un tiempo se ofertan al resto de la comunidad científica por ser proyectos legado al tratarse de grandes cartografiados.

La información está disponible en esos servidores, que son como el cerebro de los proyectos para los se están haciendo las observaciones desde el Pico del Buitre. Allí se procesa todo a través de los desarrollos informáticos llevados a cabo por los profesionales del Cefca.

Acceso a la información

Civera explica en una pantalla cómo funcionan estos portales, a los que se puede acceder tecleando en cualquier ordenador la dirección archive.cefca.es. La sucesión de archivos que aparecen y las imágenes del cosmos que muestra con infinidad de puntos brillantes en el firmamento hacen sentirse pequeño a quien las observa, a la vez que sirve para tomar conciencia de la importancia del proyecto, porque allí hay de todo, desde galaxias a estrellas y otros objetos que bien podrían ser asteroides de gran tamaño camino de la Tierra y que estaban pendientes todavía de ser descubiertos. Su utilidad va mucho más allá del conocimiento teórico.

En una buena noche de observación en el Pico del Buitre, lo que Vázquez define como una “noche perfecta”, se pueden generar con los dos telescopios hasta un terabyte de datos, es decir, mil gigas de información, que es el equivalente a la mitad de la capacidad de almacenamiento que de media tiene un disco externo de los que usamos en los ordenadores domésticos para guardar cosas fuera del disco duro. Suelen ser de 2 teras los que utilizamos en casa, con lo cual eso quiere decir que en dos noches nos habríamos quedado sin espacio para almacenar. Si tenemos en cuenta que un disco duro de un ordenador común, los de mayor capacidad, tienen 1 terabyte, a la primera de cambio en una sola noche nos habríamos quedado sin memoria.

Vázquez indica que el procesado y almacenamiento de datos comienza en el propio Observatorio de Javalambre, donde hay una “pequeña infraestructura comparada con la principal”. Allí cuentan con máquinas para hacer un primer procesado, además de servidores de base de datos “y almacenamiento mínimo para tener imágenes durante unos pocos meses”.
 

Armarios en la Delegación Territorial con el data center de la UPAD del Cefca

No es un procesado exhaustivo pero sí suficiente para evaluar si la imagen es correcta y tiene la calidad suficiente. “Hacemos medidas de ciertos parámetros que para nosotros son útiles para determinar eso y que nos dan idea de la transparencia de la atmósfera y de la nitidez”, detalla el científico.

En esa primera ubicación los datos se guardan unos meses. De ahí pasan al Cefca en la antigua sede del Banco de España, y desde este punto se envían al data center que está ubicado en la Delegación Territorial de la DGA en Teruel. Son máquinas de cómputo que trabajan con muchas unidades de procesamiento, que es donde se hace el procesado principal de las imágenes.

Previamente se hace una copia de seguridad de todos los datos que llegan en crudo para salvaguardarlos y después se pasan al procesador. Una vez analizados y procesados también se hace una copia de seguridad que pasa a la librería robótica que funciona con cintas, un procedimiento lento pero seguro, que se ayuda de un brazo mecánico para ir desarrollando el trabajo. Esa librería robótica tiene 4 petabytes de capacidad, es decir, 4 millones de gigas.

Procesado de las imágenes

Aparte, lo que es la máquina de procesado, que albergan varios armarios metálicos (se ha pasado de cuatro a dos al haberse renovado los equipos y ser cada vez más pequeños), se dedica al tratamiento de imágenes. Su capacidad es un 1 petabyte, o lo que es lo mismo, un millón de gigas. El archivo digital de una película suele tener como media un giga de peso, con lo cual podríamos almacenar hasta un millón de ellas en esta máquina.

En el procesado lo primero que se hace es un calibrado, que llaman reducción (limpieza) de los datos tanto ópticos como electrónicos, y el resultado final es “una imagen que está perfectamente preparada para su análisis”.

A continuación se extraen las fuentes, de manera que en cada imagen se detectan todos los objetos que aparecen, para lo cual se utiliza un software externo con implementaciones hechas por el propio Cefca. “Hay muchísimo desarrollo de la casa”, aclara Vázquez. En ese proceso lo que se identifica es cada uno de los objetos que aparecen en las imágenes, ya sean galaxias, estrellas, cuásares o asteroides.

Además, de cada objeto se extraen sus propiedades. Los telescopios captan las imágenes con filtros que permiten extraer información diferente en cada captura. “Ahí es donde se hacen las mediciones de todos los objetos detectados”, cuenta el científico, y que incluye todas sus características además de diferentes medidas que incluyen también su desplazamiento y distancia. Todo el procesado se hace de forma automática mediante los desarrollados informáticos que se van actualizando de forma constante por el personal del Cefca para mejorarlos y ganar en una calidad cada vez mayor.

Para hacerse una idea del volumen de información que se ofrece a los investigadores, para la última liberación del cartografiado J-PLUS se ofrecieron los datos de 47,4 millones de fuentes, es decir, de objetos detectados en el cielo. Y cada una de esas fuentes ofrece información de al menos mil propiedades.

Todo eso es lo que se procesa en el data center y se ofrece después a los científicos. En líneas generales, con el survey de J-PLUS se llevan cartografiados unos 5.000 grados cuadrados (un grado cuadrado sería el equivalente a lo que ocupan cuatro lunas en el cielo), y los objetos detectados y procesados con toda su información serían unos 80 millones. La nueva liberación de datos está previsto que se haga en septiembre, primero para la colaboración interna.

Con J-PAS el proceso es más incipiente, pero sí se han hecho públicos ya a toda la comunidad científica unos 800.000 objetos correspondientes a la observación de los primeros 17 grados cuadrados del cielo. Para los miembros de la colaboración se ha facilitado la información completa con todos los filtros de 30 grados.

Vázquez precisa que con todos los filtros se han observado ya con J-PAS 100 grados cuadrados. Inicialmente se pretende llegar a la observación de 8.000 grados, lo que da una idea de la magnitud de estos trabajos de cartografiado, que lo que ofrecen es un completísimo mapa del Universo visible con las características de los objetos, su ubicación y distancias.

Toda esa información es la que se facilita a los científicos a través de los portales del Cefca, explica Tamara Civera, para lo cual se han desarrollado unos accesos fáciles y sencillos con herramientas muy avanzadas cuyos desarrollos se están haciendo en Teruel.

Civera ha sido la responsable de su diseño y desarrollo. Formada en Teruel, es talento joven que ha podido regresar a su tierra para desarrollar un trabajo de ingeniería de muy alto nivel. Su trabajo ha sido reconocido por Virtual Observatory, un organismo internacional que fija servicios estandarizados de cómo ofrecer los datos de las observaciones astronómicas que se hacen en todo el mundo. Es la vice chair del grupo de interés de operaciones de este organismo.

Reconocimiento de Teruel

Eso pone de manifiesto el peso que el trabajo desarrollado en el Cefca tiene dentro de la comunidad científica internacional. Los desarrollados que se están haciendo desde Teruel marcan pautas y se están convirtiendo en referentes, tratándose de un centro muy joven, al igual que los científicos e ingenieros que trabajan en él.

Vázquez asegura que es esencial el trabajo de la UPAD para la optimización de los cartografiados del cosmos que se están realizando desde el Pico del Buitre. “No se puede aprovechar todo el potencial de los datos que tenemos si no se hace este procesado y esta organización de los mismo para su publicación”, argumenta.

Civera destaca lo apasionante de su trabajo porque “cada día te enfrentas a un reto”, y valora la importancia de trabajar en un grupo tan interdisciplinar como el que conforma la UPAD del Cefca.

Para el responsable del departamento es de destacar el intento que están haciendo para “contribuir a dar ideas para estándares” de tratamientos de datos. De hecho, Civera asegura que han colaborado con otros observatorios para transferir esos desarrollos que se hacen desde Teruel.

“Nuestro papel no es solo pasivo, sino también activo al contribuir a nuevos estándares de tratamiento y definirlos”, recalca Héctor Vázquez al final de una larga conversación, compleja por su contenido, pero clarividente de que el trabajo que desarrolla la UPAD del Cefca es puntero y que en la plaza San Juan se están haciendo desarrollos de primer orden a nivel mundial para una ciencia que enfrenta al ser humano a las grandes preguntas sobre la existencia, y que reta al desafío de almacenar la inmensidad del cosmos en una ciudad pequeña como Teruel.

Al alcance de un clic

Los cientos de gigas de información sobre el cosmos que cada noche registran los telescopios de Javalambre que gestiona el Cefca ponen el conocimiento al alcance de la mano de todo el mundo a través de cualquier ordenador personal. Se trata de una información abierta que está disponible para investigadores en distintas fases, primero para miembros de las colaboraciones científicas de cada proyecto y después para la comunidad astrofísica en general, pero a la que también puede acceder el público en general a través de los portales en los que se vuelcan los datos una vez procesados y con catálogos que facilitan sus consultas. El proceso para preparar esta información puede rondar los seis meses, ya que todo el software está en una continua mejora, si bien los investigadores pueden acceder a los primeros datos, con un mínimo procesado, apenas 15 minutos después de que hayan hecho las observaciones los telescopios de Javalambre. Todo ello gracias al software implementado desde la UPAD del Cefca con profesionales de talento que desarrollan su trabajo en Teruel. En 2024 se descargaron 9,19 terabytes de datos y la cifra va en aumento conforme se avanza en los cartografiados.