Amazon Web Services amplía su registro de datos abiertos con más de 300 conjuntos científicos y gubernamentales
Tecnología

Amazon Web Services amplía su registro de datos abiertos con más de 300 conjuntos científicos y gubernamentales

El Registro de Datos Abiertos de Amazon Web Services (AWS) ha consolidado una colección de más de 300 conjuntos de datos públicos que abarcan desde imágenes satelitales hasta secuencias genómicas, según información publicada en el portal registry.opendata.aws. La plataforma, que no es mantenida directamente por AWS sino por terceros bajo diversas licencias, incluye datos de agencias como la NASA, la Administración Nacional Oceánica y Atmosférica de Estados Unidos (NOAA), los Institutos Nacionales de Salud (NIH) y la Agencia de Protección Ambiental (EPA), entre otras instituciones científicas y gubernamentales.

TECNOLOGÍA10 MAY 2026

El Registro de Datos Abiertos de AWS funciona como un repositorio centralizado que facilita el acceso rápido a información científica y gubernamental de gran escala, según se detalla en el sitio web del servicio. La plataforma permite a investigadores, desarrolladores y organizaciones acceder a conjuntos de datos sin necesidad de descargarlos completamente, utilizando la infraestructura de computación en la nube de Amazon.

Entre los conjuntos de datos más destacados se encuentra el Proyecto del Genoma del Cáncer (TCGA), una colaboración entre el Instituto Nacional del Cáncer (NCI) y el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de Estados Unidos, que ha analizado tejidos tumorales y normales de 11.000 pacientes para caracterizar 33 tipos y subtipos de cáncer, incluyendo 10 cánceres raros, según la descripción del registro.

El programa TARGET (Investigación Terapéuticamente Aplicable para Generar Tratamientos Efectivos) también está disponible en la plataforma, proporcionando caracterización molecular completa para determinar los cambios genéticos que impulsan la iniciación y progresión de cánceres infantiles difíciles de tratar, según la información publicada.

En el ámbito de observación terrestre, el registro incluye datos completos de las misiones Landsat 1, 2, 3, 4, 5, 7, 8 y 9 (excluyendo Landsat 6), que constituyen el registro continuo más largo basado en el espacio de la superficie terrestre, según el programa conjunto de la NASA y el Servicio Geológico de Estados Unidos (USGS). Los satélites Landsat proporcionan información diaria para ayudar a administradores de tierras y responsables de políticas a tomar decisiones sobre recursos y medio ambiente, según la descripción del conjunto de datos.

La misión Sentinel-2, un programa de monitoreo terrestre de dos satélites que proporciona imágenes ópticas de alta resolución, también está disponible en dos formatos: el conjunto original y una versión convertida a GeoTIFF Optimizado para la Nube (COG), según el registro. Esta misión proporciona cobertura global de la superficie terrestre cada cinco días, con datos de nivel L1C disponibles desde junio de 2015 a nivel mundial y datos L2A disponibles desde noviembre de 2016 sobre la región europea y globalmente desde enero de 2017, según la información publicada.

El registro incluye además el Common Crawl, un corpus de datos de rastreo web compuesto por más de 300 mil millones de páginas web, según la descripción del conjunto de datos.

En el campo de la meteorología, la plataforma alberga datos en tiempo real y de archivo de la red de Radar Meteorológico de Próxima Generación (NEXRAD) de Estados Unidos, así como múltiples colecciones de datos del proyecto MERRA-2 (Reanálisis Retrospectivo Moderno para Investigación y Aplicaciones versión 2), producido por la Oficina de Modelado y Asimilación Global (GMAO) de la NASA, según el registro.

El proyecto GOES (Satélite Ambiental Operacional Geoestacionario) también está representado, con una actualización significativa: el 4 de abril de 2025 a las 1500 UTC, el satélite GOES-19 fue declarado el satélite operacional GOES-Este, operando desde la ubicación de 75.2 grados oeste, según el anuncio incluido en el registro. Todos los productos y servicios para GOES-Este se transfirieron a datos de GOES-19 en ese momento, según la información publicada.

En genómica, el registro incluye la Base de Datos de Agregación del Genoma (gnomAD), un recurso desarrollado por una coalición internacional de investigadores que agrega y armoniza datos de exoma y genoma de proyectos de secuenciación humana a gran escala. La versión 4.1 del conjunto de datos (GRCh38) abarca 730.947 secuencias de exoma y 76.215 secuencias de genoma completo de individuos no relacionados de diversas ascendencias, secuenciados como parte de varios estudios genéticos poblacionales y específicos de enfermedades, según la descripción del registro.

El Proyecto 1000 Genomas también está disponible, con archivos de alineación y archivos de llamadas de variantes pequeñas, variantes de número de copia (CNV), repeticiones de tándem corto (STR), variantes estructurales (SV) y otras variantes del conjunto de datos de Fase 3 (3.202 individuos, 602 tríos) utilizando el software Illumina DRAGEN en versiones 3.5.7b, 3.7.6, 4.0.3, 4.2.7 y 4.4.7, según el registro.

El Proyecto del Sueño Humano (HSP) ofrece una colección creciente de registros clínicos de polisomnografía (PSG), comenzando con registros de aproximadamente 15.000 pacientes evaluados en el Hospital General de Massachusetts, con planes de crecer en los próximos años para incluir datos de más de 200.000 pacientes, así como personas evaluadas fuera del entorno clínico, según la información publicada. Estos datos se están utilizando para desarrollar CAISR (Informe Completo de Sueño con IA), una colección de redes neuronales profundas, algoritmos basados en reglas y enfoques de procesamiento de señales diseñados para proporcionar detección mejor que la humana de PSG convencional, según el registro.

El proyecto Folding@home, un proyecto de computación masivamente distribuido que utiliza simulaciones biomoleculares para investigar los orígenes moleculares de enfermedades y acelerar el descubrimiento de nuevas terapias, también comparte sus conjuntos de datos a través de la plataforma, según la descripción. Durante la epidemia de COVID-19, Folding@home contribuyó significativamente a la investigación, según menciona el registro.

En neurociencia, el archivo DANDI proporciona conjuntos de datos de neurofisiología, incluyendo datos crudos y procesados, y contenedores de software asociados. Este archivo apoyado por la Iniciativa BRAIN de Estados Unidos proporciona una amplia gama de datos de neurofisiología celular, incluyendo electrofisiología intracelular y extracelular, optofisiología, imágenes de calcio, fotometría de fibra, series temporales de comportamiento e imágenes de experimentos de inmunotinción, de más de 20 especies, según el registro.

El registro también incluye CZ CELLxGENE Discover, una plataforma gratuita para la exploración, análisis y recuperación de datos de células individuales que alberga la mayor agregación de datos estandarizados de células individuales de los principales tejidos humanos y de ratón, con modalidades que incluyen expresión génica, accesibilidad de cromatina, metilación de ADN y transcriptómica espacial, según la información publicada.

El Programa de Investigación Pediátrica Gabriella Miller Kids First del Fondo Común de los NIH tiene como visión "aliviar el sufrimiento del cáncer infantil y los defectos estructurales de nacimiento fomentando la investigación colaborativa para descubrir la etiología de estas enfermedades y apoyando el intercambio de datos dentro de la comunidad de investigación pediátrica", según se describe en el registro. El programa continúa generando y compartiendo datos de secuencia de genoma completo de miles de niños afectados por estas condiciones, desde cánceres pediátricos raros como el osteosarcoma hasta diagnósticos más prevalentes como defectos cardíacos congénitos, según la información publicada.

En observación de la Tierra, Digital Earth Africa proporciona acceso gratuito y abierto a una copia de los productos Landsat Collection 2 Level-2 sobre África, producidos por el USGS. Digital Earth Africa proporciona datos de los satélites Landsat 5, 7 y 8, incluyendo observaciones históricas que se remontan a finales de la década de 1980 y nuevas adquisiciones actualizadas regularmente, según el registro.

El proyecto ITS_LIVE (Serie Temporal Intermisión de Velocidad y Elevación del Hielo Terrestre) tiene como misión singular "acelerar la investigación de capas de hielo y glaciares produciendo registros globalmente completos, de alta resolución, baja latencia, temporalmente densos y multisensor de cambios en el hielo terrestre y las plataformas de hielo mientras se minimizan las barreras entre los datos y el usuario", según la descripción del registro. Los datos de ITS_LIVE actualmente consisten en productos de flujo de hielo de pares de escenas de Nivel 2 en formato NetCDF publicados en una cuadrícula estándar de 120 metros derivados de escenas ópticas Landsat 4/5/7/8/9, Sentinel-2 y escenas SAR Sentinel-1, según la información publicada.

El producto WorldCover de la Agencia Espacial Europea (ESA) proporciona mapas globales de cobertura terrestre para 2020 y 2021 con una resolución de 10 metros basados en datos de Copernicus Sentinel-1 y Sentinel-2. El producto WorldCover viene con 11 clases de cobertura terrestre y ha sido generado en el marco del proyecto ESA WorldCover, parte del Quinto Programa de Envoltura de Observación de la Tierra (EOEP-5) de la Agencia Espacial Europea, según el registro. Una primera versión del producto (v100), que contiene el mapa de 2020, fue lanzada en octubre de 2021, y el mapa de 2021 fue lanzado en octubre de 2022 utilizando un algoritmo mejorado (v200), según la información publicada.

El proyecto de Recursos Energéticos Mundiales de Predicción (POWER), financiado a través del Programa de Ciencias Aplicadas de la NASA, también está disponible en el registro, proporcionando datos para observar, comprender y modelar el sistema terrestre para descubrir cómo está cambiando, predecir mejor el cambio y comprender las consecuencias para la vida en la Tierra, según la descripción.

El Observatorio Global de Manglares (GMW) es resultado de la colaboración entre la Universidad de Aberystwyth (Reino Unido), solo Earth Observation (soloEO; Japón), Wetlands International, el Centro Mundial de Monitoreo de la Conservación (UNEP-WCMC) y la Agencia Japonesa de Exploración Aeroespacial (JAXA). El objetivo principal de producir este conjunto de datos es proporcionar a los países que carecen de un sistema nacional de monitoreo de manglares mapas de extensión y cambio de manglares de primera instancia, para ayudar a salvaguardar contra una mayor pérdida y degradación de los bosques de manglares, según el registro. El conjunto de datos del Observatorio Global de Manglares (versión 2) consiste en un mapa de referencia global de manglares, según la información publicada.

GeoNet, que proporciona información sobre peligros geológicos para Nueva Zelanda, también comparte datos y productos registrados por la red de sensores GeoNet, incluyendo datos GNSS (Sistema Global de Navegación por Satélite) en formato propietario y formato de intercambio independiente del receptor (RINEX), así como datos de medidores costeros que incluyen mediciones relativas del nivel del mar medidas por medidores de monitoreo de tsunamis, según el registro.

La Galería de Cell Painting es una colección de conjuntos de datos de imágenes creados utilizando el ensayo Cell Painting. Las imágenes de células son capturadas por imágenes de microscopía y revelan la respuesta de varios componentes celulares etiquetados a los tratamientos que se prueban, que pueden incluir perturbaciones genéticas, productos químicos o medicamentos, o diferentes tipos de células, según el registro. Los conjuntos de datos se pueden utilizar para diversas aplicaciones en biología básica e investigación farmacéutica, como identificar fenotipos asociados con enfermedades, comprender mecanismos de enfermedades y predecir la actividad, toxicidad o mecanismo de acción de un medicamento, según la información publicada.

El Proyecto de Expresión de Nanoporos de Singapur (SG-NEx) es una colaboración internacional para generar transcriptomas de referencia y un conjunto de datos de referencia completo para la secuenciación de ARN de lectura larga con Nanopore. La elaboración de perfiles de transcriptoma se realiza utilizando secuenciación de PCR-cDNA, secuenciación de cDNA sin amplificación (cDNA directo), secuenciación directa de ARN nativo (ARN directo) y secuenciación de ARN de lectura corta, según el registro. Los datos centrales de SG-NEx incluyen cinco de las líneas celulares más comúnmente utilizadas y se extienden con líneas celulares y muestras adicionales que cubren una amplia gama de tejidos humanos, según la información publicada.

El Desafío de Investigación de Enrutamiento de Última Milla de Amazon 2021 fue una iniciativa de investigación innovadora liderada por Amazon.com y apoyada por el Centro de Transporte y Logística del Instituto Tecnológico de Massachusetts. Durante un período de cuatro meses, los participantes fueron desafiados a desarrollar métodos innovadores basados en aprendizaje automático para mejorar los enfoques clásicos basados en optimización para resolver el problema del vendedor viajero, aprendiendo de rutas históricas ejecutadas por conductores de entrega de Amazon, según el registro.

SpaceNet, lanzado en agosto de 2016 como un proyecto de innovación abierta que ofrece un repositorio de imágenes disponibles gratuitamente con características de mapas co-registradas, alberga conjuntos de datos desarrollados por su propio equipo, junto con conjuntos de datos de proyectos como el Mapa Funcional del Mundo (fMoW) de IARPA, según la información publicada. Antes de SpaceNet, los investigadores de visión por computadora tenían opciones mínimas para obtener imágenes satelitales gratuitas, etiquetadas con precisión y de alta resolución, según el registro.

AWS advierte explícitamente que, a menos que se indique específicamente en la documentación aplicable del conjunto de datos, los conjuntos de datos disponibles a través del Registro de Datos Abiertos de AWS no son proporcionados ni mantenidos por AWS. Los conjuntos de datos son proporcionados y mantenidos por una variedad de terceros bajo una variedad de licencias, según la información publicada en el portal. La plataforma recomienda verificar las licencias de los conjuntos de datos y la documentación relacionada para determinar si un conjunto de datos puede usarse para una aplicación específica, según las instrucciones del registro.

Para agregar un conjunto de datos o un ejemplo de cómo usar un conjunto de datos a este registro, los interesados deben seguir las instrucciones en el repositorio de GitHub del Registro de Datos Abiertos de AWS, según la información publicada. La plataforma también proporciona tutoriales con cuadernos asociados de SageMaker Studio Lab para ayudar a los usuarios a comenzar a usar los datos rápidamente, según el registro.

La iniciativa representa un esfuerzo significativo para democratizar el acceso a datos científicos y gubernamentales de gran escala, eliminando barreras técnicas y económicas que tradicionalmente han limitado el acceso a información crítica para la investigación y el desarrollo en múltiples disciplinas científicas.

SIGUE LEYENDO
MÁS DE TECNOLOGÍA
Amazon Web Services amplía su registro de datos abiertos con más de 300 conjuntos científicos y gubernamentales · ColGlobal