Principles FAIR y Intercambio del Datos

En este cuaderno, los estudiantes practican la estructuración y documentación de metadatos utilizando estándares consistentes y ensamblan paquetes listos para su envío a repositorios públicos y portales de datos. Los cuadernos enfatizan formatos de archivo comunes, campos de metadatos requeridos y flujos de trabajo prácticos de envío, ayudando a garantizar que los conjuntos de datos permanezcan localizables, interoperables y fácilmente reutilizables en diferentes plataformas y estudios.

Guía para el Envío de Datos Transcriptómicos

Este documento proporciona orientación sobre cómo preparar metadatos y enviar datos transcriptómicos al NCBI (National Center for Biotechnology Information), en el SCEA (Single Cell Expression Atlas) y el Portal de datos HCA (Human Cell Atlas Data Portal), es aplicable a la transcriptómica de células individuales, ARN-Seq en masa y espacial, siguiendo los principios FAIR(Findable, Accessible, Interoperable, Reusable).

Metadatos en Datos Transcriptómicos

Los metadatos describen los datos. Es decir, constituyen información descriptiva que acompaña a los datos brutos y procesados, lo que permite su comprensión, contextualización y reutilización, etc.

En los estudios transcriptómicos, ya RNA-Seq bulk, de células individuales o espaciales, los metadatos deben capturar tanto los aspectos biológicos como los técnicos. Esto incluye:

Información biológica: organismo, tejido, tipo celular, condición experimental, tratamiento, momento de recolección, características clínicas o ambientales
Información técnica: plataforma de secuenciación, protocolo de la biblioteca, parámetros de captura (p. ej., 10x Genomics, Smart-seq2, Visium), calidad del ARN, software y versiones utilizadas.
Contexto experimental: diseño del estudio, grupos de comparación, réplicas, factores de lote, controles.
Datos procesados: archivos de salida como matrices de contagem, archivos normalizados, coordenadas espaciales, así como scripts y pipelines utilizados.

Metadatos bien estructurados es esencial para garantizar que otros investigadores puedan interpretar correctamente los datos, validar los resultados e integrarlos en análisis comparativos o bases de datos de referencia.

Metadatos FAIR

Para que los metadatos cumplan plenamente su función, deben presentar una serie de características que garanticen su utilidad y calidad. En este sentido, los principios FAIR ofrecen un conjunto de buenas prácticas que ayudan a organizar y aumentar la eficacia de los metadatos.

Findable (Localizables): uso de identificadores persistentes. Para los artículos, se utilizan DOI; para los datos y metadatos, identificadores como BioProject, BioSample, SRA y GEO, además de palabras clave estandarizadas que facilitan la búsqueda.
Accessible (Accesibles): disponibilidad en repositorios públicos, en formatos abiertos y legibles por máquina, lo que garantiza un acceso amplio y transparente.
Interoperable (Interoperables): adopción de vocabularios y ontologías reconocidos (p. ej., Cell Ontology, Uberon, Disease Ontology), lo que permite la integración entre diferentes bases de datos y un reconocimiento consistente de los datos.
Reusable (Reutilizables): metadatos completos, con protocolos claros y documentación suficiente para permitir el reanálisis y las comparaciones, garantizando al mismo tiempo la preservación de la codificación y la anonimización de las personas.

Aunque no es obligatorio, es muy recomendable seguir estos principios para aumentar la visibilidad, la accesibilidad y la reutilización de los datos.

Formatos de archivo para el envío

Antes de comprender el diagrama de flujo de envío del NCBI, es importante conocer los formatos de archivo más comunes. Cada extensión contiene un tipo de información y tiene usos específicos en los RNA-seq (bulk, single-cell ou spatial).

Archivo .csv (Comma-Separated Values)

Un archivo donde los campos se separan por comas. Es ampliamente aceptado en hojas de cálculo y software de análisis. Se utiliza comúnmente para contar archivos.

Precaución: Las comas en el texto pueden causar conflictos.

Excel: Archivo > Guardar como > CSV
Hojas de cálculo de Google: Archivo > Descargar > CSV

Archivo .tsv (Tab-Separated Values)

Un archivo de texto donde cada columna está separada por una tabulación (TAB) y cada línea representa una entrada (p. ej., muestra o gen).

Se usa con frecuencia para metadatos y matrices de recuento, ya que evita conflictos con comas en el texto.

.csv	.tsv
Usa comas entre campos	Usa tabulación (TAB)
Puede causar conflictos con comas en el texto	Más seguro para metadatos textuales
Extensión: .csv	Extensión: .tsv

Cómo guardar:

Excel: Archivo > Guardar como > Texto (delimitado por tabulaciones) (.txt) → renombrar a .tsv (si es necesario)
Hojas de cálculo de Google: Archivo > Descargar > Valores delimitados por tabulaciones (.tsv)

Archivo .txt (Plain Text)

Un archivo de texto sinple, generalmente utilizado para recuentos de muestras o metadatos básicos. Puede estructurarse como una tabla (con tabulaciones o espacios) o como una lista.

Archivo .rds (R Data Serialization)

Es un formato binario específico de R. Permite guardar objetos complejos (como matrices normalizadas, objetos Seurat o SingleCellExperiments) conservando la estructura y los metadatos. Ideal para la reutilización directa en análisis de R.

Archivo .R (R Script)

Un archivo de código escrito en R (un script de R). Se utiliza para compartir procesos de análisis, incluyendo normalización, DESeq2, Seurat, etc.

Archivo .sh (Shell Script)

Es un script de shell, un script de terminal (bash/shell). Se utiliza para automatizar pasos de procesamiento, como la alineamiento, la conversión de formato o el envío de trabajos a servidores.

Archivo .ipynb (Jupyter Notebook)

Archivo interactivo que combina código (Python, R, etc.), resultados y documentación. Muy útil para la reproducibilidad, ya que muestra el análisis paso a paso. Aceptado por GEO para compartir pipelines completos.

Flujo de trabajo de envió para NCBI


[ BioProject ]
     ↓
[ BioSample ] → [ SRA (raw files: FASTQ) ]
     ↓
[ GEO (Processed data: matrices, metadata, scripts) ]

El NCBI utiliza una estructura jerárquica que conecta diferentes niveles de información:

BioProject: es el nivel más alto y representa el estudio ao todo. Cada proyecto recibe un identificador único (p. ej., PRJNA123456) y agrupa todas las muestras y experimentos relacionados.
BioSample: describe cada muestra biológica individual dentro del proyecto. Esto incluye información como organismo, tejido, tipo celular, condición experimental, tratamiento y sitio de recolección. Cada BioSample recibe su propio código (ex.: SAMN45678901).
SRA (Sequence Read Archive): guarda datos brutos de secuenciación, como archivos FASTQ o BAM. Cada envío genera un identificador SRRxxxxxxx.
GEO (Gene Expression Omnibus): guarda datos procesados, como matrices de recuento, archivos normalizados y metadatos de expresión. Cada envío recibe un identificador GSExxxxxx.

Creando el BioProject

BioProject agrupa todas las muestras y datos de un estudio. Cree solo un BioProject por estudio.

Para ello, necesita crear una cuenta de NCBI.

Incluya título, descripción, organismo y tipo de dato.

Ejemplo:

título_del_proyecto: Atlas transcriptómico unicelular de PBMC durante la infección por CHIKV

tipo_de_dato: Transcriptoma (bulk + single-cell + spatial)

Crear a través del sitio web: https://submit.ncbi.nlm.nih.gov/subs/bioproject
Al enviar, se genera un código PRJNAxxxxx (e.g., PRJNA123456)

Creando el BioSample

Cada muestra biológica recibe un identificador único. Para muestras transcriptómicas, describa:

sample_name, organism, tissue, cell_type, disease, treatment, time_point, geo_loc_name

Campos adicionales: sequencing_protocol, dissociation_method, library_prep, cell_capture_platform (ex.: 10x Genomics Chromium, Smart-seq2)

sample_name	organism	tissue	cell_capture_platform	library_prep	disease	time_point	bioproject_accession
CHIKV_sc01	Homo sapiens	PBMC	10x Genomics	Chromium 10x 3’ v3	Chikungunya fever	3 dpi	PRJNA123456

Cree BioSamples vinculados a su BioProject a través del mismo portal https://submit.ncbi.nlm.nih.gov/subs/bioproject, o prepare una carga por lotes con archivos .tsv

Dar preferencia a tablas más completas, como:

sample_name	organism	tissue	cell_type	cell_capture_platform	library_prep	sequencing_protocol	dissociation_method	disease	time_point	geo_loc_name	age	sex	bioproject_accession	description
CHIKV_sc01	Homo sapiens	PBMC	Lymphocytes (mixed)	10x Genomics	Chromium 10x 3’ v3	Illumina NovaSeq 6000, paired-end 2×75 bp	Ficoll gradient + RBC lysis	Chikungunya fever	3 dpi	Brazil: Bahia	35	F	PRJNA123456	PBMCs isolated 3 days post CHIKV infection, processed with 10x Genomics Chromium 3’ v3

Esta tabla se puede guardar como biosample_metadata.tsv

Tras el envío, el sistema devuelve las accesiones de cada muestra como:


SAMN45678901
SAMN45678902

Todos los metadatos, ya sean de BioSample, SRA o GEO, deben incluir obligatoriamente el código del BioProject al que pertenecen.

Esto garantiza la correcta vinculación entre los diferentes niveles del envío y permite navegar por los datos de forma integrada. El BioProject actúa como el identificador principal del estudio y, sin él, es imposible relacionar muestras, datos brutos y datos procesados.

Metadatos SRA

La tabla de metadatos debe describir los archivos de secuenciación sin procesar y cómo se generaron. Además de los campos básicos, es esencial incluir los códigos de BioProject y BioSamples para garantizar una correcta vinculación.

Bulk RNA-seq: archivos .fastq.gz pareados ou single-end oo archivos .bam alineados.
Single-cell RNA-seq: archivos .fastq.gz por biblioteca/célula, con metadatos de la plataforma.
Spatial: archivos .fastq.gz por captura/biblioteca, acompañados de metadatos específicos de la plataforma (p. ej., matrices de puntos o coordenadas).

sample_name	biosample_accession	bioproject_accession	library_ID	title	time_point	library_strategy	library_source	library_selection	library_layout	platform	instrument_model	insert_size	filetype	filename	design_description	library_construction_protocol
CHIKV_sc01	SAMN45678901	PRJNA123456	LIB01	scRNA-seq of PBMCs	3 dpi	scRNA-Seq	TRANSCRIPTOMIC	RANDOM	PAIRED	ILLUMINA	NovaSeq 6000	280	fastq	CHIKV_sc01_R1.fastq.gz;CHIKV_sc01_R2.fastq.gz	Single-cell RNA-seq of PBMCs infected with CHIKV, 3 days post infection	10x Genomics Chromium 3’ v3 kit
CHIKV_sc02	SAMN45678902	PRJNA123456	LIB02	scRNA-seq of PBMCs	5 dpi	scRNA-Seq	TRANSCRIPTOMIC	RANDOM	PAIRED	ILLUMINA	NovaSeq 6000	280	fastq	CHIKV_sc02_R1.fastq.gz;CHIKV_sc02_R2.fastq.gz	Single-cell RNA-seq of PBMCs infected with CHIKV, 5 days post infection	10x Genomics Chromium 3’ v3 kit

Atención: tenga en cuenta que los archivos .fastq.gz estén nombrados de manera consistente en el campo correspondiente.

Agregue otros campos si desea más detalles (p. ej., basecaller, software de alineamento). Guárdelo como sra_metadata.tsv.

Metadatos GEO

GEO es un repositorio público del NCBI centrado en datos procesados de expresión genética, que incluye:

File Type	Extension	Example
Count Matrix	.tsv, .csv	counts_matrix.tsv
Sample Counts	.tsv, .txt	counts_CHIKV_01.tsv
Normalized Files	.tsv, .rds	normalized_counts.rds
Scripts or pipelines	.R, .sh, .ipynb	deseq2_analysis.R
Sample Metadata	.tsv	geo_sample_metadata.tsv

También puede incluir diagramas de flujo experimentales, factores de lote e incluso RIN y concentración de ARN.

title	biosample_accession	source_name	organism	treatment	time_point	file_type	file_name	BioProject
Expression of PBMCs CHIKV 3dpi	SAMN45678901	PBMC	Homo sapiens	CHIKV	3dpi	Counts	counts_CHIKV_01.tsv	PRJNA123456

Preparar según GEO submission templates:https://www.ncbi.nlm.nih.gov/geo/info/submission.html?form=MG0AV3

Un ejemplo más completo:

sample_title	biosample_accession	source_name	organism	characteristics_ch1	time_point	treatment	protocol_ch1	data_processing	file_name	file_type	BioProject
CHIKV_01	SAMN45678901	PBMC	Homo sapiens	disease: Chikungunya fever	3 dpi	CHIKV infection	rRNA depletion + TruSeq	alignment with HISAT2, counts with StringTie and prepDE	counts_CHIKV_01.tsv	TSV	PRJNA123456
CHIKV_02	SAMN45678902	PBMC	Homo sapiens	disease: Chikungunya fever	5 dpi	CHIKV infection	rRNA depletion + TruSeq	alignment with HISAT2, counts with StringTie and prepDE	counts_CHIKV_02.tsv	TSV	PRJNA123456

El campo characteristics_ch1 en GEO es extremadamente flexible y poderoso; le permite describir varias características biológicas, clínicas o técnicas de su muestra, además de la enfermedad.

Otro ejemplo de cómo puede ser más completo:

sample_title	biosample_accession	source_name	organism	characteristics_ch1	characteristics_ch1	characteristics_ch1	characteristics_ch1	time_point	treatment	protocol_ch1	data_processing	file_name	file_type
CHIKV_01_3dpi	SAMN45678901	PBMC	Homo sapiens	disease: Chikungunya fever	sex: female	age: 35	RIN: 8.5	3 dpi	CHIKV infection	rRNA depletion + TruSeq	alignment with HISAT2, counts with StringTie & prepDE	counts_CHIKV_01.tsv	TSV

Flujo de envío simplificado


PRJNA123456   (BioProject)
   ├── SAMN45678901   (BioSample)
   │      ├── SRRxxxxxxx   (SRA - raw data)
   │      └── GSMxxxxxxx   (GEO - processed data)
   ├── SAMN45678902   (BioSample)
   │      ├── SRRyyyyyyy   (SRA - raw data)
   │      └── GSMyyyyyyy   (GEO - processed data)

1. Cree su BioProject

Acceda a: https://submit.ncbi.nlm.nih.gov/subs/bioproject
Complete la información del estudio (título, organismo, tipo) como se explicó anteriormente.
Al enviarlo, se genera un código como: PRJNA123456

2.Envíe sus BioSamples

Visite:

Al completar cada línea (mediante formulario o archivo .tsv), incluya el campo:


bioproject_accession
PRJNA123456

Cada muestra recibe un código como: SAMN45678901

Cada BioSample debe tener un nombre único (por ejemplo, CHIKV_01), y este mismo nombre se utilizará en los metadatos SRA y GEO.

3. Envió a la SRA (datos brutos)

Acceda a https://submit.ncbi.nlm.nih.gov/subs/sra
Sube los archivos .fastq.gz.
En tu archivo o formulario .tsv, include:

sample_name	biosample_accession
CHIKV_01	SAMN45678901

SRA usará esto para vincular su archivo .fastq.gz a la muestra correcta.

4.Envió al GEO

Acceda a: https://submit.ncbi.nlm.nih.gov/subs/geo
En el sample_metadata.tsv, incluir:


BioSample         BioProject
SAMN45678901      PRJNA123456

Revisar y enviar para su revisión. Tras el envío, recibirá un ID GSE temporario (p. ej., GSE123456) y el equipo del NCBI lo gestionará.

Una vez que todo esté correctamente vinculado, cualquier persona (o revisor!) podrá:

Iniciar sesión en BioProject → Ver las BioSamples → Acceder a los datos en SRA → Ver los archivos procesados en GEO, como si se tratara de un único estudio interconectado.

Para enviar archivos procesados: (p. ej., recuentos genéticos):

Visite: https://submit.ncbi.nlm.nih.gov/subs/geo/

1.Crear un nuevo envío

2.Seleccionar: Processed Data Submission (GSE)

3. Cargar:

Los archivos procesados (.tsv, .rds, etc.)
La planilha de metadatos
Los scripts o materiales complementarios

4. Completar la descripción del estudio, el protocolo, los objetivos, etc.

Flujo de trabajo para el envío al Single Cell Expression Atlas (SCEA)

El Single Cell Expression Atlas es un repositorio público de EMBL-EBI que recopila datos de ARN-seq y transcriptómica espacial de células individuales, reprocesados mediante procesos estandarizados y enriquecidos con ontologías. El envío sigue el estándar MAGE-TAB (archivos IDF y SDRF) y se somete a un proceso de selección antes de integrarse en el Atlas.

Esta es la guía técnica oficial, também há instruções adicionais; y aquí hay una versión simplificada del proceso: El flujo de trabajo es similar al del NCBI.


[ ArrayExpress (input) ]
       ↓
[ ENA/SRA (raw data: FASTQ/BAM) ]
       ↓
[ Single Cell Expression Atlas (processed data and metadata) ]

ArrayExpress: punto de entrada para el envío.
ENA (European Nucleotide Archive)/SRA: guarda datos de secuenciación sin procesar.
SCEA: recibe datos procesados, metadatos y secuencias de procesamiento, y los integra en el portal.

Datos requeridos

Datos brutos: Archivos FASTQ o BAM → enviados a ENA/SRA.

Datos procesados: Matrices de expresión (genes × células), metadatos celulares (clústeres, tipos celulares, control de calidad, porcentaje mitocondrial), archivos normalizados.

Scripts/pipelines: Archivos .R, .ipynb, .sh utilizados para el análisis.

Metadatos: Tablas completas que describen muestras, células y condiciones experimentales. Similar a BioSample.

Formatos aceptados: .tsv, .h5ad, .loom, además de archivos complementarios como .R, .ipynb.

Creación de archivos MAGE-TAB

SCEA utiliza el estándar MAGE-TAB para metadatos; es obligatorio y consta de dos archivos principales:

IDF (Investigation Description File):

describe el estudio: título, resumen, contactos, publicaciones asociadas.
Campos de ejemplo: Título de la investigación, Descripción del experimento, Correo electrónico del remitente.

SDRF (Sample and Data Relationship File):

Tabla detallada que relaciona muestras, células, archivos y características biológicas/técnicas.características biológicas/técnicas.
Campos importantes: Nombre de la muestra, Organismo, Tipo de célula, Preparación de la biblioteca, Protocolo de secuenciación, Nombre del archivo (FASTQ, matriz de recuento, etc.).

Ejemplo simplificado de SDRF:

Sample Name	Organism	Tissue	Cell Type	Library Prep	Sequencing	Protocol	File Name
CHIKV_sc01	Homo sapiens	PBMC	lymphocyte	10x Genomics Chromium 3’ v3	Illumina NovaSeq 6000	CHIKV_sc01_R1.fastq.gz	CHIKV_sc01_R2.fastq.gz

También debe incluir información sobre disociación, plataforma de captura (p. ej., 10x Genomics, Smart-seq2) y condiciones experimentales.

Envío a ArrayExpress

ArrayExpress es el repositorio EMBL-EBI que se utiliza como punto de entrada para datos transcriptómicos. Todos los envíos single-cell RNA-seq o transcriptómica espacial pasan por él antes de integrarse en SCEA.


[ ArrayExpress ]
   ├── ENA (raw data: FASTQ/BAM)
   └── Expression Atlas / Single Cell Expression Atlas (processed data + metadata)

Datos requeridos

Datos brutos: FASTQ o BAM, enviados a ENA.

Datos procesados: matrices de expresión (genes × células), metadatos celulares (clústeres, tipos celulares, control de calidad), archivos normalizados.

Scripts/pipelines: .R, .ipynb, .sh para garantizar la reproducibilidad.

Metadatos: tablas completas que describen muestras, células y condiciones experimentales.

Criar arquivos MAGE-TAB

Similar ao que foi descrito anteriormente

Flujo de trabajo

1.Crear una cuenta en EMBL-EBI.

2.Preparar los archivos MAGE-TAB (IDF + SDRF).

3.Enviar datos brutos a ENA.

4.Vincular los ID de BioProject y BioSample.

5.Enviar metadatos y datos procesados a ArrayExpress.

6.Carga de archivos .tsv, .h5ad, .loom y .rds.

7.Carga de scripts/pipelines.

8.Curación: El equipo del Atlas revisa los metadatos, aplica ontologías y reprocesa los datos.

9.Publicación: El conjunto de datos recibe un identificador público (p. ej.,E-MTAB-12345) y se integra en el Atlas de Expresión de Células Únicas.

Curación e Integración

El equipo de Atlas reprocesa los datos mediante procesos estandarizados (p. ej., alineamiento, normalización, clustering).

Los metadatos se armonizan con ontologías(Cell Ontology, Uberon, Disease Ontology).

El conjunto de datos recibe un identificador público (E-MTAB-12345) y se puede buscar en el portal.

Flujo de trabajo para el envío al Human Cell Atlas Data Portal (HCA Data Portal)

El HCA Data Portal no funciona como un repositorio abierto para datos de cualquier persona; existen criterios de envío bien definidos. Acepta datos unicelulares y de transcriptómica espacial (scRNA-seq, ATAC-seq, multiómica, RNA-seq espacial), incluyendo datos sin procesar (FASTQ/BAM) y procesados (matrices AnnData .h5ad). Deben ir acompañados de metadatos estructurados que sigan los esquemas oficiales (Tier 1 e Tier 2). Y deben provenir de estudios de alta calidad, con protocolos claros y documentación suficiente para permitir su reutilización.

Restricciones:

No se aceptan datos sin procesar: los conjuntos de datos se someten a una revisión técnica para garantizar su consistencia y calidad.
Privacidad: los datos humanos deben ser anonimizados. La información sensible (Tier 2, como edad, sexo, condición clínica) está controlada y solo se puede acceder a ella en entornos seguros.
Formato: Solo se aceptan formatos estandarizados (FASTQ, BAM, AnnData .h5ad, metadatos en tablas estructuradas).
Alcance: El enfoque se centra en datos unicelulares y espaciales. Los datos de RNA-seq bulk, por ejemplo, no se incluyen en el HCA Data Portal.

Tiers

Los metadatos se organizan en dos niveles (tiers) para separar la información técnica de la información más sensible.

Tier 1 Metadata: información técnica y experimental necesaria para interpretar los datos.

Esto garantiza que los datos sean FAIR (localizables, accesibles, interoperables y reutilizables). Estos datos están disponibles públicamente a través del HCA Data Portal y en plataformas como CellxGene Discover.

Ejemplos de campos:

Organism
Tissue / Organ
Cell type (with ontologies such as Cell Ontology, Uberon)
Library preparation method (10x Genomics, Smart-seq2, etc.)
Sequencing protocol (Illumina NovaSeq, etc.)
File names (FASTQ, BAM, AnnData .h5ad)

Tier 2 Metadata: Información adicional que puede incluir datos sensibles o clínicos

Esto puede enriquecer la interpretación biológica, manteniendo el anonimato y la privacidad. Estos metadatos tienen acceso controlado, por lo que cierta información puede estar restringida o anonimizada para proteger a los donantes.

Ejemplos de campos:

Donor age
Sex
Ethnicity
Clinical condition / disease status
Treatment history

La documentación completa está disponible en el HCA Data Portal y en la guía de ingesta de datos:

HCA Data Portal – Contribube

HCA Metadata Schema

HCA Data Ingestion Instructions PDF

Estructura

EL HCA Data Portal organiza los datos en diferentes capas para garantizar la accesibilidad y la protección de la información confidencial:


[ HCA Data Coordination Platform ]
       ├── ENA/SRA (Raw data: FASTQ)
       ├── HCA Data Repository (Tier 2 metadata + sensitive data)
       └── CellxGene Discover (matrices AnnData + Tier 1 metadata)

HCA Data Repository: guarda archivos brutos (FASTQ) y metadatos de Tier 2 (pueden contener información personal o confidencial).
CellxGene Discover: guarda matrices de expresión en formato AnnData (.h5ad) y metadatos de Tier 1 (información técnica como protocolo de captura, enriquecimiento celular y control de calidad).
Data Coordination Platform (DCP): punto de entrada para el envío de datos, donde se registra el proyecto, se envían los conjuntos de datos y se recibe un ID de acceso.

Datos requeridos

Datos brutos: Archivos FASTQ o BAM que se enviarán al HCA Data Repository.

Datos procesados: Matrices de expresión (genes × células) en formato AnnData(.h5ad).

Metadados Tier 1: Información técnica

Plataforma de captura
Método de disociación
Protocolo de la biblioteca
Control de calidad

Metadados Tier 2: Información más detallada

Datos clínicos
Edad
Sexo
Estado clínico

Proceso de envío

1.Registrar el proyecto en el HCA Data Coordination Platform

Crear un nuevo proyecto e incluir el título, el resumen y la información de contacto.
Vincular los datos brutos (FASTQ/BAM) ya enviados a ENA/SRA.

2.Preparar los metadatos de Tier 1 y Tier 2 según la guía oficial de ingesta.

3.Enviar los datos sin procesar al HCA Data Repository.

4.Enviar las matrices procesadas (AnnData .h5ad) al portal de HCA

El archivo se validará con el esquema oficial (verificando los campos obligatorios).
Tras la curación, el conjunto de datos se integrará en CellxGene Discover.

5.Recibir un ID de acceso y supervisar el proceso de curación.

6.Publicación: Los datos se integran en el portal y el conjunto de datos recibe un identificador público (p. ej., HCA12345).

Se podrán buscar y visualizar en CellxGene Discover, con filtros por organismo, tejido, tipo celular, enfermedad, etc.