Introdução aos Notebook e Base de Dados

Este módulo oferece uma introdução ao Jupyter Notebooks e ao Google Colaboratory, explorando suas funcionalidades e estrutura, incluindo células de código e células de texto. Além disso, abordamos os principais bancos de dados públicos para dados de células únicas e outros bancos de dados de expressão gênica, contendo informações sobre humanos e outros organismos. Para potencializar o aprendizado, disponibilizamos exercícios práticos para acessar, explorar e analisar esses bancos de dados, permitindo que os usuários desenvolvam habilidades essenciais na manipulação de dados biológicos.



Você conhece o Jupyter Notebooks?

O Jupyter Notebooks são um conjunto de ferramentas que combina códigos executáveis, textos com informações, visualizações e outros elementos em um único documento. Amplamente usado em análises de dados, aprendizado de máquina e em análises computacionais, compatível com múltiplas linguagens de programação, sendo o Python a mais popular. Sua interface intuitiva simplifica a exploração dos dados e experimentos, documentados em tempo real.


Aqui, nós temos células de texto e células de código que atendem diferentes propostas para organizar e apresentar o conteúdo dentro dos notebooks.


Células de texto
  • São usadas para adicionar explicações, descrições e formataçã usando Markdown ou HTML.
  • Você pde inserir cabeçalhos, listas, links, equações e outros elementos para documentar seu trabalho e fazer isso de forma mais compreensível (para que outras pessoas que queiram utilizá-lo também).

  • Adicionar uma célula de texto:

  • Selecione o + Markdown presente na barra de ferramentas superior.
  • Digite seu texto na célula usando Markdown para formatação (por exemplo, # para cabeçalhos, ** para textos em negrito e * para itálico).
  • Clique fora da célula ou pressione Shift + Enter para renderizar o formato de texto.
  • Células no Jupyter

    Células de código
  • São utilizadas para escrever e executar códigos de programação, principalmente em Python.
  • Elas permitem testar algoritmos, manipular dados e criar gráficos com os resultados exibidos diretamente abaixo das células executadas.

  • Adicionar uma célula de texto:

  • Selecione o + Code presente na barra de ferramentas para inserir uma célula de código abaixo da célula ativa.
  • Digite seu código na célula e pressione Shift + Enter para executá-lo.
  • 
    # Teste o código em python aqui
    test = 4
                    

    Aqui eu posso escrever lindos textos.


    Notas:


    1: Se você desejar visualizar páginas ou vídeos na web através desse notebook, será necesário adicionar as seguintes extensões:

    Extensão Google or Extensão Firefox


    2: Se voce deseja criar um Colab notebook com o kernel R, você pode fazer isso através do link:

    Colab com R ou Outra forma

    Google Colaboratory

    O Google Colab é uma plataforma gratuita baseada em nuvem que permite criar, rodar e compartilhar Jupyter notebooks diretamente em seu navegador. O jupyter suporta linguagem como Python e permite acesso a poderosas recursos computacionais como GPUs e TPUs, sendo ideal para relizar tarefas de aprendizado de máquinas e de ciência de dados.


    Além disso, é integrado com o Google Drive, permitindo fácil armazenamento e colaborações em tempo real.

    Explorando repositórios de Single-Cell RNA-seq

    Nesta atividade, exploraremos repositórios e ferramentas online para análise de dados de RNA-seq de células individuais. Navegaremos por diversos bancos de dados, incluindo o (https://www.ebi.ac.uk/gxa/sc/home), Human Cell Atlas Data Portal (https://data.humancellatlas.org/), CELLXGENE (https://cellxgene.cziscience.com/), SRA (https://www.ncbi.nlm.nih.gov/sra), GEO (https://www.ncbi.nlm.nih.gov/geo/), (https://panglaodb.se/), CellType (https://celltype.info/), and CellTypist (https://www.celltypist.org/), para descobrir e explorar conjuntos de dados de RNA-seq de células individuais. Por meio deste exercício prático, você aprenderá a acessar, visualizar e interpretar dados de RNA-seq de células individuais usando recursos online.


    Objetivos:

  • Explorar repositórios e ferramentas de dados de RNA-seq de células individuais
  • Aprender a acessar e visualizar dados de RNA-seq de células individuais
  • Entender como interpretar dados de RNA-seq de células individuais

  • Observação: Esta atividade foi elaborada para ser concluída em seu próprio ritmo, e você pode realizar os exercícios em seu próprio ritmo.

    Single Cell Expression Atlas

    O Single Cell Expression Atlas é um repositório online que fornece acesso a uma vasta coleção de conjuntos de dados de RNA-sequenciamento de células únicas de vários organismos e tecidos. O atlas permite que os usuários explorem e comparem perfis de expressão gênica em diferentes tipos de células, tecidos e condições.
    Practical Exercises:


    1. Explore a Interface Geral do Single Cell Expression Atlas:

  • Acesse o site do Single Cell Expression Atlas. Você pode acessar o site através do seu próprio navegador ou do navegador incorporado ao final desta sessão neste caderno: https://www.ebi.ac.uk/gxa/sc/home
  • Uma das vantagens deste repositório é a ampla gama de organismos com dados de células únicas disponíveis, abrangendo espécies de Animais, Plantas, Fungos e Protistas. Navegue pela página, explorando as diferentes espécies disponíveis e explore aquela de seu interesse para aprofundar seus conhecimentos.
  • Explore também o outro conjunto de experimentos disponíveis, que inclui dados do Human Cell Atlas, Fly Cell Atlas, Malaria Cell Atlas, COVID-19 Data Portal e iniciativas discovAIR.
  • lala

    2. Buscar um Conjunto de Dados de Interesse:

  • Ao selecionar uma espécie ou coleção de experimentos de interesse, você terá acesso a uma lista de experimentos vinculados a esse organismo/iniciativa.
  • Lá, você pode selecionar experimentos com base em diferentes variáveis, incluindo o Reino do organismo, a Coleção de Experimentos e o Tipo de Tecnologia. Você também pode explorar outros recursos, como o Título do estudo, os Fatores Experimentais (por exemplo, parte do organismo, estado de desenvolvimento, idade, etc.) e o Número de Células disponíveis.
  • Lá, você também pode selecionar o conjunto de experimentos de interesse para baixar os arquivos de quantificação bruta, os arquivos de contagens normalizadas e o arquivo de delineamento do experimento.
  • img

    img

    3. Visualize e Explore os Dados Disponíveis:

  • Selecione um gene ou tipo de célula de interesse e navegue pelo navegador interativo, explorando diferentes aspectos dos dados disponíveis.
  • Selecione conjuntos de dados com base em "Tipo de célula inferido - rótulos de ontologia" ou "Parte do organismo".
  • Selecione um conjunto de dados de interesse e explore todos os dados disponíveis.
  • Visualize os perfis de expressão gênica usando os gráficos interativos (por exemplo, t-SNE, mapa de calor).
  • Visualize marcadores genéticos e aproveite outros recursos interessantes do repositório.
  • img

    img
    img
    img
    img
    img

    4. Agora aproveite o repositório, brincando com os dados e genes de interesse. Você pode usar o navegador incorporado disponível abaixo ou o navegador principal do seu computador.


    Human Cell Atlas, Data portal

    Breve Descrição:

    O Human Cell Atlas Data Portal é um repositório online que fornece acesso a uma vasta coleção de conjuntos de dados de sequenciamento de célula única e transcriptômica espacial de vários tecidos e tipos de células humanas. O portal é o principal repositório da iniciativa Human Cell Atlas e permite que os usuários explorem, visualizem e analisem perfis de expressão gênica em diferentes tipos de células, tecidos e condições gerados pelo consórcio.


    Exercícios Práticos:

    1. Explore a Interface Geral do Portal:

  • Acesse o site do Human Cell Atlas Data Portals: https://data.humancellatlas.org/
  • Explore as funcionalidades gerais do site, visualizando os dados disponíveis e como contribuir com os dados.
  • img
    img

    2.Pesquisar e Explorar um Conjunto de Dados de Interesse:

  • Explore os conjuntos de dados disponíveis, navegando pelos Projetos, Amostras e Arquivos disponíveis. Utilize os filtros disponíveis para realizar uma seleção mais específica.
  • Após selecionar um conjunto de dados específico, navegue pelas abas Visão Geral, Metadados, Matrizes, Download e Exportação.
  • Verifique se o conjunto de dados permite uma exploração mais aprofundada em outro Portal de Análise (por exemplo, UCSC Genome Browser ou CELLXGENE).
  • Verifique a possibilidade de exportar os dados disponíveis para análise na solução em nuvem Terra. Observe que esta é uma plataforma privada de terceiros.
  • img
    img

    3. Pesquisar e Explorar os Atlas de Redes Biológicas:

  • Observe que cada rede possui conjuntos de dados, mas, no momento, apenas Pulmão e Sistema Nervoso possuem atlas unificados disponíveis.
  • Navegue pelas diferentes rede, explorando os dados e atlas disponíveis.
  • Explore as diferentes particularidades dos componentes dos atlas, como o número de tecidos, o estado da doença, o número de células e a possibilidade de explorá-los mais a fundo no CELLxGENE ou baixando os dados.
  • img
    img
    img
    img
    img

    4. Explore os guias disponíveis para saber mais sobre todas as funcionalidades e diferentes aspectos do Portal de Dados do HCA:

    img

    5. Agora aproveite o repositório, brincando com os dados e genes de interesse. Você pode usar o navegador incorporado disponível abaixo ou o navegador principal do seu computador.

    CellxGENE

    Breve Descrição:

    O CELLxGENE é um portal web desenvolvido pela Chan Zuckerberg Initiative (CZI) que permite a exploração e análise interativas de dados de RNA-sequencing de células individuais. Ele oferece uma interface amigável para visualizar e comparar perfis de expressão gênica em diferentes tipos de células, tecidos e condições.


    Exercícios Práticos:

    1. Explore a Interface Geral do Portal:

  • Acesse o site do CELLxGENE: https://data.humancellatlas.org/
  • O CELLxGENE oferece diversas ferramentas que permitem explorar e analisar dados de células individuais com mais detalhes.
  • Navegue pelas Coleções e Conjuntos de Dados disponíveis e selecione um de seu interesse para explorar mais a fundo. Você pode usar a opção "Filtros" para selecionar os dados de acordo com diferentes aspectos de interesse (por exemplo, tipo de célula, doença, etnia autorrelatada, sexo).
  • img
    img
    img
    img

    2. Explore um Conjunto de Dados de Interesse:

  • Explore as diferentes funcionalidades disponíveis. Ative a visualização por as cores para cada célula disponível com base no tipo de célula, estágio de desenvolvimento, etnia, sexo, doença (se disponível), etc.
  • Experimente as células, tente explorar os diferentes gráficos disponíveis e obtenha diferentes visualizações dos dados de acordo com suas preferências.
  • Selecione dois grupos de células de seu interesse para identificar os genes com maior expressão diferencial. Faça isso com base em suas preferências: tipo de célula, sexo, estado da doença, etc. Altere as cores de um dos genes com expressão diferencial de interesse.
  • Experimente as diferentes funcionalidades disponíveis para explorar ainda mais seu conjunto de dados de interesse.
  • img
    img

    3. Explore o Gene Expression Functionality:

  • Selecione o conjunto de dados de interesse com base nos Filtros; adicione uma lista de interesse e visualize sua expressão nos diferentes tipos de células.
  • Explore o gráfico, observando os níveis de expressão e a porcentagem de células que expressam aquele gene.
  • img

    4. Explore Cell Guide Functionalitys:

  • Selecione uma célula ou tecido de interesse e navegue por sua ontologia.
  • As células podem ter diferentes subtipos, portanto, são classificadas com base em uma ontologia.
  • A ontologia celular (CL) é uma estrutura padronizada para descrever e categorizar tipos de células com base em suas características, funções e relacionamentos. Ela fornece uma linguagem comum e um conjunto de termos para definir e anotar tipos de células em diferentes espécies, tecidos e conjuntos de dados.
  • Navegue pela célula ou tecido de seu interesse, explorando sua descrição, ontologia, genes marcadores e dados disponíveis.
  • img
    img
    img
    img

    5. Explore a Differential Expression Functionality:

  • Selecione os grupos para os quais deseja realizar uma análise de expressão diferencial com base no organismo, tecido, tipo de célula, doença, etnia, sexo, entre outras opções disponíveis.
  • Neste exemplo, identificamos os genes diferencialmente expressos de acordo com o sexo em células B do cólon.
  • img

    6. Explore o CELLxGENE Census:

  • Familiarize-se com a plataforma Census, que permite acessar, consultar e analisar todos os dados de RNA de célula única do CELLxGENE.
  • img

  • Agora aproveite o repositório, interagindo com os dados e genes de interesse. Você pode usar o navegador incorporado disponível abaixo ou o navegador principal do seu computador.
  • Panglao DB

    Breve Descrição:

    O PanglaoDB é um banco de dados para a comunidade científica interessada na exploração de experimentos de sequenciamento de RNA de células únicas em camundongos e humanos. Coletamos e integramos dados de múltiplos estudos e os apresentamos por meio de uma estrutura unificada. Apesar de estar atualmente descontinuado, é muito útil para explorar genes marcadores.


    Exercícios Práticos:

    1. Explore a Interface Geral do Portal:

  • Acesse o site do PanglaoDB: https://panglaodb.se/
  • Navegue pelas opções de Busca para explorar o repositório.
  • Você pode avaliar a expressão de um gene de interesse.
  • Você também pode explorar marcadores celulares do tipo de célula de interesse.
  • img
    img
    img

    2. Agora aproveite o repositório, brinque com os dados e genes de interesse. Você pode usar o navegador incorporado disponível abaixo ou o navegador principal do seu computador.

    CellTypist

    Breve Descrição:

    CellTypist é uma plataforma web projetada para facilitar a identificação, classificação e anotação de tipos de células. Ela fornece uma interface amigável para que pesquisadores anotem e classifiquem tipos de células em seus próprios dados.


    Exercícios Práticos:

    1. Explore a Interface do Portal Geral:

  • Acesse o site do CellTypist: https://www.celxltypist.org/
  • Navegue pela Enciclopédia disponível. Explore mais profundamente um grupo de células de seu interesse.
  • Em "Recursos", navegue pelos modelos disponíveis; explore os órgãos ali disponíveis, bem como tenha acesso ao pacote Python.
  • Na página "Início", explore a ferramenta automática para anotar seus próprios dados.
  • Acesse os tutoriais disponíveis para se aprofundar nas funcionalidades da plataforma.
  • img
    img
    img
    img
    img
    img

    2. Agora aproveite a plataforma, brincando com os dados e genes de seu interesse. Você pode usar o navegador incorporado disponível abaixo ou o navegador principal do seu computador.

    GEO (Gene Expression Omnibus)

    Breve Descrição:

    O GEO é um banco de dados público abrangente que arquiva e distribui gratuitamente dados genômicos funcionais de microarray, sequenciamento de última geração e outras formas de alto rendimento. É um recurso inestimável para pesquisadores, apoiando a descoberta de novos insights sobre a função, regulação e expressão gênica; apoiando a reutilização de dados.


    Exercícios Práticos:

    1. Explore a Interface do Portal Geral:

  • Acesse o site do GEO: https://www.ncbi.nlm.nih.gov/geo/
  • Pesquise um conjunto de dados de interesse, usando, por exemplo, as seguintes palavras-chave: "single cell heart"
  • Explore os conjuntos de dados públicos relacionados a experimentos com coração de célula única (ou relacionados às palavras-chave utilizadas). Selecione um para obter mais informações sobre esse estudo.
  • Navegue pelas amostras disponíveis.
  • Avalie se eles seguiram os princípios FAIR ao depositar seus dados.
  • img
    img
    img
    img

    2. Agora, aproveite o repositório, explorando os conjuntos de dados de seu interesse. Você pode usar o navegador integrado disponível abaixo ou o navegador principal do seu computador.

    SRA (Sequence Read Archive)

    Breve Descrição:

    O SRA é um banco de dados público abrangente que arquiva e distribui gratuitamente dados de sequenciamento de alto rendimento, incluindo RNA-seq, DNA-seq e outras formas de dados de sequenciamento de nova geração (NGS).


    Exercícios Práticos:

    1. Explore a Interface do Portal Geral:

  • Acesse o site do SRA: https://www.ncbi.nlm.nih.gov/sra
  • Pesquise um conjunto de dados de interesse, usando, por exemplo, as seguintes palavras-chave: "single-cell heart"
  • Filtre o resultado de acordo com a fonte, plataforma de sequenciamento, organismo de interesse ou outros recursos disponíveis.
  • Explore os conjuntos de dados públicos relacionados a experimentos cardíacos de célula única (ou relacionados às palavras-chave utilizadas). Selecione um para obter mais informações sobre esse estudo.
  • Navegue pelas amostras disponíveis.
  • Avaliar se seguiram os princípios FAIR ao depositar seus dados.
  • img
    img
    img

    2. Agora aproveite o repositório, brincando com os conjuntos de dados de seu interesse. Você pode usar o navegador incorporado disponível abaixo ou o navegador principal do seu computador.

    NOTA:

    Ademais, existe o SRA Explorer, uma ferramenta interativa de visualização de dados do SRA, que facilita a navegação e o acesso aos dados brutos armazenados no SRA, permitindo busca e download de dados eficientes.