Roadmap.sh Inspired

Data & AI Engineer

Um percurso estruturado da fundação da programação à arquitetura de IA moderna. Elegante, direto e focado em engenharia do mundo real.

Progresso Geral 0%
FASE 01

Fundação Python & Eng. de Software

  • Sintaxe e Estruturas Básicas Variáveis, loops, funções, listas, dicionários e tuplas.
    Prática Recomendada:
    • Criar um script de calculadora interativa no terminal.
    • Implementar o clássico jogo da forca ou adivinhação de números.
  • Orientação a Objetos (OOP) Classes, herança, polimorfismo e modelagem de problemas.
    Prática Recomendada:
    • Modelar um sistema bancário simples (Classes Conta, Cliente).
    • Criar uma classe "Carro" com métodos para acelerar, frear e retornar status.
  • Controle de Versão & CLI Terminal básico, comandos Git, commits, branches e GitHub.
    Prática Recomendada:
    • Criar um repositório local e conectá-lo a um repositório remoto no GitHub.
    • Fazer 3 commits separados simulando a evolução de uma feature.
  • Bancos de Dados & SQL Sintaxe de query, joins, subqueries e manipulação de esquemas.
    Prática Recomendada:
    • Criar tabelas `usuarios` e `pedidos` (usando SQLite no Python ou DB externo).
    • Inserir 5 registros em cada tabela e retornar dados usando `SELECT` com `JOIN`.
FASE 02

Matemática & Estatística

  • Álgebra Linear & Cálculo Vetores, matrizes, transformações lineares, derivadas e gradientes.
    Prática Recomendada:
    • Resolver uma multiplicação de duas matrizes 3x3 no papel.
    • Realizar a mesma multiplicação usando a biblioteca NumPy.
  • Probabilidade & Estatística Descritiva Distribuições de probabilidade, média, variância e Teorema Central do Limite.
    Prática Recomendada:
    • Simular o lançamento de 1.000 dados usando Python e plotar o histograma (matplotlib).
    • Calcular e imprimir a média, moda, mediana e variância dos lançamentos.
  • Inferência & Teste de Hipóteses Design experimental, testes A/B, cálculo de p-value e significância.
    Prática Recomendada:
    • Gerar duas amostras sintéticas (A e B) simulando taxas de conversão.
    • Utilizar `scipy.stats` para rodar um T-test e extrair o p-value.
FASE 03

Manipulação e Análise (EDA)

  • Computação com NumPy Arrays multidimensionais, broadcasting e operações vetorizadas de alta performance.
    Prática Recomendada:
    • Criar um array NumPy com 1 milhão de números aleatórios.
    • Normalizar o array (subtrair a média e dividir pelo desvio padrão) usando vetorização.
  • Data Wrangling com Pandas DataFrames, limpeza de nulos, merges, junções e agregações (groupby).
    Prática Recomendada:
    • Baixar e carregar o clássico dataset do Titanic via Pandas.
    • Preencher idades nulas com a mediana e deletar colunas irrelevantes.
  • Visualização de Dados Criação de gráficos estatísticos e narrativas visuais com Matplotlib e Seaborn.
    Prática Recomendada:
    • Criar um gráfico de barras cruzado mostrando sobreviventes do Titanic por classe e sexo.
    • Customizar o gráfico com título, paleta de cores legível e eixos rotulados.
FASE 04

Machine Learning Clássico

  • Modelos Supervisionados Regressão (Linear/Logística), Árvores de Decisão, Naive Bayes e SVM.
    Prática Recomendada:
    • Utilizar o dataset California Housing (ou Boston).
    • Treinar um modelo de Regressão Linear e analisar as métricas de erro (MAE/RMSE).
  • Métodos Ensemble Aumento de performance usando Random Forests, XGBoost e Gradient Boosting.
    Prática Recomendada:
    • Treinar um classificador Random Forest no dataset do Titanic para prever a sobrevivência.
    • Comparar a precisão e acurácia dele contra uma única Árvore de Decisão simples.
  • Validação & Scikit-Learn Pipelines, validação cruzada, métricas (F1, RMSE) e tuning de hiperparâmetros.
    Prática Recomendada:
    • Criar um Pipeline do Scikit-Learn que inclua `StandardScaler` e um Classificador.
    • Usar `GridSearchCV` para encontrar os melhores hiperparâmetros com validação cruzada.
FASE 05

Deep Learning Avançado

  • Redes Neurais (ANN) Fundamentos do backpropagation e frameworks modernos (PyTorch/TensorFlow).
    Prática Recomendada:
    • Instalar PyTorch ou TensorFlow e carregar o dataset MNIST.
    • Construir e treinar uma Rede Neural Densa simples para classificar os dígitos.
  • Visão Computacional (CNNs) Convoluções, extração de features e otimização por Transfer Learning.
    Prática Recomendada:
    • Carregar o modelo ResNet50 (ou VGG16) pré-treinado no PyTorch/TF.
    • Fazer Fine-tuning para classificar um dataset pequeno (ex: Cães vs Gatos).
  • Mecanismos de Atenção & Transformers A arquitetura por trás dos LLMs e trabalho com modelos HuggingFace.
    Prática Recomendada:
    • Instalar a biblioteca `transformers` do ecossistema HuggingFace.
    • Usar o recurso de 'pipeline' para rodar análise de sentimentos zero-shot.
FASE 06

AI Engineering & MLOps

  • Integração Prática com LLMs Prompt Engineering avançado e automação via API (OpenAI/Anthropic/Groq).
    Prática Recomendada:
    • Criar um script Python que consome uma API de LLM.
    • Criar um prompt de sistema para resumir e extrair tópicos de artigos longos de forma JSON.
  • Retrieval-Augmented Generation (RAG) Uso de LangChain, embeddings densos e bancos de dados vetoriais (Chroma/Pinecone).
    Prática Recomendada:
    • Ler um PDF, extrair texto e particioná-lo em chunks.
    • Gerar embeddings com SentenceTransformers e indexá-los em um ChromaDB local para busca semântica.
  • Deploy & MLOps Produtização de modelos usando FastAPI, conteinerização (Docker) e CI/CD básico.
    Prática Recomendada:
    • Exportar o modelo do Titanic (pkl/joblib) e expô-lo via API usando o framework FastAPI.
    • Testar o endpoint fazendo um POST (via Swagger UI ou cURL) enviando dados do passageiro.

Entregáveis & Portfólio

Pipeline ETL & Dashboard de BI Colete, limpe e visualize métricas reais usando Python e SQL, culminando em um dashboard de vendas interativo usando Streamlit ou Dash.
Previsor de Churn de Clientes Use o dataset Telco Churn. Faça a limpeza, treine e compare modelos XGBoost e Random Forest focando em maximizar o Recall para evitar perda de receita.
Agente Q&A de Documentos (RAG via UI) Construa uma interface gráfica completa no Streamlit onde o usuário sobe um documento PDF e pode "conversar" com o arquivo utilizando LangChain e uma API de LLM.