Sigmoidal
  • Home
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
Sem Resultado
Ver Todos Resultados
  • English
  • Home
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
Sem Resultado
Ver Todos Resultados
Sigmoidal
Sem Resultado
Ver Todos Resultados

Matemática para Machine Learning: O Guia Essencial

Carlos Melo por Carlos Melo
janeiro 23, 2026
em Machine Learning, Teoria, Youtube
0
109
VIEWS
Publicar no LinkedInCompartilhar no FacebookCompartilhar no Whatsapp

Se alguém te perguntar qual é a matemática por trás do machine learning, você saberia explicar?

Essa é uma das perguntas mais comuns entre quem está começando na área de matemática para machine learning. E a resposta costuma gerar frustração: muitos cursos pulam direto para o código, e quando você finalmente precisa entender por que o modelo funciona, a base não está lá.

A boa notícia é que o núcleo matemático de machine learning não é tão inacessível quanto parece. Neste artigo, vou apresentar os fundamentos que conectam dados, modelos e aprendizado. Se você entender esses conceitos, vai conseguir ler papers, debugar modelos e ter conversas técnicas com muito mais confiança.

✉

Inscreva-se na Newsletter

Receba artigos sobre Data Science e IA direto no seu email.

✓ Inscrito com sucesso!

O núcleo de machine learning

Todo modelo de machine learning se apoia em três pilares: dados, modelo e aprendizado. Antes de falar sobre gradientes e funções de custo, precisamos entender como a matemática representa cada um deles.

Dados como vetores e matrizes

Quando você trabalha com dados tabulares, cada instância (uma linha da tabela) pode ser representada como um vetor. Se eu tenho uma pessoa com idade 30, salário de 5.000 reais e 4 anos de experiência, isso é um vetor:

    \[\mathbf{x}_1 = \begin{bmatrix} 30 \\ 5000 \\ 4 \end{bmatrix}\]

Cada elemento desse vetor é uma feature. Quando eu junto todas as instâncias do meu dataset, tenho uma matriz \mathbf{X}, onde cada linha é uma instância e cada coluna é uma feature:

    \[\mathbf{X} \in \mathbb{R}^{n \times d}\]

Aqui, n é o número de instâncias e d é o número de features. Essa notação pode parecer intimidadora, mas ela só diz: “tenho uma tabela com n linhas e d colunas de números reais”. Pronto.

Métodos supervisionados e labels

No aprendizado supervisionado, cada instância \mathbf{x}_i tem um label y_i associado. O dataset supervisionado é um conjunto de tuplas:

    \[\{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \ldots, (\mathbf{x}_n, y_n)\}\]

Se estou prevendo salários com base na idade e experiência, os salários são meus labels. O objetivo é aprender uma função f tal que:

    \[y_i \approx f(\mathbf{x}_i)\]

Essa é a essência de todo modelo supervisionado. O resto é detalhe de implementação.

O modelo como função

A forma mais simples de representar um modelo é como uma função linear. Vamos começar pelo caso mais básico: uma única feature e um único output.

A equação da reta

Lembra da equação da reta do ensino médio?

    \[y = ax + b\]

Em machine learning, usamos a mesma ideia com notação diferente:

    \[\hat{y} = \theta_1 x + \theta_0\]

Aqui, \theta_1 é a inclinação (o quanto y muda quando x aumenta em uma unidade) e \theta_0 é o intercepto. O “chapéu” em \hat{y} indica que é uma previsão, não o valor real.

Para múltiplas features, a equação se generaliza:

    \[\hat{y} = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \ldots + \theta_d x_d\]

Ou, de forma mais compacta, usando notação vetorial:

    \[\hat{y} = \boldsymbol{\theta}^T \mathbf{x}\]

Onde \boldsymbol{\theta} é o vetor de parâmetros que o modelo precisa aprender.

A função de custo: medindo o erro

Se o modelo faz previsões, precisamos de uma forma de medir o quão erradas essas previsões são. É aí que entra a função de custo (loss function).

Distância do ponto à reta

Uma abordagem intuitiva é calcular a distância entre cada ponto real e a reta prevista. Da geometria analítica, a distância de um ponto (x_0, y_0) a uma reta ax + by + c = 0 é:

    \[d = \frac{|ax_0 + by_0 + c|}{\sqrt{a^2 + b^2}}\]

Erro Quadrático Médio (MSE)

Na prática, a métrica mais usada para regressão é o Mean Squared Error (MSE):

    \[\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\]

Para cada instância, calculo a diferença entre o valor real y_i e a previsão \hat{y}_i, elevo ao quadrado (para eliminar valores negativos e penalizar erros grandes), e tiro a média.

O objetivo do modelo é encontrar os parâmetros \boldsymbol{\theta} que minimizam essa função de custo:

    \[\boldsymbol{\theta}^* = \arg\min_{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} (y_i - \boldsymbol{\theta}^T \mathbf{x}_i)^2\]

Aprendizado: como o modelo encontra os parâmetros

Chegamos ao ponto central. Aprender, em machine learning, significa encontrar os parâmetros \boldsymbol{\theta} que resultam no menor erro possível.

Para uma regressão linear simples com um ou dois parâmetros, a função de custo forma uma parábola ou uma superfície em forma de “tigela”. O ponto mais baixo dessa superfície é onde o erro é mínimo, e é exatamente o que queremos encontrar.

Por que precisamos de derivadas?

Em casos simples, poderíamos resolver analiticamente (igualando a derivada a zero). Mas quando o modelo tem milhares ou milhões de parâmetros, resolver de forma fechada se torna computacionalmente inviável. É como tentar encontrar o ponto mais baixo de um terreno montanhoso sem GPS.

É por isso que usamos algoritmos iterativos como o gradient descent. E é por isso que derivadas são tão importantes.

A derivada como mapa de direção

A derivada de uma função em um ponto indica a inclinação naquele ponto. Se a inclinação é positiva, a função está subindo. Se é negativa, está descendo.

Pense assim: você está vendado em uma montanha e quer chegar ao vale mais baixo. A derivada é como um sensor que te diz se o chão está inclinado para a esquerda ou para a direita. Seguindo sempre a direção de descida, eventualmente você chega ao fundo.

Para uma função f(x), a derivada é:

    \[f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}\]

Para funções com múltiplas variáveis, calculamos derivadas parciais em relação a cada parâmetro, formando o vetor gradiente:

    \[\nabla f(\boldsymbol{\theta}) = \begin{bmatrix} \frac{\partial f}{\partial \theta_0} \\ \frac{\partial f}{\partial \theta_1} \\ \vdots \\ \frac{\partial f}{\partial \theta_d} \end{bmatrix}\]

O gradiente aponta na direção de maior crescimento da função. Para minimizar, andamos na direção oposta.

Gradient Descent

O algoritmo de gradient descent é elegantemente simples:

  1. Comece com parâmetros aleatórios \boldsymbol{\theta}
  2. Calcule o gradiente da função de custo em relação a \boldsymbol{\theta}
  3. Atualize os parâmetros na direção oposta ao gradiente
  4. Repita até convergir

A regra de atualização é:

    \[\boldsymbol{\theta} \leftarrow \boldsymbol{\theta} - \alpha \nabla J(\boldsymbol{\theta})\]

Onde \alpha é a taxa de aprendizado (learning rate), que controla o tamanho do passo a cada iteração. Se \alpha for muito grande, o modelo pode “pular” o mínimo. Se for muito pequeno, a convergência será lenta demais.

Para a regressão linear com MSE, as derivadas parciais são:

    \[\frac{\partial J}{\partial \theta_j} = \frac{2}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i) \cdot x_{ij}\]

A cada iteração, cada parâmetro \theta_j é ajustado proporcionalmente ao erro e ao valor da feature correspondente.

O mapa completo: da função ao modelo de ML

Vamos conectar tudo. Quando você executa model.fit(X, y) em uma biblioteca como scikit-learn ou PyTorch, o que está acontecendo por baixo é:

  1. Os dados são organizados como matrizes (\mathbf{X} \in \mathbb{R}^{n \times d}, \mathbf{y} \in \mathbb{R}^n)
  2. O modelo é definido como uma função parametrizada (\hat{y} = f(\mathbf{x}; \boldsymbol{\theta}))
  3. Uma função de custo mede o erro (J(\boldsymbol{\theta}))
  4. Um algoritmo de otimização (como gradient descent) encontra os parâmetros \boldsymbol{\theta}^* que minimizam o custo
  5. As derivadas fornecem o mapa de direção para a otimização

É por isso que escolhemos funções diferenciáveis: porque precisamos calcular gradientes. É por isso que a álgebra linear importa: porque dados e parâmetros são vetores e matrizes. E é por isso que cálculo importa: porque otimização depende de derivadas.

O que estudar

Se você quer construir uma base sólida, recomendo focar em três áreas:

  • Funções e geometria analítica: equação da reta, distância entre ponto e reta, funções quadráticas. A coleção do Gelson Iezzi é uma referência excelente para revisão.
  • Álgebra linear: vetores, matrizes, multiplicação de matrizes, transposição, rank. Essencial para entender como dados são representados e manipulados.
  • Cálculo: derivadas, derivadas parciais, regra da cadeia, gradientes. Fundamental para entender otimização e backpropagation.

Para quem quer ir direto ao ponto, o livro Mathematics for Machine Learning (Deisenroth, Faisal & Ong) conecta esses três pilares diretamente com aplicações em ML. Está disponível gratuitamente online.

Takeaways

  • Dados são matrizes: cada instância é um vetor de features, o dataset completo é \mathbf{X} \in \mathbb{R}^{n \times d}.
  • Modelos são funções parametrizadas: o objetivo é encontrar \boldsymbol{\theta} que minimiza o erro.
  • Aprender = otimizar: o gradient descent usa derivadas para navegar a superfície do erro e encontrar o mínimo.
  • Três pilares: álgebra linear (dados), funções (modelos) e cálculo (aprendizado) formam o núcleo matemático de machine learning.
  • Não precisa ser especialista: entender os conceitos e o intuition já te coloca muito à frente de quem apenas copia código.
CompartilharCompartilhar1Enviar
Post Anterior

Como conseguir uma Vaga Remota nos EUA: Live com Nicole Barra

Próximo Post

Compressão de Modelos: Pruning, Destilação e Quantização

Carlos Melo

Carlos Melo

Engenheiro de Visão Computacional graduado em Ciências Aeronáuticas pela Academia da Força Aérea (AFA) e Mestre em Engenharia Aeroespacial pelo Instituto Tecnológico de Aeronáutica (ITA).

Relacionado Artigos

5 Livros de Machine Learning e Data Science para 2026
Artigos

5 Livros de Machine Learning e Data Science para 2026

por Carlos Melo
abril 7, 2026
Deep Learning

Gaussian Splatting: Reconstrução 3D em Tempo Real com Python

por Carlos Melo
abril 5, 2026
Matemática da Visão Computacional: Rotação, Translação e Escala com Python
Python

Matemática da Visão Computacional: Rotação, Translação e Escala com Python

por Carlos Melo
abril 4, 2026
Deep Learning

Introdução ao PyTorch: Como Treinar sua Primeira CNN

por Carlos Melo
abril 1, 2026
Artigos

Analisando uma Tomografia 3D com Python

por Carlos Melo
março 28, 2026
Próximo Post
Compressão de Modelos: Pruning, Destilação e Quantização

Compressão de Modelos: Pruning, Destilação e Quantização

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Pós em Visão Computacional Pós em Visão Computacional Pós em Visão Computacional

Mais Populares

  • ORB-SLAM 3: Tutorial Completo para Mapeamento 3D e Localização em Tempo Real

    460 compartilhamentos
    Compartilhar 184 Tweet 115
  • Vision Transformer (ViT): Implementação com Python

    7 compartilhamentos
    Compartilhar 3 Tweet 2
  • O Que é Amostragem e Quantização no Processamento de Imagens

    49 compartilhamentos
    Compartilhar 20 Tweet 12
  • Introdução ao MediaPipe e Pose Estimation

    552 compartilhamentos
    Compartilhar 221 Tweet 138
  • Processamento de Nuvens de Pontos com Open3D e Python

    78 compartilhamentos
    Compartilhar 31 Tweet 20
  • Em Alta
  • Comentários
  • Mais Recente
Como Tratar Dados Ausentes com Pandas

Como Tratar Dados Ausentes com Pandas

agosto 13, 2019
Como usar o DALL-E 2 para gerar imagens a partir de textos

Como usar o DALL-E 2 para gerar imagens a partir de textos

dezembro 25, 2022
Introdução ao MediaPipe e Pose Estimation

Introdução ao MediaPipe e Pose Estimation

julho 15, 2023

ORB-SLAM 3: Tutorial Completo para Mapeamento 3D e Localização em Tempo Real

abril 10, 2023
Como Analisar Ações da Bolsa com Python

Como Analisar Ações da Bolsa com Python

15
Setembro Amarelo: Análise do Suicídio no Brasil, com Data Science

Setembro Amarelo: Análise do Suicídio no Brasil, com Data Science

13
Como Aprender Data Science?

Como Aprender Data Science?

9
Qual o Cenário de Data Science no Brasil hoje?

Qual o Cenário de Data Science no Brasil hoje?

8
5 Livros de Machine Learning e Data Science para 2026

5 Livros de Machine Learning e Data Science para 2026

abril 7, 2026

Gaussian Splatting: Reconstrução 3D em Tempo Real com Python

abril 5, 2026
Matemática da Visão Computacional: Rotação, Translação e Escala com Python

Matemática da Visão Computacional: Rotação, Translação e Escala com Python

abril 4, 2026

Introdução ao PyTorch: Como Treinar sua Primeira CNN

abril 1, 2026
Instagram Youtube LinkedIn Twitter
Sigmoidal

O melhor conteúdo técnico de Data Science, com projetos práticos e exemplos do mundo real.

Seguir no Instagram

Categorias

  • Aeroespacial
  • Artigos
  • Blog
  • Carreira
  • Cursos
  • Data Science
  • Deep Learning
  • Destaques
  • Entrevistas
  • IA Generativa
  • Livros
  • Machine Learning
  • Notícias
  • Python
  • Teoria
  • Tutoriais
  • Visão Computacional
  • Youtube

Navegar por Tags

camera calibration carreira chatgpt cientista de dados cnn computer vision Cursos dados desbalanceados data science data science na prática decision tree deep learning deploy detecção de objetos gpt-3 IA generativa image formation inteligência artificial jupyter kaggle keras livros machine learning matplotlib mnist nft openai opencv pandas processamento de imagens profissão python pytorch redes neurais redes neurais convolucionais regressão linear regressão logística salário sklearn tensorflow tutorial visão computacional vídeo youtube árvore de decisão

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

Sem Resultado
Ver Todos Resultados
  • Home
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
  • English

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.