Sigmoidal
  • Home
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
Sem Resultado
Ver Todos Resultados
  • English
  • Home
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
Sem Resultado
Ver Todos Resultados
Sigmoidal
Sem Resultado
Ver Todos Resultados

6 Livros de Visão Computacional e Deep Learning

Carlos Melo por Carlos Melo
abril 14, 2026
em Artigos, Carreira, Deep Learning, Visão Computacional
0
5
COMPARTILHAMENTOS
179
VIEWS
Publicar no LinkedInCompartilhar no FacebookCompartilhar no Whatsapp

Visão computacional é uma especialização. E especialização paga mais justamente porque exige profundidade.

Estes 6 livros de visão computacional e deep learning cobrem a base completa dessa formação. Teoria e prática. Do clássico ao moderno. Do fundamento à fronteira.

✉

Inscreva-se na Newsletter

Receba artigos sobre Data Science e IA direto no seu email.

✓ Inscrito com sucesso!

Computer Vision: Algorithms and Applications

Computer Vision: Algorithms and Applications - Richard Szeliski (2ª edição)
Download PDF Grátis ›

Esse é o livro que eu uso como referência na minha pós-graduação em visão computacional. E o motivo é simples: ele é a coisa mais compreensiva que existe na área.

Formação de imagem, processamento, features, alinhamento, stitching, Structure from Motion, SLAM, estimação de profundidade, reconstrução 3D, fotografia computacional, reconhecimento e deep learning. Tudo está aqui.

Logo no começo, o livro traz um fluxograma que mapeia todos os capítulos e mostra as dependências entre eles. Você não precisa ler de forma linear. Se quer ir para reconstrução 3D, ele te mostra o caminho. Se quer processamento de imagens, mostra outro. Cada pessoa monta a trilha que faz sentido para ela.

Richard Szeliski tem mais de 40 anos trabalhando com visão computacional. Passou 20 anos na Microsoft Research como Distinguished Engineer, liderou fotografia computacional na Meta, e hoje está no Google DeepMind como Distinguished Scientist. Inventou o panoramic stitching e o Photosynth. É membro da Academia Nacional de Engenharia dos EUA, Fellow do IEEE e da ACM.

São quase 950 páginas com mais de 3.000 referências bibliográficas. Cada capítulo te dá não só o conteúdo, mas as portas para se aprofundar em qualquer linha de pesquisa. E o PDF é grátis no site do autor.

Por que está na lista: é o mapa completo da visão computacional. Você monta sua trilha a partir dele.

Digital Image Processing

Digital Image Processing - Rafael Gonzalez e Richard Woods (4ª edição)
Comprar na Amazon ›

Esse livro existe desde 1977. São 49 anos. Usado em mais de mil instituições de ensino em mais de 50 países. No Google Scholar, tem mais de 81 mil citações. Isso faz dele um dos livros mais citados da história da engenharia elétrica e ciência da computação.

E o que ele cobre? Processamento de imagens, do zero. Transformações de intensidade, filtragem espacial, Transformada de Fourier, morfologia matemática, segmentação, compressão, processamento de cor, wavelets. É tudo que acontece antes de você chegar em detecção de objetos, antes de chegar em redes neurais.

Se você quer ver esses conceitos aplicados na prática, o post sobre detecção de blur com FFT mostra a Transformada de Fourier em ação com Python e OpenCV.

Rafael Gonzalez fundou a Perceptics Corporation nos anos 80, que criou o primeiro sistema comercial de visão computacional capaz de ler placas de veículos em movimento. Em 1982. Antes de deep learning, antes de GPU, antes de tudo.

É um livro denso, teórico, matemático. Não tem código Python. Tem MATLAB nos exercícios. Mas o conteúdo é fundamento puro. E é exatamente isso que separa o profissional que entende o que está fazendo do profissional que só roda tutorial.

Por que está na lista: é a fundação. Processamento de imagens é o pré-requisito de tudo em visão computacional.

Foundations of Computer Vision

Foundations of Computer Vision - Antonio Torralba, Phillip Isola e William Freeman
Download PDF Grátis ›

Esse livro é especial por um motivo: é o primeiro livro de visão computacional escrito do zero para integrar deep learning com a visão computacional clássica. De forma orgânica. Não é um livro de CV que tem um capítulo de deep learning no final. O deep learning está costurado em cada tópico, do começo ao fim.

Levou 13 anos para ser escrito. Os autores começaram em 2010. Dois anos depois veio a revolução do deep learning com o AlexNet. E em vez de simplesmente adicionar capítulos, eles reescreveram a narrativa inteira.

Os três autores são do MIT. Torralba é chefe do departamento de IA, com 165 mil citações. Criou o LabelMe. Isola é o criador do pix2pix e co-autor do CycleGAN, com 128 mil citações. E Freeman tem 127 mil citações e foi consultor na reconstrução da primeira foto de um buraco negro.

Para ver a arquitetura Transformer aplicada à visão, o post sobre como o Vision Transformer aprende a enxergar imagens é uma boa leitura complementar. O livro do Torralba cobre isso e vai além: modelos de difusão, NeRFs, Radiance Fields, Vision and Language, representation learning.

São 840 páginas, 55 capítulos curtos e focados. E o PDF é grátis em visionbook.mit.edu.

Por que está na lista: é a ponte entre CV clássica e deep learning. Nenhum outro livro faz essa integração tão bem.

Multiple View Geometry in Computer Vision

Multiple View Geometry in Computer Vision - Richard Hartley e Andrew Zisserman
Comprar na Amazon ›

Esse livro é chamado de a Bíblia da visão 3D. E com razão.

Ele cobre toda a matemática por trás de como você pega duas ou mais imagens e extrai informação tridimensional. Geometria epipolar. Matriz fundamental. Calibração de câmera. Structure from Motion. Bundle adjustment. Homografia. Trifocal tensor.

Por que isso importa? Porque essa é a base teórica de tudo que envolve 3D. SLAM, robótica, drones autônomos, carros autônomos. O Google Earth 3D creditou explicitamente o trabalho do Hartley por possibilitar modelos digitais em larga escala do mundo real a partir de imagens.

Se você quer ver esses conceitos em ação, o post sobre matemática da visão computacional com Python cobre rotação, translação e escala, que são a porta de entrada para a geometria deste livro.

Richard Hartley é Distinguished Professor na Australian National University e Fellow da Royal Society desde 2024. Andrew Zisserman é professor em Oxford, co-fundador do Visual Geometry Group e co-criador do VGGNet. Tem quase 500 mil citações no Google Scholar e ganhou o Marr Prize três vezes, o “Nobel” da visão computacional.

O livro é de 2003. Mas a geometria projetiva, a álgebra linear, as relações entre vistas de câmera, isso é matemática pura. Não muda. O que mudou desde 2003 é o que alimenta o pipeline: os features são extraídos por redes neurais hoje. Mas a geometria que conecta câmeras, pontos 3D e imagens é exatamente a mesma.

Precisa de álgebra linear forte. Mas se você quer trabalhar com reconstrução 3D, SLAM, robótica ou veículos autônomos, esse livro é insubstituível.

Por que está na lista: é a base matemática de toda visão 3D. SLAM, robótica, drones, autônomos, tudo passa por aqui.

Understanding Deep Learning

Understanding Deep Learning - Simon Prince
Download PDF Grátis ›

O que o Prince faz de diferente? Ele apresenta cada conceito em três camadas. Primeiro, linguagem simples, sem fórmula. Depois, formalização matemática. Depois, ilustração visual. São 275 figuras no livro inteiro. Cada conceito tem uma representação visual. A didática é incomparável.

Ele cobre tudo que define deep learning moderno: Transformers, modelos de difusão, GANs, VAEs, Graph Neural Networks, Reinforcement Learning, redes convolucionais, residual networks. E tem um capítulo que nunca vi em nenhum outro livro de deep learning: “Why Does Deep Learning Work?”.

Para quem conhece o livro do Goodfellow, que era o clássico desde 2016, o Prince é o sucessor. O Goodfellow parou em 2015. Não tem Transformers, não tem modelos de difusão, não tem nada do que define IA em 2026. O Prince cobre tudo isso.

Se quiser começar com um projeto prático antes de mergulhar no livro, o post de introdução ao PyTorch com redes neurais convolucionais cobre os fundamentos com código.

O PDF é grátis em udlbook.github.io. No GitHub tem mais de 9.300 estrelas com notebooks Python para cada capítulo. Nota no Goodreads: 4.6 de 5.

Por que está na lista: é deep learning moderno com a melhor didática disponível. Grátis, com notebooks, atualizado.

3D Data Science with Python

3D Data Science with Python - Florent Poux
Comprar na Amazon ›

Todos os livros anteriores constroem a base teórica, matemática e conceitual. Esse livro pega tudo isso e coloca em código Python. Cada capítulo tem Jupyter Notebook, dataset pronto e projeto completo. São 690 páginas de hands-on.

O que ele cobre? Point clouds, LiDAR, reconstrução 3D, voxels, meshes, segmentação 3D, machine learning clássico e deep learning 3D com PyTorch. Tem capítulo dedicado a PointNet. Tem capítulo sobre Gaussian Splatting. Tem capítulo sobre IA generativa para 3D e Spatial AI.

A biblioteca principal é Open3D, que referencia o livro na documentação oficial. Para quem quer uma introdução antes de mergulhar no livro, o post sobre processamento de nuvens de pontos com Open3D e Python cobre os conceitos fundamentais.

Florent Poux é PhD em geomática pela Universidade de Liège, fez pós-doutorado em Geometric Deep Learning no RWTH Aachen, e é CTO da LARKI, uma empresa australiana de digital twins para arquitetura e construção. Ganhou o ISPRS Jack Dangermond Award em 2019.

Robótica. Drones. Veículos autônomos. Mapeamento urbano. Patrimônio histórico. Digital twins. Se os outros 5 livros te ensinam a pensar, esse te ensina a construir.

Por que está na lista: é onde a teoria vira código. Projetos reais, dados reais, 3D de verdade.

Takeaways

  • Tutorial de YOLO não é especialização: visão computacional exige entender o que acontece embaixo das duas linhas de código. Profundidade é o que paga mais.
  • A formação se dá em duas frentes: a teórica e matemática (geometria, álgebra linear, formação de imagem) e a do código (implementação, deep learning, pipelines de produção).
  • A geometria não muda: o livro de Hartley e Zisserman é de 2003, mas a matemática que conecta câmeras, pontos 3D e imagens é a mesma usada hoje no COLMAP, no ORB-SLAM e nos carros autônomos.
CompartilharCompartilhar2Enviar
Post Anterior

Feature Detection em Reconstrução 3D

Carlos Melo

Carlos Melo

Engenheiro de Visão Computacional graduado em Ciências Aeronáuticas pela Academia da Força Aérea (AFA) e Mestre em Engenharia Aeroespacial pelo Instituto Tecnológico de Aeronáutica (ITA).

Relacionado Artigos

Tutoriais

Feature Detection em Reconstrução 3D

por Carlos Melo
abril 11, 2026
5 Livros de Machine Learning e Data Science para 2026
Artigos

5 Livros de Machine Learning e Data Science para 2026

por Carlos Melo
abril 7, 2026
Deep Learning

Gaussian Splatting: Reconstrução 3D em Tempo Real com Python

por Carlos Melo
abril 5, 2026
Matemática da Visão Computacional: Rotação, Translação e Escala com Python
Python

Matemática da Visão Computacional: Rotação, Translação e Escala com Python

por Carlos Melo
abril 4, 2026
Deep Learning

Introdução ao PyTorch: Como Treinar sua Primeira CNN

por Carlos Melo
abril 1, 2026

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Pós em Visão Computacional Pós em Visão Computacional Pós em Visão Computacional

Mais Populares

  • 5 Livros de Machine Learning e Data Science para 2026

    5 Livros de Machine Learning e Data Science para 2026

    8 compartilhamentos
    Compartilhar 3 Tweet 2
  • O Que é Amostragem e Quantização no Processamento de Imagens

    51 compartilhamentos
    Compartilhar 20 Tweet 13
  • ORB-SLAM 3: Tutorial Completo para Mapeamento 3D e Localização em Tempo Real

    462 compartilhamentos
    Compartilhar 185 Tweet 116
  • Vision Transformer (ViT): Implementação com Python

    7 compartilhamentos
    Compartilhar 3 Tweet 2
  • Introdução ao MediaPipe e Pose Estimation

    555 compartilhamentos
    Compartilhar 222 Tweet 139
  • Em Alta
  • Comentários
  • Mais Recente
Como Tratar Dados Ausentes com Pandas

Como Tratar Dados Ausentes com Pandas

agosto 13, 2019
Como usar o DALL-E 2 para gerar imagens a partir de textos

Como usar o DALL-E 2 para gerar imagens a partir de textos

dezembro 25, 2022
Introdução ao MediaPipe e Pose Estimation

Introdução ao MediaPipe e Pose Estimation

julho 15, 2023

ORB-SLAM 3: Tutorial Completo para Mapeamento 3D e Localização em Tempo Real

abril 10, 2023
Como Analisar Ações da Bolsa com Python

Como Analisar Ações da Bolsa com Python

15
Setembro Amarelo: Análise do Suicídio no Brasil, com Data Science

Setembro Amarelo: Análise do Suicídio no Brasil, com Data Science

13
Como Aprender Data Science?

Como Aprender Data Science?

9
Qual o Cenário de Data Science no Brasil hoje?

Qual o Cenário de Data Science no Brasil hoje?

8

6 Livros de Visão Computacional e Deep Learning

abril 14, 2026

Feature Detection em Reconstrução 3D

abril 11, 2026
5 Livros de Machine Learning e Data Science para 2026

5 Livros de Machine Learning e Data Science para 2026

abril 7, 2026

Gaussian Splatting: Reconstrução 3D em Tempo Real com Python

abril 5, 2026
Instagram Youtube LinkedIn Twitter
Sigmoidal

O melhor conteúdo técnico de Data Science, com projetos práticos e exemplos do mundo real.

Seguir no Instagram

Categorias

  • Aeroespacial
  • Artigos
  • Blog
  • Carreira
  • Cursos
  • Data Science
  • Deep Learning
  • Destaques
  • Entrevistas
  • IA Generativa
  • Livros
  • Machine Learning
  • Notícias
  • Python
  • Teoria
  • Tutoriais
  • Visão Computacional
  • Youtube

Navegar por Tags

camera calibration carreira chatgpt cientista de dados cnn computer vision Cursos dados desbalanceados data science data science na prática decision tree deep learning deploy detecção de objetos gpt-3 IA generativa image formation inteligência artificial jupyter kaggle keras livros machine learning matplotlib nft openai opencv pandas processamento de imagens profissão python pytorch reconstrução 3d redes neurais redes neurais convolucionais regressão linear regressão logística salário sklearn tensorflow tutorial visão computacional vídeo youtube árvore de decisão

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

Sem Resultado
Ver Todos Resultados
  • Home
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
  • English

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.