6 Livros de Visão Computacional e Deep Learning

Visão computacional é uma especialização. E especialização paga mais justamente porque exige profundidade.

Estes 6 livros de visão computacional e deep learning cobrem a base completa dessa formação. Teoria e prática. Do clássico ao moderno. Do fundamento à fronteira.

✉

Inscreva-se na Newsletter

Receba artigos sobre Data Science e IA direto no seu email.

✓ Inscrito com sucesso!

Computer Vision: Algorithms and Applications

Download PDF Grátis ›

Esse é o livro que eu uso como referência na minha pós-graduação em visão computacional. E o motivo é simples: ele é a coisa mais compreensiva que existe na área.

Formação de imagem, processamento, features, alinhamento, stitching, Structure from Motion, SLAM, estimação de profundidade, reconstrução 3D, fotografia computacional, reconhecimento e deep learning. Tudo está aqui.

Logo no começo, o livro traz um fluxograma que mapeia todos os capítulos e mostra as dependências entre eles. Você não precisa ler de forma linear. Se quer ir para reconstrução 3D, ele te mostra o caminho. Se quer processamento de imagens, mostra outro. Cada pessoa monta a trilha que faz sentido para ela.

Richard Szeliski tem mais de 40 anos trabalhando com visão computacional. Passou 20 anos na Microsoft Research como Distinguished Engineer, liderou fotografia computacional na Meta, e hoje está no Google DeepMind como Distinguished Scientist. Inventou o panoramic stitching e o Photosynth. É membro da Academia Nacional de Engenharia dos EUA, Fellow do IEEE e da ACM.

São quase 950 páginas com mais de 3.000 referências bibliográficas. Cada capítulo te dá não só o conteúdo, mas as portas para se aprofundar em qualquer linha de pesquisa. E o PDF é grátis no site do autor.

Por que está na lista: é o mapa completo da visão computacional. Você monta sua trilha a partir dele.

Digital Image Processing

Comprar na Amazon ›

Esse livro existe desde 1977. São 49 anos. Usado em mais de mil instituições de ensino em mais de 50 países. No Google Scholar, tem mais de 81 mil citações. Isso faz dele um dos livros mais citados da história da engenharia elétrica e ciência da computação.

E o que ele cobre? Processamento de imagens, do zero. Transformações de intensidade, filtragem espacial, Transformada de Fourier, morfologia matemática, segmentação, compressão, processamento de cor, wavelets. É tudo que acontece antes de você chegar em detecção de objetos, antes de chegar em redes neurais.

Se você quer ver esses conceitos aplicados na prática, o post sobre detecção de blur com FFT mostra a Transformada de Fourier em ação com Python e OpenCV.

Rafael Gonzalez fundou a Perceptics Corporation nos anos 80, que criou o primeiro sistema comercial de visão computacional capaz de ler placas de veículos em movimento. Em 1982. Antes de deep learning, antes de GPU, antes de tudo.

É um livro denso, teórico, matemático. Não tem código Python. Tem MATLAB nos exercícios. Mas o conteúdo é fundamento puro. E é exatamente isso que separa o profissional que entende o que está fazendo do profissional que só roda tutorial.

Por que está na lista: é a fundação. Processamento de imagens é o pré-requisito de tudo em visão computacional.

Foundations of Computer Vision

Download PDF Grátis ›

Esse livro é especial por um motivo: é o primeiro livro de visão computacional escrito do zero para integrar deep learning com a visão computacional clássica. De forma orgânica. Não é um livro de CV que tem um capítulo de deep learning no final. O deep learning está costurado em cada tópico, do começo ao fim.

Levou 13 anos para ser escrito. Os autores começaram em 2010. Dois anos depois veio a revolução do deep learning com o AlexNet. E em vez de simplesmente adicionar capítulos, eles reescreveram a narrativa inteira.

Os três autores são do MIT. Torralba é chefe do departamento de IA, com 165 mil citações. Criou o LabelMe. Isola é o criador do pix2pix e co-autor do CycleGAN, com 128 mil citações. E Freeman tem 127 mil citações e foi consultor na reconstrução da primeira foto de um buraco negro.

Para ver a arquitetura Transformer aplicada à visão, o post sobre como o Vision Transformer aprende a enxergar imagens é uma boa leitura complementar. O livro do Torralba cobre isso e vai além: modelos de difusão, NeRFs, Radiance Fields, Vision and Language, representation learning.

São 840 páginas, 55 capítulos curtos e focados. E o PDF é grátis em visionbook.mit.edu.

Por que está na lista: é a ponte entre CV clássica e deep learning. Nenhum outro livro faz essa integração tão bem.

Multiple View Geometry in Computer Vision

Comprar na Amazon ›

Esse livro é chamado de a Bíblia da visão 3D. E com razão.

Ele cobre toda a matemática por trás de como você pega duas ou mais imagens e extrai informação tridimensional. Geometria epipolar. Matriz fundamental. Calibração de câmera. Structure from Motion. Bundle adjustment. Homografia. Trifocal tensor.

Por que isso importa? Porque essa é a base teórica de tudo que envolve 3D. SLAM, robótica, drones autônomos, carros autônomos. O Google Earth 3D creditou explicitamente o trabalho do Hartley por possibilitar modelos digitais em larga escala do mundo real a partir de imagens.

Se você quer ver esses conceitos em ação, o post sobre matemática da visão computacional com Python cobre rotação, translação e escala, que são a porta de entrada para a geometria deste livro.

Richard Hartley é Distinguished Professor na Australian National University e Fellow da Royal Society desde 2024. Andrew Zisserman é professor em Oxford, co-fundador do Visual Geometry Group e co-criador do VGGNet. Tem quase 500 mil citações no Google Scholar e ganhou o Marr Prize três vezes, o “Nobel” da visão computacional.

O livro é de 2003. Mas a geometria projetiva, a álgebra linear, as relações entre vistas de câmera, isso é matemática pura. Não muda. O que mudou desde 2003 é o que alimenta o pipeline: os features são extraídos por redes neurais hoje. Mas a geometria que conecta câmeras, pontos 3D e imagens é exatamente a mesma.

Precisa de álgebra linear forte. Mas se você quer trabalhar com reconstrução 3D, SLAM, robótica ou veículos autônomos, esse livro é insubstituível.

Por que está na lista: é a base matemática de toda visão 3D. SLAM, robótica, drones, autônomos, tudo passa por aqui.

Understanding Deep Learning

Download PDF Grátis ›

O que o Prince faz de diferente? Ele apresenta cada conceito em três camadas. Primeiro, linguagem simples, sem fórmula. Depois, formalização matemática. Depois, ilustração visual. São 275 figuras no livro inteiro. Cada conceito tem uma representação visual. A didática é incomparável.

Ele cobre tudo que define deep learning moderno: Transformers, modelos de difusão, GANs, VAEs, Graph Neural Networks, Reinforcement Learning, redes convolucionais, residual networks. E tem um capítulo que nunca vi em nenhum outro livro de deep learning: “Why Does Deep Learning Work?”.

Para quem conhece o livro do Goodfellow, que era o clássico desde 2016, o Prince é o sucessor. O Goodfellow parou em 2015. Não tem Transformers, não tem modelos de difusão, não tem nada do que define IA em 2026. O Prince cobre tudo isso.

Se quiser começar com um projeto prático antes de mergulhar no livro, o post de introdução ao PyTorch com redes neurais convolucionais cobre os fundamentos com código.

O PDF é grátis em udlbook.github.io. No GitHub tem mais de 9.300 estrelas com notebooks Python para cada capítulo. Nota no Goodreads: 4.6 de 5.

Por que está na lista: é deep learning moderno com a melhor didática disponível. Grátis, com notebooks, atualizado.

3D Data Science with Python

Comprar na Amazon ›

Todos os livros anteriores constroem a base teórica, matemática e conceitual. Esse livro pega tudo isso e coloca em código Python. Cada capítulo tem Jupyter Notebook, dataset pronto e projeto completo. São 690 páginas de hands-on.

O que ele cobre? Point clouds, LiDAR, reconstrução 3D, voxels, meshes, segmentação 3D, machine learning clássico e deep learning 3D com PyTorch. Tem capítulo dedicado a PointNet. Tem capítulo sobre Gaussian Splatting. Tem capítulo sobre IA generativa para 3D e Spatial AI.

A biblioteca principal é Open3D, que referencia o livro na documentação oficial. Para quem quer uma introdução antes de mergulhar no livro, o post sobre processamento de nuvens de pontos com Open3D e Python cobre os conceitos fundamentais.

Florent Poux é PhD em geomática pela Universidade de Liège, fez pós-doutorado em Geometric Deep Learning no RWTH Aachen, e é CTO da LARKI, uma empresa australiana de digital twins para arquitetura e construção. Ganhou o ISPRS Jack Dangermond Award em 2019.

Robótica. Drones. Veículos autônomos. Mapeamento urbano. Patrimônio histórico. Digital twins. Se os outros 5 livros te ensinam a pensar, esse te ensina a construir.

Por que está na lista: é onde a teoria vira código. Projetos reais, dados reais, 3D de verdade.

Takeaways

Tutorial de YOLO não é especialização: visão computacional exige entender o que acontece embaixo das duas linhas de código. Profundidade é o que paga mais.
A formação se dá em duas frentes: a teórica e matemática (geometria, álgebra linear, formação de imagem) e a do código (implementação, deep learning, pipelines de produção).
A geometria não muda: o livro de Hartley e Zisserman é de 2003, mas a matemática que conecta câmeras, pontos 3D e imagens é a mesma usada hoje no COLMAP, no ORB-SLAM e nos carros autônomos.