fbpx
Sigmoidal
  • Home
  • LinkedIn
  • About me
  • Contact
No Result
View All Result
  • Português
  • Home
  • LinkedIn
  • About me
  • Contact
No Result
View All Result
Sigmoidal
No Result
View All Result

Depth Estimation on Single Camera with Depth Anything

Carlos Melo by Carlos Melo
February 23, 2024
in Blog, Computer Vision, Featured, Posts
0
71
SHARES
2.4k
VIEWS
Share on LinkedInShare on FacebookShare on Whatsapp

Monocular Depth Estimation is a Computer Vision task that involves predicting the depth information of a scene, that is, the relative distance from the camera of each pixel, given a single RGB image. This challenging task is a key prerequisite for scene understanding for applications such as 3D scene reconstruction, robotics, Spatial Computing (Apple Vision Pro and Quest 3), and autonomous navigation.

 

Depth Anything - Monocular Depth Estimation
Example of a depth map I generated using Depth Anything.

While various approaches have been developed for depth estimation, Depth Anything represents today a significant advancement in the field of monocular depth perception. In this article, we will explore some of the theoretical foundations of monocular depth perception, and we will clone the Depth Anything repository to conduct our own tests in a local development environment.

Monocular Depth Perception

Depth perception is what allows us to interpret the three-dimensional world from two-dimensional images projected on our retinas. This ability evolved as a crucial aspect for survival, enabling humans to navigate the environment, avoid predators, and locate resources.

The human brain accomplishes this feat through a series of interpretations of visual information, where the overlap of the binocular visual field provides a rich perception of depth.

In addition to binocular vision, this perception is enriched by various monocular cues (depth cues), elements in the environment that allow a single observer to infer depth even with one eye closed. Among these cues are occlusion, relative size, cast shadows, and linear perspective.

These same principles and mechanisms of perception find a parallel in Computer Vision, where the essence of estimation also lies in capturing the spatial structure of a scene to accurately represent its three-dimensional aspects.

Depth Anything for Depth Estimation

The Depth Anything model, introduced in the work “Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data”, represents a significant advancement in monocular depth estimation. Based on the DPT (Dense Prediction Transformer) architecture, it was trained on a vast dataset of over 62 million unlabeled images.

YANG, Lihe et al. Depth anything: Unleashing the power of large-scale unlabeled data. 2024.

The success of this approach is attributed to two main strategies.

  1. The use of data augmentation tools to establish a more challenging optimization target.
  2. Use of auxiliary supervision to ensure the inheritance of semantic priors from pre-trained encoders.

The generalization capability of Depth Anything, tested on six public datasets and randomly captured photographs, surpassed some metrics of existing models, such as MiDaS v3.1 and ZoeDepth.

If you want to delve deeper into the materials and methods used in the research, access the original article at this link.

Depth anything: Unleashing the power of large-scale unlabeled data
Depth Anything framework, where a standard pipeline was adopted to increase the model’s power over unlabeled images.

Setting Up the Environment for “Depth Anything”

To start using Depth Anything for monocular depth estimation, it’s necessary to prepare your development environment by following some simple steps. Make sure you have Poetry installed.

To clone the repository and install dependencies, follow the steps described below:

1. Clone the Repository: First, clone the project repository using the command in the terminal:

git clone https://github.com/LiheYoung/Depth-Anything.git

2. Access the Project Directory: Next, access the project directory:

cd Depth-Anything

3. Initialize the Environment with Poetry: If it’s your first time using Poetry on this project, initialize the environment:

poetry init

4. Activate the Virtual Environment: Activate the virtual environment created by Poetry:

poetry shell

5. Install Dependencies: Install the necessary dependencies, including Gradio, PyTorch, torchvision, opencv-python, and huggingface_hub:

poetry add gradio==4.14.0 torch torchvision opencv-python huggingface_hub

6. Run the Application: Run the application using Streamlit with the command:

python app.py

With the Streamlit app running, you can upload your photos directly through the UI. If you have any difficulties installing the dependencies on your computer, you can also test Depth Anything in this official demo.

The app works only for static images. To generate depth maps from videos, execute the command below in your Terminal. As this process is costly in terms of processing, I recommend that you start your tests with short videos, between 3 and 10 seconds.

python run_video.py --encoder vitl --video-path /path/to/your/video.mov --outdir /path/to/save

Takeaways

  • Essence of Monocular Depth Perception: Monocular depth estimation is crucial for understanding the spatial structure of a scene from a single image, enabling applications such as 3D scene reconstruction.
  • Advancements with Depth Anything: Representing a significant leap in monocular depth perception, the Depth Anything model utilizes the DPT architecture and was trained on an extensive dataset, showing excellent generalization capability.
  • Environment Setup: A step-by-step guide to setting up the development environment to use Depth Anything, including installing dependencies and running applications for practical tests.
  • Practical Application: The article provides detailed instructions for testing depth estimation with images and videos, facilitating practical experimentation and visualization of the Depth Anything model’s results.
Share5Share28Send
Previous Post

Point Cloud Processing with Open3D and Python

Next Post

YOLOv9: A Step-by-Step Tutorial for Object Detection

Carlos Melo

Carlos Melo

Computer Vision Engineer with a degree in Aeronautical Sciences from the Air Force Academy (AFA), Master in Aerospace Engineering from the Technological Institute of Aeronautics (ITA), and founder of Sigmoidal.

Related Posts

Blog

What is Sampling and Quantization in Image Processing

by Carlos Melo
June 20, 2025
Como equalizar histograma de imagens com OpenCV e Python
Computer Vision

Histogram Equalization with OpenCV and Python

by Carlos Melo
July 16, 2024
How to Train YOLOv9 on Custom Dataset
Computer Vision

How to Train YOLOv9 on Custom Dataset – A Complete Tutorial

by Carlos Melo
February 29, 2024
YOLOv9 para detecção de Objetos
Blog

YOLOv9: A Step-by-Step Tutorial for Object Detection

by Carlos Melo
February 26, 2024
Point Cloud Processing with Open3D and Python
Computer Vision

Point Cloud Processing with Open3D and Python

by Carlos Melo
February 12, 2024
Next Post
YOLOv9 para detecção de Objetos

YOLOv9: A Step-by-Step Tutorial for Object Detection

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

  • Trending
  • Comments
  • Latest
Estimativa de Pose Humana com MediaPipe

Real-time Human Pose Estimation using MediaPipe

September 11, 2023
ORB-SLAM 3: A Tool for 3D Mapping and Localization

ORB-SLAM 3: A Tool for 3D Mapping and Localization

April 10, 2023

Build a Surveillance System with Computer Vision and Deep Learning

1
ORB-SLAM 3: A Tool for 3D Mapping and Localization

ORB-SLAM 3: A Tool for 3D Mapping and Localization

1
Point Cloud Processing with Open3D and Python

Point Cloud Processing with Open3D and Python

1

Fundamentals of Image Formation

0

What is Sampling and Quantization in Image Processing

June 20, 2025
Como equalizar histograma de imagens com OpenCV e Python

Histogram Equalization with OpenCV and Python

July 16, 2024
How to Train YOLOv9 on Custom Dataset

How to Train YOLOv9 on Custom Dataset – A Complete Tutorial

February 29, 2024
YOLOv9 para detecção de Objetos

YOLOv9: A Step-by-Step Tutorial for Object Detection

February 26, 2024

Seguir

  • 💰 Você sabe o que faz e quanto ganha um cientista de dados?

Ser Cientista de Dados significa trabalhar com inteligência artificial, estatística e programação para transformar dados em decisões que movimentam negócios e impactam bilhões de pessoas.

É a função que dá vida a recomendações personalizadas, modelos preditivos e sistemas inteligentes que mudam a forma como empresas inovam.

E não é apenas fascinante...

💼💰 É também uma das carreiras mais bem remuneradas da área de tecnologia!

Se você quer uma carreira com futuro, relevância e excelente retorno financeiro, Data Science é o caminho certo!

#cientistadedados #datascience #python
  • Você colocaria fraldas do lado das cervejas no seu supermercado? 🤔

Parece estranho, mas foi exatamente essa descoberta que mudou as vendas do Walmart.

Os cientistas de dados da empresa analisaram milhões de transações com uma técnica de Data Mining que identifica padrões de compra e combinações inesperadas de produtos.

Então, usando algoritmos da Data Science, cruzaram dados de horário, perfil de cliente e itens comprados juntos.

Encontraram algo curioso: homens que passavam no mercado após as 18h para comprar fraldas, muitas vezes no caminho de casa, também compravam cerveja 🍺.

O Walmart testou a hipótese: colocou fraldas perto da seção de cervejas.

O resultado? As vendas de cerveja dispararam. 🚀

Esse é um exemplo clássico de como Data Science gera impacto direto no negócio.

Não é sobre algoritmos complexos apenas; é sobre transformar dados históricos em decisões inteligentes e lucrativas.

#datascience #cientistadedados #machinelearning
  • Conheça as formações da Academia Sigmoidal.

Nossos programas unem rigor acadêmico, prática aplicada e dupla certificação internacional, preparando você para atuar em Data Science, Visão Computacional e Inteligência Artificial com impacto real no mercado.

🤖 Pós-Graduação em Data Science: Forma Cientistas de Dados e Engenheiros de Machine Learning do zero, com Python, estatística e projetos práticos do mundo real.

👁️ Pós-Graduação em Visão Computacional: Especialize-se em processamento de imagens, Deep Learning, redes neurais e navegação autônoma de drones, tornando-se Engenheiro de Visão Computacional ou Engenheiro de Machine Learning.

📊 MBA em Inteligência Artificial: Voltado a profissionais de qualquer área, ensina a aplicar IA estrategicamente em negócios, usando automação, agentes de IA e IA generativa para inovação e competitividade.

Além do título de Especialista reconhecido pelo MEC, você ainda conquista uma Dupla Certificação Internacional com o STAR Research Institute (EUA).

💬 Interessado em dar o próximo passo para liderar no mercado de tecnologia? Me envie uma mensagem e eu te ajudo pessoalmente com a matrícula.

#DataScience #InteligenciaArtificial #VisaoComputacional
  • Treinar um modelo significa encontrar um bom conjunto de parâmetros. Esse conjunto é definido pela função objetivo, também chamada de função de perda. 👀

O gradient descent é o algoritmo que ajusta esses parâmetros passo a passo. Ele calcula a direção de maior inclinação da função de perda e move o modelo para baixo nessa curva. ⬇️

Se o parâmetro é o peso que multiplica X ou o bias que desloca a reta, ambos são atualizados. Cada iteração reduz o erro, aproximando o modelo da solução ótima.

A intuição é simples: sempre que a função de perda é maior, o gradiente aponta o caminho. O algoritmo segue esse caminho até que não haja mais descida possível. 🔄 

#inteligênciaartificial #datascience #machinelearning
  • Qual a melhor linguagem? PYTHON ou R?

Diretamente do túnel do tempo! Resgatei esse vídeo polêmico de 2021, quem lembra??

#DataScience #Python #R #Programação
  • 🎥 Como começar uma CARREIRA como CIENTISTA DE DADOS

Você já pensou em entrar na área que mais cresce e que paga os melhores salários no mundo da tecnologia?

Domingo você vai descobrir o que realmente faz um Cientista de Dados, quais são as habilidades essenciais e o passo a passo para dar os primeiros passos na carreira.

Eu vou te mostrar um mapa para você sair do zero e se preparar para trabalhar com Data Science em 2026.

📅 Domingo, 28 de setembro
🕖 20:00h (horário de Brasília)
🔗 Link nos Stories

Clique no link dos Stories e receba o link da aula ao vivo!

#datascience #machinelearning #cientistadedados
  • VISÃO COMPUTACIONAL está no centro de um dos avanços mais impressionantes da exploração espacial recente: o pouso autônomo da missão Chang’e-5 na Lua. 🚀🌑

Durante a descida, câmeras de alta resolução e sensores a laser capturavam continuamente o relevo lunar, enquanto algoritmos embarcados processavam as imagens em tempo real para identificar crateras e obstáculos que poderiam comprometer a missão.

Esses algoritmos aplicavam técnicas de detecção de bordas e segmentação, aproximando crateras por elipses e cruzando a análise visual com dados de altímetros. Assim, a IA conseguia selecionar regiões planas e seguras para o pouso, ajustando a trajetória da nave de forma autônoma. 

Esse processo foi indispensável, já que a distância entre Terra e Lua gera atraso de comunicação que inviabiliza controle humano direto em tempo real.

Esse caso ilustra como IA embarcada está deixando de ser apenas uma ferramenta de análise pós-missão para se tornar parte crítica das operações espaciais autônomas em tempo real — um passo essencial para missões em Marte, asteroides e no lado oculto da Lua.

(PS: Vi o Sérgio Sacani, do @spacetoday , postando isso primeiro.)

#visaocomputacional #machinelearning #datascience
  • 🔴Aprenda a MATEMÁTICA por Trás do MACHINE LEARNING

Você já se perguntou como as máquinas aprendem?🤖 

A resposta está na matemática que dá vida ao Machine Learning. E neste vídeo, você vai aprender os conceitos fundamentais que sustentam os algoritmos de inteligência artificial, de forma clara e acessível.

Mais do que apenas fórmulas, a ideia é mostrar como cada peça matemática se conecta para transformar dados em aprendizado. Se você deseja compreender a lógica por trás do funcionamento das máquinas, essa aula é um ótimo ponto de partida.

📅 Domingo, 21 de setembro
🕖 20:00h (horário de Brasília)
🔗 Link nos Stories

#machinelearning #datascience #cientistadedados
  • 🚀 As matrículas estão abertas!
Depois de quase 1 ano, a nova turma da Pós-Graduação em Data Science chegou.

NOVIDADE: agora com Dupla Certificação Internacional:
🇧🇷 Diploma de Especialista reconhecido pelo MEC
🇺🇸 Certificado do STAR Research Institute (EUA)

Aprenda Data Science na prática, domine Machine Learning e IA, e conquiste reconhecimento no Brasil e no mundo.

2025 pode ser o ano em que você dá o passo decisivo para se tornar Cientista de Dados.

🔗 Clique no link da bio e reserve sua vaga!
#datascience #cienciadedados #python
  • Por que o CHATGPT MENTE PARA VOCÊ? 🤔

Já percebeu que o ChatGPT às vezes responde com confiança... mas está errado? 

Isso acontece porque, assim como um aluno em prova, ele prefere chutar do que deixar em branco.
Essas respostas convincentes, mas erradas, são chamadas de alucinações.

E o que o pesquisadores da OpenAI sugerem, é que esse tipo de comportamento aparece porque os testes que treinam e avaliam o modelo premiam o chute e punem a incerteza.

Então, da próxima vez que ele ‘inventar’ algo, lembre-se: não é pessoal, ele apenas for treinado dessa maneira!
#inteligênciaartificial #chatgpt #datascience
  • ChatGPT: um "estagiário de LUXO" para aumentar sua produtividade na programação.

 #programacao #copiloto #produtividade #streamlit #dashboard #tecnologia #devlife
  • Da série “Foi a IA que me deu”, vamos relembrar minha viagem pra Tromsø, na Noruega, 500 km acima da linha do Círculo Polar Ártico. 🌍❄️

No vídeo de hoje, você vai aprender o que é um "fiorde"! 

Como você dormia sem saber o que era um fiorde?? 😅
  • Qual LINGUAGEM DE PROGRAMAÇÃO é usada na TESLA?

A Tesla utiliza diferentes linguagens de programação em cada fase do ciclo de desenvolvimento. 

O treinamento das redes neurais convolucionais (CNN) é feito em Python, aproveitando bibliotecas científicas e a rapidez de prototipagem. Isso permite testar arquiteturas de CNN com agilidade no ambiente de pesquisa.

Já a implementação embarcada ocorre em C++, garantindo alta performance. Como os modelos de CNN precisam responder em tempo real, o C++ assegura baixa latência para tarefas como detectar pedestres e interpretar placas de trânsito.

Com isso, a Tesla combina Python para pesquisa e C++ para produção, equilibrando inovação e velocidade em sistemas críticos de visão computacional.

#python #machinelearning #inteligenciaartificial
  • Aproveitando o domingo… vamos relaxar um pouco e falar sobre cinema 🎬

Em
  • Já se perguntou como conseguimos distinguir intuitivamente um gato de um cachorro, mesmo com tantas semelhanças físicas? 

Para nós, essa identificação é quase automática.

Na filosofia aristotélica, a inteligência é um atributo da alma: o mundo real é captado pelos sentidos, transformado em imagens na imaginação (fantasmas), e organizado em conceitos que nos permitem compreender a realidade de forma imediata.

Já as máquinas não têm alma nem intuição. Para aprender essa mesma tarefa, precisam decompor o problema em camadas hierárquicas: 

Nas primeiras, redes neurais profundas extraem padrões simples (bordas, texturas); nas intermediárias, formas mais abstratas (orelhas, olhos, focinho); e apenas nas finais esses elementos são combinados em conceitos de alto nível como “gato” ou “cachorro”.

Enquanto nós chegamos ao entendimento de forma direta, a inteligência artificial depende de sucessivas representações para “fazer sentido” do mundo. 🤖

#inteligênciaartificial #redesneurais #deepLearning #filosofia #tecnologia
  • INTELIGÊNCIA ARTIFICIAL se tornou a carreira mais promissora atualmente.

Este mercado, em constante crescimento global, oferece oportunidades de trabalho remoto, seja como freelancer ou contratado por empresas. 

Para quem busca uma carreira flexível e em expansão, a área de DATA SCIENCE / IA pode ser o caminho ideal. 

Afinal, você consgue me dizer quais outras áreas oferecem tamanha versatilidade e crescimento? 

#cienciadedados #python #inteligenciaartificial #mercadodetrabalho #tecnologia #oportunidades
Instagram Youtube LinkedIn Twitter
Sigmoidal

O melhor conteúdo técnico de Data Science, com projetos práticos e exemplos do mundo real.

Seguir no Instagram

Categories

  • Aerospace Engineering
  • Blog
  • Carreira
  • Computer Vision
  • Data Science
  • Deep Learning
  • Featured
  • Iniciantes
  • Machine Learning
  • Posts

Navegar por Tags

3d 3d machine learning 3d vision apollo 13 bayer filter camera calibration career cientista de dados clahe computer vision custom dataset data science deep learning depth anything depth estimation detecção de objetos digital image processing histogram histogram equalization image formation job lens lente machine learning machine learning engineering nasa object detection open3d opencv pinhole projeto python quantization redes neurais roboflow rocket salário sampling scikit-learn space tensorflow tutorial visão computacional yolov8 yolov9

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • Cursos
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
  • Português

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.