fbpx
Sigmoidal
  • Home
  • LinkedIn
  • About me
  • Contact
No Result
View All Result
  • Português
  • Home
  • LinkedIn
  • About me
  • Contact
No Result
View All Result
Sigmoidal
No Result
View All Result

What is Computer Vision and How does it work?

Carlos Melo by Carlos Melo
July 13, 2023
in Computer Vision
0
30
SHARES
999
VIEWS
Share on LinkedInShare on FacebookShare on Whatsapp

Computer vision is a riveting and revolutionary field. It endeavors to understand and replicate human visual perception through various sensor types, essentially enabling machines to interpret the reality around us.

Indeed, Computer Vision could be termed as the art of enabling machines to see.

The intricacies of how we see things are taken for granted, as the process seems natural and automatic. However, the same cannot be said for machines. The science of computer vision doesn’t solely entail machines “seeing” things; it encompasses interpreting these images, recognizing objects, understanding the context, and making decisions based on these interpretations. It’s about translating bytes in memory into actionable information.

Through computer vision, we empower machines to “see” and “interpret” the world, unlocking a plethora of potential applications. Welcome to the brave new world of pixels!

Computer Vision: The Art of Teaching Machines to See

Our most dominant sense is vision, with approximately 60% of our brain dedicated to visual perception. This fact lies at the heart of computer vision, whose goal is to make machines “see”. This discipline faces the daunting task of equipping machines to interpret the world as humans do, such as recognizing complex or unconventional objects.

The process of computer vision is intricate, as machines must capture, process, and interpret light rays from the external world to form an understanding of objects. This task is complex, and our current technology is far from matching the detailed accuracy and rich detail with which a small child can describe an object.

To grasp the challenge of this inverse problem, consider the following figure. While we perceive reality through our external senses and formulate concepts of objects through our intellect (tied to the soul in a metaphysical conception), a computer only sees… numbers. For those who wish to delve deeper into the theory of image formation, I recommend this theoretical article I recently wrote.

Image Formation in Computer Vision

Image Processing vs Computer Vision

For those new to the realm of data science, particularly in the domain of images, differentiating two fundamental concepts may be challenging.

Image processing encompasses techniques to enhance or emphasize features of an image, either to improve its quality or to spotlight specific aspects. For instance, you could apply an image processing technique to a photo to accentuate the edges of objects or eliminate the background. These techniques manipulate the image and highlight features but do not independently generate additional information.

In contrast, computer vision aims to extract significant information from images or videos, converting raw data into actionable insights. It’s a more analytical process that employs predictive models and exploratory analyses to draw insights from images. For example, facial tracking in a video can produce a 3D model of a face applicable in various contexts, ranging from augmented reality applications to facial recognition.

What is Computer Vision
Difference between Image Processing and Computer Vision.

In a simplified context, while image processing involves direct image manipulation, computer vision uses the processed image to extract information and insights. Therefore, although these are distinct fields, they are complementary and often coexist in numerous data science projects.

Potential Applications

Modeling the visual world is far more complex than modeling phenomena such as spoken sound production. However, despite these challenges, vision algorithms have already found successful real-world applications. I have highlighted several project examples on this blog, including a fatigue detector, drone surveillance system, real-time 3D mapping, and more. Additionally, here is a more comprehensive list of potential applications:

  • Augmented and Virtual Reality: Computer vision is the fundamental technology that allows devices to recognize and interact with the physical environment, essential for creating immersive augmented and virtual reality experiences.
  • Machine Inspection: Rapid inspection of parts for quality assurance using stereoscopic vision with specialized lighting to measure tolerances on aircraft wings or automobile body parts, or look for defects in steel castings using X-ray vision.
  • Super-resolution Imaging: This technique uses computer vision to improve the spatial resolution of digital images, overcoming the physical limitations of the imaging system and providing higher quality and clearer images.
  • Optical Character Recognition (OCR): OCR technology, enabled by computer vision, allows computers to read and recognize text in digital images or scanned documents, facilitating tasks that would require manual data entry, such as scanning old records or extracting text from handwritten documents.
  • Retail: Object recognition for automated checkouts and fully automated stores.
  • Object Recognition: Computer vision is used to recognize and classify objects in images and videos. This has varied applications, from facial recognition in security software to motion analysis in surveillance and sports videos.
  • Medical Imaging: Computer vision can be used to analyze medical images, such as X-rays and magnetic resonance images, to identify and diagnose medical conditions.
  • Autonomous Vehicles: Capable of driving from point to point between cities, as well as autonomous flight.
  • Quality Control: In manufacturing, computer vision can be used to inspect products for defects, such as scratches or dents on surfaces.
  • Robotics: Computer vision is used in robotics to enable machines to identify and interact with objects in the environment.
  • Agriculture: In agriculture, computer vision can be used to monitor the growth and health of crops, identify pests and optimize crop yields.
  • 3D Model Construction (photogrammetry): Fully automated construction of 3D models from aerial and drone photographs.

In short, computer vision has extensive potential applications across various industries. As the technology continues to advance, we can anticipate increasingly innovative uses for this potent technology.

Salary for a Computer Vision Engineer

The salary of a Computer Vision Engineer can vary significantly depending on factors such as location, industry sector, professional experience, and specialization. However, based on salary statistics and reports, the average salary for this role in the United States ranges from $120,000 to $150,000 annually, with potential for higher earnings depending on the company and seniority level.

In Brazil, although salaries tend to be lower compared to the United States, Computer Vision professionals are among the highest-paid in the technology field, with salaries ranging from R$108,000 to R$180,000 per year.

This is a rapidly evolving career, with increasing demand in sectors like automotive, retail, health, logistics, and many others that are progressively implementing computer vision-based solutions. Thus, the career prospects and earning potential for computer vision engineers are very promising.

Skills Required for a Computer Vision Engineer

Being a Computer Vision Engineer requires mastery of several disciplines simultaneously. Python and C++ are the most sought-after programming languages. Tesla, for instance, typically trains its models and prototypes features in Python, deploying the product in C++ at a later stage.

Theoretically, essential skills involve knowledge of mathematics, specifically calculus and linear algebra. Furthermore, a Computer Vision Engineer should be proficient with libraries such as TensorFlow, PyTorch, and OpenCV.

Conclusion

In conclusion, the field of computer vision is a rapidly growing discipline with transformative implications across various sectors. It combines intricate elements of image processing, machine learning, and mathematics to endow machines with the capacity to “see” and understand the world as we do.

The successful application of computer vision technologies brings a wealth of benefits, enabling efficiencies and opportunities that were previously inconceivable. As computer vision engineers, the opportunity lies in continuing to develop and refine these technologies, pushing the boundaries of what machines can perceive and understand.

The future of computer vision is promising, with far-reaching implications for our world and our interaction with machines.

Share2Share12Send
Previous Post

ORB-SLAM 3: A Tool for 3D Mapping and Localization

Next Post

Real-time Human Pose Estimation using MediaPipe

Carlos Melo

Carlos Melo

Computer Vision Engineer with a degree in Aeronautical Sciences from the Air Force Academy (AFA), Master in Aerospace Engineering from the Technological Institute of Aeronautics (ITA), and founder of Sigmoidal.

Related Posts

Como equalizar histograma de imagens com OpenCV e Python
Computer Vision

Histogram Equalization with OpenCV and Python

by Carlos Melo
July 16, 2024
How to Train YOLOv9 on Custom Dataset
Computer Vision

How to Train YOLOv9 on Custom Dataset – A Complete Tutorial

by Carlos Melo
February 29, 2024
YOLOv9 para detecção de Objetos
Blog

YOLOv9: A Step-by-Step Tutorial for Object Detection

by Carlos Melo
February 26, 2024
Depth Anything - Estimativa de Profundidade Monocular
Computer Vision

Depth Estimation on Single Camera with Depth Anything

by Carlos Melo
February 23, 2024
Point Cloud Processing with Open3D and Python
Computer Vision

Point Cloud Processing with Open3D and Python

by Carlos Melo
February 12, 2024
Next Post
Estimativa de Pose Humana com MediaPipe

Real-time Human Pose Estimation using MediaPipe

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

  • Trending
  • Comments
  • Latest
Estimativa de Pose Humana com MediaPipe

Real-time Human Pose Estimation using MediaPipe

September 11, 2023
ORB-SLAM 3: A Tool for 3D Mapping and Localization

ORB-SLAM 3: A Tool for 3D Mapping and Localization

April 10, 2023

Build a Surveillance System with Computer Vision and Deep Learning

1
ORB-SLAM 3: A Tool for 3D Mapping and Localization

ORB-SLAM 3: A Tool for 3D Mapping and Localization

1
Point Cloud Processing with Open3D and Python

Point Cloud Processing with Open3D and Python

1

Fundamentals of Image Formation

0
Como equalizar histograma de imagens com OpenCV e Python

Histogram Equalization with OpenCV and Python

July 16, 2024
How to Train YOLOv9 on Custom Dataset

How to Train YOLOv9 on Custom Dataset – A Complete Tutorial

February 29, 2024
YOLOv9 para detecção de Objetos

YOLOv9: A Step-by-Step Tutorial for Object Detection

February 26, 2024
Depth Anything - Estimativa de Profundidade Monocular

Depth Estimation on Single Camera with Depth Anything

February 23, 2024

Seguir

  • 🫠Baseado em uma história real…
O que você conseguiria vender falando que “usa agentes de IA”?
  • 🤔🤔🤔 verdade ou mentira??
  • 🚨 É HOJE! LANÇAMENTO da Pós-Graduação em Visão Computacional & Deep Learning!

🛎️ Clique no link da bio e ative a notificação no YouTube!

#DeepLearning #VisãoComputacional #machinelearning
  • 🚨 É AMANHÃ!
A Live de Lançamento da nova Pós em Visão Computacional & Deep Learning acontece neste domingo, às 20h!

📍 Link da live já disponível na bio
🛎️ Ative a notificação agora para não perder!

#DeepLearning #VisãoComputacional #MachineLearning
  • 🚀 NOVA PÓS EM VISÃO COMPUTACIONAL!

Seja especialista em Visão Computacional e Deep Learning! 

✔️ 400h de conteúdo
✔️ Curso reconhecido pelo MEC
✔️ Foco em prática e projetos reais

💡 1 CURSO, 2 CARREIRAS
Atue como Machine Learning Engineer E Computer Vision Engineer! 

📅 Aula de lançamento: 1º de junho, 20h

📍 Link na bio. Ative o lembrete e participe!

#computervision #machinelearning #datascience
  • Geo4D apresenta uma nova abordagem para reconstrução 4D monocular de cenas dinâmicas, reutilizando modelos de difusão de vídeo. 

🌀 A técnica dispensa sensores múltiplos ou dados reais — treinando apenas com dados sintéticos e generalizando bem em zero-shot. Isso é possível porque modelos de difusão capturam priors temporais e espaciais consistentes. 

O método prevê múltiplas modalidades geométricas: mapas de pontos, profundidade e raios. Em seguida, utiliza um algoritmo leve de alinhamento multi-modal para fundi-las de forma coerente. Esse processo acontece em janelas deslizantes, permitindo reconstruções 4D contínuas e robustas mesmo em vídeos longos.

Nos benchmarks, o Geo4D superou métodos SOTA como MonST3R em estimativa de profundidade e alcançou bons resultados em pose de câmera. Uma prova do poder de integrar visão computacional e modelos generativos. 🧠

Se curtiu a ideia, deixa seu like e fortalece o post!

Fonte: Zeren Jiang

#machinelearning #computervision #datascience
  • 📸 Reconstrução 3D do Arco do Triunfo com Gaussian Splatting, a partir de um único vídeo

A técnica usada é o Gaussian Splatting, uma abordagem moderna de renderização neural que substitui malhas e voxels por distribuições gaussianas no espaço 3D.

Esses pontos flutuantes carregam cor, opacidade e variância, permitindo uma renderização ultrarrápida e detalhada - ideal para aplicações em realidade aumentada, mapeamento urbano e digital twins.

Diferente dos métodos tradicionais, esse modelo ajusta diretamente os parâmetros das gaussianas, tornando o processo leve e eficiente, inclusive em tempo real.

📌 Fonte: Bohdan Vodianyk

#ComputerVision #VisãoComputacional #MachineLearning #GaussianSplatting
  • Você ainda acredita que resolver as top-150 questões do LeetCode é suficiente para ser aprovado em uma entrevista de Machine Learning Engineer ou Computer Vision Engineer?

Talvez já tenha sido… alguns anos atrás.

Hoje, no entanto, empresas que seguem o padrão de avaliação das FAANG - como Meta (Facebook), Apple, Amazon, Netflix e Google - vêm exigindo muito mais do que apenas conhecimento em algoritmos e estrutura de dados.

✅ Espera-se domínio em ML System Design
✅ Clareza ao comunicar trade-offs técnicos
✅ Experiência real em colocar modelos de machine learning em produção

Passar pela etapa de screening é só o começo.

Se você quer realmente se destacar, aqui estão 3 livros essenciais para estudar com estratégia! Arraste o carrossel para conferir a lista.

📌 Comente se você incluiria algum outro título.
📤 Compartilhe com um colega que também está se preparando.

#machinelearning #computervision #datascience
  • 🚀 NASA testa novo laser 3D para medir ventos e melhorar previsões meteorológicas

Desde o outono de 2024, a NASA tem utilizado um instrumento avançado chamado Aerosol Wind Profiler (AWP) para medir ventos em 3D com alta precisão.

Montado em uma aeronave especial, o AWP usa pulsos de laser para detectar velocidade e direção dos ventos, além da concentração de aerossóis (poeira, fumaça, sal marinho etc).

Esses dados são valiosos para modelos de Machine Learning aplicados à previsão do tempo, detecção de anomalias e simulação atmosférica.

📊 Oportunidades diretas para ML:

🔹 Treinamento supervisionado: previsões mais precisas usando dados reais de velocidade e direção dos ventos em múltiplas altitudes.

🔹 Modelagem de séries temporais: LSTMs e Transformers podem capturar padrões em sistemas complexos como furacões.

🔹 Data fusion: integração de sensores distintos (AWP, HALO, dropsondes) é um problema clássico resolvido com ML multimodal.

🔹 Assimilação de dados: ML pode atuar em tempo real para corrigir modelos físicos via técnicas híbridas (physics-informed ML).

Se você trabalha com IA, clima ou sensoriamento remoto, esse é o tipo de dado que muda o jogo!
  • Cada passo te aproxima do que realmente importa. Quer continuar avançando?

🔘 [ ] Agora não
🔘 [ ] Seguir em frente 🚀
  • 🇺🇸 Green Card por Habilidade Extraordinária em Data Science e Machine Learning

Após nossa mudança para os EUA, muitas pessoas me perguntaram como consegui o Green Card tão rapidamente. Por isso, decidi compartilhar um pouco dessa jornada.

O EB-1A é um dos vistos mais seletivos para imigração, sendo conhecido como “The Einstein Visa”, já que o próprio Albert Einstein obteve sua residência permanente através desse processo em 1933.

Apesar do apelido ser um exagero moderno, é fato que esse é um dos vistos mais difíceis de conquistar. Seus critérios rigorosos permitem a obtenção do Green Card sem a necessidade de uma oferta de emprego.

Para isso, o aplicante precisa comprovar, por meio de evidências, que está entre os poucos profissionais de sua área que alcançaram e se mantêm no topo, demonstrando um histórico sólido de conquistas e reconhecimento.

O EB-1A valoriza não apenas um único feito, mas uma trajetória consistente de excelência e liderança, destacando o conjunto de realizações ao longo da carreira.

No meu caso específico, após escrever uma petição com mais de 1.300 páginas contendo todas as evidências necessárias, tive minha solicitação aprovada pelo USCIS, órgão responsável pela imigração nos Estados Unidos.

Fui reconhecido como um indivíduo com habilidade extraordinária em Data Science e Machine Learning, capaz de contribuir em áreas de importância nacional, trazendo benefícios substanciais para os EUA.

Para quem sempre me perguntou sobre o processo de imigração e como funciona o EB-1A, espero que esse resumo ajude a esclarecer um pouco mais. Se tiver dúvidas, estou à disposição para compartilhar mais sobre essa experiência! #machinelearning #datascience
  • 🚀Domine a tecnologia que está revolucionando o mundo.

A Pós-Graduação em Visão Computacional & Deep Learning prepara você para atuar nos campos mais avançados da Inteligência Artificial - de carros autônomos a robôs industriais e drones.

🧠 CARGA HORÁRIA: 400h
💻 MODALIDADE: EAD
📅 INÍCIO DAS AULAS: 29 de maio

Garanta sua vaga agora e impulsione sua carreira com uma formação prática, focada no mercado de trabalho.

Matricule-se já!

#deeplearning #machinelearning #visãocomputacional
  • Green Card aprovado! 🥳 Despedida do Brasil e rumo à nova vida nos 🇺🇸 com a família!
  • Haverá sinais… aprovado na petição do visto EB1A, visto reservado para pessoas com habilidades extraordinárias!

Texas, we are coming! 🤠
  • O que EU TENHO EM COMUM COM O TOM CRUISE??

Clama, não tem nenhuma “semana” aberta. Mas como@é quinta-feira (dia de TBT), olha o que eu resgatei!

Diretamente do TÚNEL DO TEMPO: Carlos Melo &Tom Cruise!
  • Bate e Volta DA ITÁLIA PARA A SUÍÇA 🇨🇭🇮🇹

Aproveitei o dia de folga após o Congresso Internacional de Astronáutica (IAC 2024) e fiz uma viagem “bate e volta” para a belíssima cidade de Lugano, Suíça.

Assista ao vlog e escreve nos comentários se essa não é a cidade mais linda que você já viu!

🔗 LINK NOS STORIES
Instagram Youtube LinkedIn Twitter
Sigmoidal

O melhor conteúdo técnico de Data Science, com projetos práticos e exemplos do mundo real.

Seguir no Instagram

Categories

  • Aerospace Engineering
  • Blog
  • Carreira
  • Computer Vision
  • Data Science
  • Deep Learning
  • Featured
  • Iniciantes
  • Machine Learning
  • Posts

Navegar por Tags

3d 3d machine learning 3d vision apollo 13 bayer filter camera calibration career cientista de dados clahe computer vision custom dataset Data Clustering data science deep learning depth anything depth estimation detecção de objetos digital image processing histogram histogram equalization image formation job keras lens lente machine learning machine learning engineering nasa object detection open3d opencv pinhole profissão projeto python redes neurais roboflow rocket scikit-learn space tensorflow tutorial visão computacional yolov8 yolov9

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • Cursos
  • Pós-Graduação
  • Blog
  • Sobre Mim
  • Contato
  • Português

© 2024 Sigmoidal - Aprenda Data Science, Visão Computacional e Python na prática.