Fundamentos de
Visión Artificial

Visión Artificial

Ph.D. Andrés Cela

ESCUELA POLITÉCNICA NACIONAL
Sílabo
Índice del Tema
01
Aspectos generales

Visión por computador: definición, historia y aplicaciones

02
Iluminación y Óptica

Fuentes de luz, técnicas de iluminación y sistemas de lentes

03
Cámaras

Tecnologías CCD y CMOS, clasificación y parámetros

04
Adquisición e Imagen

Geometría, radiometría, fotometría y digitalización

05
Geometría de Cámara

Modelo pin-hole, transformaciones y parámetros

06
Introducción al Color

Ojo humano, espacios de color RGB y HSI

1. ¿Qué es la Visión por Computador?

Es la ciencia que estudia los procesos de adquisición, procesado, análisis e interpretación de la información procedente de imágenes 2D de un mundo 3D. Un ejemplo clásico es el análisis de escenas de tráfico: número y tipo de vehículos, localización de obstáculos y valoración de la densidad de congestión.

1
1950s–60s

Orígenes. Los primeros trabajos de visión artificial surgen en el MIT. Lawrence Roberts (1963) desarrolla el primer programa para extraer información 3D de imágenes 2D, sentando las bases del procesamiento de bordes y contornos.

2
1970s

Primeros sistemas. David Marr propone un marco teórico computacional para la visión. Se desarrollan los primeros algoritmos de segmentación y detección de bordes, como Sobel y Canny, y aparecen los primeros robots industriales con visión básica.

3
1980s

Consolidación. Crece el interés en visión estéreo, flujo óptico y reconocimiento de formas. Se publican trabajos fundamentales sobre pirámides de imagen y modelos de apariencia, y surgen primeras aplicaciones en control de calidad industrial.

4
1990s

Madurez académica. Proliferan revistas especializadas como IJCV y CVIU, junto con congresos como CVPR, ICCV y ECCV. Se desarrollan métodos estadísticos robustos, como Active Shape Models y eigenfaces, y aparecen aplicaciones comerciales en automoción y medicina.

5
2000s

Descriptores y detección. Surgen descriptores locales robustos como SIFT (Lowe, 2004) y HOG (Dalal & Triggs, 2005). Viola & Jones (2001) logran detección facial en tiempo real, impulsando aplicaciones en seguridad, vigilancia y fotografía digital.

6
2010s

Revolución del Deep Learning. AlexNet (Krizhevsky et al., 2012) gana ImageNet con una ventaja sin precedentes. Las CNN transforman el campo con detección de objetos como YOLO y Faster R-CNN, segmentación semántica con FCN y U-Net, y aplicaciones masivas en smartphones, vehículos autónomos e IoT.

7
2020s–presente

Transformers y modelos fundacionales. Vision Transformers (ViT, 2020) superan a las CNN en múltiples benchmarks. Modelos como CLIP, SAM (Segment Anything) y DINO permiten visión con pocos ejemplos, y la integración con LLMs impulsa la visión multimodal con sistemas como GPT-4V y Gemini.

Aplicaciones y Retos
Principales Aplicaciones
  • Robótica (guiado y navegación)
  • Medicina y diagnóstico
  • Seguridad y vigilancia
  • Sistemas de transporte
  • Modelado y reconstrucción 3D
  • Control de calidad industrial
  • Agricultura y arte
Principales Dificultades
  • Las imágenes son ambiguas: proyección 3D→2D
  • Variaciones naturales en color, textura, tamaño y forma
  • Iluminación, sombras, distorsión y oclusiones
  • Ruido y características del sensor
  • Gran cantidad de información a tratar
Tareas de un Sistema de Visión por Computador

Todo sistema de visión sigue un flujo de procesamiento desde la escena 3D hasta la descripción y reconocimiento de objetos.

La adquisición captura la escena; el pre-procesamiento la limpia; la extracción identifica rasgos relevantes; y finalmente la descripción y reconocimiento genera la salida para la aplicación.

Formación y Tipos de Imágenes

Las imágenes se forman cuando un sensor registra la radiación que interactúa con los objetos físicos del mundo 3D.

Intensidad

Blanco/negro y color. Luz reflejada.

Distancia

Mapa de profundidad de la escena.

Tomografía

Densidad de tejido (TAC).

Infrarrojo (FIR)

Imagen térmica por calor emitido.

2. Sistemas de Iluminación

El sistema de iluminación contribuye de forma notable al éxito de los sistemas de visión, especialmente en aplicaciones industriales. Un buen diseño de iluminación puede reducir significativamente la complejidad de los algoritmos de procesamiento.

LED

Gran intensidad, larga vida (~100.000 h), modo estroboscópico. Tecnología chip-on-board para alta concentración.

Fibra Óptica

Luz más intensa de todos los tipos. Proporciona luz fría, ideal para entornos deflagrantes. Vida: 1.000–2.000 h.

Fluorescente

Alta eficiencia energética. Funciona a f > 25 kHz. Vida media ~10.000 h. Limitada variedad de formas.

Láser

Luz estructurada (puntos, líneas, matrices). Permite determinar la tercera dimensión de los objetos.

Iluminación LED

Los LEDs (Light Emitting Diodes) son la tecnología de iluminación más utilizada en sistemas de visión artificial industriales por su versatilidad, eficiencia energética y larga vida útil.

Monocromático

Emiten luz en longitudes de onda muy específicas (rojo, verde, azul, IR, UV), lo que facilita el filtrado óptico y mejora el contraste en inspección.

Alta Velocidad de Conmutación

Pueden encenderse y apagarse en microsegundos, permitiendo sincronización precisa con la cámara (strobe/flash) para congelar objetos en movimiento.

Larga Vida Útil

Entre 50.000 y 100.000 horas de funcionamiento, reduciendo costes de mantenimiento en entornos industriales.

Bajo Consumo

Alta eficiencia energética respecto a lámparas halógenas o fluorescentes, con menor generación de calor.

Control de Intensidad

Regulación precisa mediante PWM (Pulse Width Modulation), adaptable a distintas condiciones de inspección.

Iluminación por Fibra Óptica

La iluminación por fibra óptica transmite luz desde una fuente remota (halógena, LED o xenón) hasta el punto de inspección mediante haces de fibras ópticas. Es ideal cuando se requiere iluminar zonas de difícil acceso o ambientes con restricciones eléctricas o térmicas.

Sin Calor en el Punto de Iluminación

La fuente de calor queda alejada del objeto inspeccionado. Ideal para materiales sensibles a la temperatura (alimentos, electrónica, tejidos biológicos).

Acceso a Zonas Reducidas

Los haces de fibra son flexibles y de pequeño diámetro, permitiendo iluminar cavidades, orificios o zonas de difícil acceso en piezas mecánicas.

Sin Interferencias Electromagnéticas

Al no conducir electricidad, son seguros en entornos con riesgo de explosión o con campos electromagnéticos intensos (industria química, farmacéutica).

Alta Uniformidad

Distribución homogénea de la luz gracias a la mezcla de fibras en el haz. Reduce sombras y puntos calientes en la imagen.

Larga Distancia de Transmisión

La fuente puede ubicarse lejos del punto de inspección sin pérdida significativa de intensidad luminosa.

Haz Anular

Fibras dispuestas en anillo alrededor del objetivo. Iluminación frontal uniforme sin sombras. Muy usado en microscopía e inspección de pequeñas piezas.

Guía de Luz Flexible

Haz único flexible que puede orientarse libremente. Ideal para iluminar zonas de acceso restringido o cavidades internas.

Iluminación Lineal

Fibras alineadas en barra. Genera una línea de luz uniforme para inspección de superficies en movimiento (line scan).

Iluminación Puntual

Concentra la luz en un punto muy pequeño. Usada en microscopía y medición de alta precisión.

Iluminación Fluorescente


Las lámparas fluorescentes generan luz mediante la excitación de un gas (mercurio) que emite radiación ultravioleta, la cual es convertida en luz visible por el recubrimiento fosforescente del tubo. Fueron ampliamente utilizadas en visión artificial antes de la llegada del LED.

Alta Eficiencia Luminosa

Producen más luz por vatio que las lámparas incandescentes. Los tubos fluorescentes compactos (CFL) ofrecen entre 50–100 lm/W, adecuados para iluminación de área amplia.

Luz Difusa y Uniforme

Emiten luz en toda la longitud del tubo, generando una iluminación suave y homogénea que reduce sombras duras. Ideal para inspección de superficies grandes.

Amplio Espectro

Cubren un espectro visible amplio, aunque con picos en determinadas longitudes de onda (verde, azul). Disponibles en versiones de luz fría (6500K) y cálida (3000K).

Bajo Coste Inicial

Tecnología madura y económica. Amplia disponibilidad en formatos estándar (T5, T8, T12) para instalaciones industriales.

Parpadeo (Flicker)

Principal inconveniente: parpadean a la frecuencia de la red eléctrica (50/100 Hz en Europa, 60/120 Hz en América). Puede causar artefactos en imágenes capturadas a alta velocidad si no se sincroniza correctamente.

Tubo Fluorescente (T5/T8)

Formato lineal estándar. Usado en iluminación de área en líneas de inspección de productos planos (papel, tela, vidrio).

Fluorescente Compacto (CFL)

Formato compacto. Usado en iluminación general de cabinas de inspección y estaciones de trabajo.

Fluorescente UV (Luz Negra)

Emite en el rango ultravioleta. Revela defectos, contaminantes o marcas fluorescentes invisibles a simple vista. Muy usado en industria alimentaria y farmacéutica.

Fluorescente de Alta Frecuencia

Operan a 20–50 kHz, eliminando el parpadeo visible. Compatibles con cámaras de alta velocidad sin artefactos de flicker.

Iluminación Láser

La iluminación láser emite luz coherente, monocromática y altamente colimada. En visión artificial se utiliza principalmente para aplicaciones de medición 3D, perfilometría y detección de alta precisión gracias a sus propiedades únicas de coherencia espacial y temporal.

Luz Monocromática y Coherente

Emite en una longitud de onda muy precisa (ej. 650 nm rojo, 532 nm verde, 808 nm infrarrojo). Permite filtrado óptico muy selectivo, eliminando prácticamente toda la luz ambiental con un filtro de banda estrecha.

Alta Colimación

El haz láser mantiene su diámetro a grandes distancias con mínima divergencia. Permite iluminar puntos o líneas muy precisas sobre el objeto inspeccionado.

Alta Intensidad Puntual

Concentra gran cantidad de energía en un área muy pequeña. Ideal para aplicaciones donde se necesita máxima relación señal/ruido en el sensor.

Sincronización con Cámara

Los láseres pulsados pueden sincronizarse con precisión de nanosegundos con el obturador de la cámara, permitiendo capturar objetos en movimiento a alta velocidad sin desenfoque de movimiento.

Triangulación y Perfilometría

La proyección de una línea láser sobre una superficie permite calcular su perfil 3D mediante triangulación geométrica. Base de los sensores de desplazamiento láser y escáneres 3D industriales.

Punto Láser (Spot)

Haz enfocado en un único punto. Usado en sensores de distancia por triangulación y medición de desplazamiento con precisión micrométrica.

Línea Láser (Line)

Lente cilíndrica o difractiva expande el haz en una línea. Fundamental en perfilometría 3D, inspección de soldaduras y escaneado de superficies.

Patrón Estructurado

Proyecta rejillas, franjas o patrones codificados. Permite reconstrucción 3D completa de superficies (luz estructurada). Usado en robótica y control de calidad.

Láser de Hoja (Sheet Laser)

Plano de luz muy delgado para inspección de cortes transversales y detección de partículas en fluidos.

Configuraciones principales en visión artificial
01
Anular (Ring Light)

Iluminación frontal uniforme. Elimina sombras. Ideal para superficies planas.

02
Barra (Bar Light)

Iluminación lateral. Resalta texturas y relieves. Muy usada en inspección de superficies.

03
Domo (Dome Light)

Iluminación difusa omnidireccional. Elimina reflejos en superficies brillantes o curvas.

04
Retroiluminación (Backlight)

Luz trasera que crea siluetas. Ideal para medición de contornos y detección de agujeros.

05
Coaxial (Coaxial Light)

Luz paralela al eje óptico. Detecta defectos en superficies muy reflectantes (metales pulidos).


Técnicas de Iluminación* (Tarea)
Directa

Técnica más común. La cámara recibe la luz reflejada. Útil en superficies con pocos reflejos (papel, tela).

Lateral (Dark Field)

Iluminación lateral a la cámara. Resalta detalles de piezas, defectos superficiales, grietas y surcos. Usa anillos de luz.

Contraste (Backlight)

Objeto entre iluminación y cámara. Medidas de silueta. En materiales translúcidos detecta manchas, grietas y rayas.

Difusa Coaxial

Mismo eje con espejo semitransparente (beam splitter). Para objetos reflectantes: etiquetas, PCB, aluminio.

Difusa Tipo Domo

Simula iluminación de día nublado, sin sombras. Combina reflectante y coaxial. Para superficies especulares complejas.

Estroboscópica

Luz pulsada. ?

Domo Plano?

3. Óptica — Lentes y Parámetros Clave

Las lentes son objetos transparentes limitados por superficies curvas que proyectan la luz del exterior formando una imagen en el sensor. Se basan en el distinto grado de refracción de los rayos de luz.

Distancia Focal f

Distancia entre el centro óptico y el foco al enfocar al infinito. Convergente: f > 0. Divergente: f < 0. Depende de longitud de onda, índice de refracción y curvatura.

Ángulo de Visión α

Determinado por la distancia focal y el tamaño del sensor.

Número f

Relación f/D. Gran abertura → menor profundidad de campo. Pequeña abertura → mayor nitidez y profundidad.

Velocidad de Obturación

Velocidades rápidas reducen el movimiento. Velocidades lentas producen imágenes movidas. Forma parte del triángulo de exposición junto con ISO y apertura.

Profundidad de Campo y Aberraciones
Profundidad de Campo (DOF)

Zona donde la imagen es nítida. La DOF aumenta con: menor abertura (mayor N), menor distancia focal (menor f) y mayor distancia de enfoque (mayor s).

Aberraciones Ópticas
  • Cromática longitudinal/lateral: distintos índices de refracción según longitud de onda (color)
  • Esférica: rayos de un punto se proyectan en un disco
  • Coma: rayos fuera del eje paraxial con distinta magnificación
  • Distorsión cojín/barril: distinto aumento según distancia al centro
  • Curvatura de campo: objeto plano se enfoca en superficie curva
4. Cámaras

No existe una "cámara universal": debe elegirse para cada aplicación. Las cámaras se clasifican según tecnología (CCD/CMOS), formato (área, lineal, TDI), resolución, color, espectro y tipo de salida.

Óptica

Distancia focal, ángulo de visión, número f, velocidad de obturación, profundidad de campo, aberraciones y distorsión.

Sensor

Resolución (p.ej. 1024×1024 px), formato de vídeo, fps, sensibilidad, relación de aspecto de píxeles y tipo de barrido (progresivo o entrelazado).

Adecuación Óptica–Sensor

La óptica debe ser igual o mayor que el sensor. Una lente 1/4" con sensor 1/3" genera esquinas oscuras; una lente 1/2" con sensor 1/3" no pierde información.

CCD vs. CMOS

Las dos tecnologías dominantes en sensores de imagen presentan características complementarias. La elección depende de los requisitos de la aplicación.

Un sensor CCD (dispositivo de carga acoplada) es un tipo de dispositivo electrónico que se utiliza para capturar y grabar imágenes digitales. Convierte la luz entrante en carga eléctrica, que luego se transmite y almacena como datos digitales. Los sensores CCD constan de una serie de millones de pequeñas células sensibles a la luz llamadas píxeles. La carga acumulada por cada píxel es proporcional a la intensidad de la luz que incide sobre él. Luego, esta carga se lee y se convierte en un valor digital, formando una imagen.

Un sensor CMOS (semiconductor de óxido metálico complementario) es otro tipo de sensor de imagen utilizado en cámaras digitales, teléfonos inteligentes y otros dispositivos. Los sensores CMOS no utilizan el método analógico del CCD, sino que utilizan un diseño digital. Los sensores CMOS constan de una serie de píxeles, al igual que los sensores CCD. Sin embargo, cada píxel tiene su propio amplificador y convertidor analógico-digital, lo que permite leer píxeles individuales y convertirlos en señales digitales.

Cámaras ‐ Color
1 CCD: Un sensor con tres capas separadas de foto detectores fundidos en silicio

… 3 CCD: Tres sensores monocromos independientes

… Filtro Bayer: El mayor número de píxeles sensibles al verde se justifica porque el ojo humano es mucho más sensible a este color.




5. Adquisición y Geometría de Formación de Imágenes

El proceso completo de adquisición transforma la realidad 3D en una representación digital:

1
Escena
2
Iluminación
3
Óptica
4
Sensor
5
Señal
6
Digitalización
7
Representación Digital
  • Escena: Realidad (espacio 3D).
  • Iluminación: Ilumina la escena (esta estrechamente relacionada con el tipo de sensor y los objetivos que se quieren alcanzar)
  • Óptica: Enfoca {luz} desde la escena sobre el sensor
  • Sensor: Convierte {luz} a {energía eléctrica}
  • Señal: representación de la luz incidente como una energía eléctrica continua.
  • Digitalizador: convierte señales continuas a señales discretas
  • Representación digital: Representación final de la escena (realidad) en la memoria del ordenador


Una imagen se representa como una función f(u,v), donde el argumento u,v indica la localización del píxel y el valor su interpretación: intensidad, distancia o color . El vídeo añade la dimensión temporal.

Factores que intervienen en la formación de imágenes

Radiometría

Relación entre energía luminosa emitida, reflejada y captada por el sensor.

Fotometría

Conversión de energía luminosa en energía eléctrica.

Digitalización

Conversión de señales continuas en aproximaciones digitales discretas.

Geometría

Relación entre puntos 3D y su proyección en el plano imagen 2D.

Radiometría — Conceptos Básicos

La radiometría estudia la medición de la radiación electromagnética, incluyendo la luz visible. En visión por computador, permite modelar cómo la luz interactúa con las superficies y cómo es captada por el sensor.

"Energía Radiante" (Q)

Energía total emitida, transferida o recibida en forma de radiación electromagnética. Unidad: Julios (J).

Flujo Radiante (Φ)

Potencia radiante: energía por unidad de tiempo. Φ = dQ/dt. Unidad: Vatios (W).

Irradiancia (E)

Flujo radiante incidente por unidad de área de superficie. E = dΦ/dA. Unidad: W/m².

"Radiancia" (L)

Flujo radiante emitido o reflejado por unidad de área y por unidad de ángulo sólido. L = d²Φ / (dA · dΩ · cosθ). Unidad: W/(m²·sr). Es la magnitud más relevante para los sensores de imagen.

Intensidad Radiante (I)

Flujo radiante por unidad de ángulo sólido. I = dΦ/dΩ. Unidad: W/sr.

Ángulo Sólido (Ω)

Medida del campo de visión en 3D. Unidad: estereorradián (sr).

Fotometría
Digitalización

La digitalización convierte señales continuas en representaciones discretas mediante dos procesos fundamentales: muestreo (resolución espacial) y cuantificación (niveles de gris).

1
Muestreo

Define la resolución espacial (M×N píxeles). Valores típicos: 128×128, 256×256, 512×512, 1024×1024.

2
Cuantificación

Número de niveles de gris K. Con 8 bits → K=256 niveles. Menos bits producen efecto de posterización.

3
Imagen Digital

Representación final en memoria del ordenador lista para procesamiento.

Digitalización - Muestreo



Digitalización - Cuantificación


K = 256

K = 2

K = 8


Ejemplos de Resolución Espacial y Cuantificación
Resolución Espacial

256×256 100×100 · 20×20 píxeles

Niveles de Gris

K=256 K=100 K=20 niveles de gris

Geometría

La geometría describe la proyección de la escena 3D sobre el plano imagen 2D. Se asume que la luz se propaga en línea recta. Dos modelos son frecuentemente usados:

Modelo Pin-hole

El más utilizado en visión. Matemáticamente muy sencillo. La imagen es invertida, el tamaño se reduce y se pierde la información de profundidad (distancia Z).

Lentes Delgadas

Primer modelo de lentes físicas. Las lentes recogen la luz de un área y la proyectan sobre el plano imagen. Usa la aproximación paraxial.

La proyección de perspectiva en el caso simple se expresa como:

Geometría Pin-hole

La escena se proyecta en una imagen 2D.

La Imagen es invertida.

El tamaño se reduce.

Se pierde la información sobre la profundidad.

La revisión de matemática de las coordenadas de perspectiva de pin-hole no se revisará en este curso.

Modelo de Cámara — Parámetros

El modelo completo de cámara incorpora traslaciones y rotaciones entre el sistema de referencia del mundo (SRW) y el de la cámara (SRC), expresado en coordenadas homogéneas:

Parámetros Intrínsecos

Propios de la cámara: origen de la imagen, distancias focales y tamaño del píxel.

Parámetros Extrínsecos

Posición y orientación de la cámara en el mundo: matriz de rotación (3 ángulos) y vector de traslación.

10. Introducción al Color

El ojo humano posee tres grupos de fotorreceptores con picos de sensibilidad en rojo (580 nm), verde (540 nm) y azul (450 nm).

La retina contiene 125 millones de bastones y conos. Las radiaciones con longitud de onda entre ~350 y ~750 nm producen la sensación de color.

El matiz y la saturación conjuntamente se denominan cromaticidad.

El ojo humano

La retina.

  • Bastones (bajo nivel de luz, visión nocturna)
  • Conos (visión en color)
  • Sinapsis(Unión de neuronas)
  • Nervio óptico (envía la señal al cerebro)

Sensado y capa de procesado de bajo nivel con 125 millones de bastones y conos alimentados por 1 millón de nervios.

Caracterización del color
Brillo/Intensidad

Noción de luminosidad: indica si un área está más o menos iluminada (Cuánto brillo tiene B/N).

Matiz (Tono)

Asociado a la longitud de onda dominante. Sensación de rojo, amarillo, verde o azul. (Color)

Saturación

Pureza relativa del color. Inversamente proporcional a la cantidad de luz blanca mezclada. (Cantidad de color).

Espacios de Color

Es la especificación de un sistema de coordenadas 3D y un sub-espacio dentro de dicho sistema en donde cada color se representa por un punto.

RGB

Red/Green/Blue. Cada componente entre 0 y 255. Representación cúbica. Usado en pantallas, cámaras y vídeo digital.

CMY

Cyan/Magenta/Yellow. Modelo sustractivo. Utilizado en impresoras de color.

YUV / YIQ

Intensidad + Cromaticidad. Usados para transmisión de señales de televisión.

HSV / HSI

(Hue, Saturation, Intensity) Matiz (0-360°, 0-1, 0-255), Saturación, Valor/Intensidad. Más intuitivo para el procesamiento de imágenes artísticas y segmentación por color.

Conversión entre Espacios de Color RGB HSI
RGB → HSI
HSI → RGB (por sectores)

Sector RG (0°≤H≤120°):

Sector GB (120°≤H≤240°, H'=H-120°):

Sector BR (240°≤H≤360°, H'=H-240°):

Escala de grises


Convertir un color RGB a gris (escala de grises) se logra calculando el promedio de sus componentes rojo (), verde () y azul (). La fórmula estándar ponderada para obtener la luminosidad es:


Tipos de archivo de imagen