Visión por computador: definición, historia y aplicaciones
Fuentes de luz, técnicas de iluminación y sistemas de lentes
Tecnologías CCD y CMOS, clasificación y parámetros
Geometría, radiometría, fotometría y digitalización
Modelo pin-hole, transformaciones y parámetros
Ojo humano, espacios de color RGB y HSI
Es la ciencia que estudia los procesos de adquisición, procesado, análisis e interpretación de la información procedente de imágenes 2D de un mundo 3D. Un ejemplo clásico es el análisis de escenas de tráfico: número y tipo de vehículos, localización de obstáculos y valoración de la densidad de congestión.
Orígenes. Los primeros trabajos de visión artificial surgen en el MIT. Lawrence Roberts (1963) desarrolla el primer programa para extraer información 3D de imágenes 2D, sentando las bases del procesamiento de bordes y contornos.
Primeros sistemas. David Marr propone un marco teórico computacional para la visión. Se desarrollan los primeros algoritmos de segmentación y detección de bordes, como Sobel y Canny, y aparecen los primeros robots industriales con visión básica.
Consolidación. Crece el interés en visión estéreo, flujo óptico y reconocimiento de formas. Se publican trabajos fundamentales sobre pirámides de imagen y modelos de apariencia, y surgen primeras aplicaciones en control de calidad industrial.
Madurez académica. Proliferan revistas especializadas como IJCV y CVIU, junto con congresos como CVPR, ICCV y ECCV. Se desarrollan métodos estadísticos robustos, como Active Shape Models y eigenfaces, y aparecen aplicaciones comerciales en automoción y medicina.
Descriptores y detección. Surgen descriptores locales robustos como SIFT (Lowe, 2004) y HOG (Dalal & Triggs, 2005). Viola & Jones (2001) logran detección facial en tiempo real, impulsando aplicaciones en seguridad, vigilancia y fotografía digital.
Revolución del Deep Learning. AlexNet (Krizhevsky et al., 2012) gana ImageNet con una ventaja sin precedentes. Las CNN transforman el campo con detección de objetos como YOLO y Faster R-CNN, segmentación semántica con FCN y U-Net, y aplicaciones masivas en smartphones, vehículos autónomos e IoT.
Transformers y modelos fundacionales. Vision Transformers (ViT, 2020) superan a las CNN en múltiples benchmarks. Modelos como CLIP, SAM (Segment Anything) y DINO permiten visión con pocos ejemplos, y la integración con LLMs impulsa la visión multimodal con sistemas como GPT-4V y Gemini.

Todo sistema de visión sigue un flujo de procesamiento desde la escena 3D hasta la descripción y reconocimiento de objetos.
La adquisición captura la escena; el pre-procesamiento la limpia; la extracción identifica rasgos relevantes; y finalmente la descripción y reconocimiento genera la salida para la aplicación.
Las imágenes se forman cuando un sensor registra la radiación que interactúa con los objetos físicos del mundo 3D.
Blanco/negro y color. Luz reflejada.
Mapa de profundidad de la escena.
Densidad de tejido (TAC).
Imagen térmica por calor emitido.
El sistema de iluminación contribuye de forma notable al éxito de los sistemas de visión, especialmente en aplicaciones industriales. Un buen diseño de iluminación puede reducir significativamente la complejidad de los algoritmos de procesamiento.
Gran intensidad, larga vida (~100.000 h), modo estroboscópico. Tecnología chip-on-board para alta concentración.
Luz más intensa de todos los tipos. Proporciona luz fría, ideal para entornos deflagrantes. Vida: 1.000–2.000 h.
Alta eficiencia energética. Funciona a f > 25 kHz. Vida media ~10.000 h. Limitada variedad de formas.
Luz estructurada (puntos, líneas, matrices). Permite determinar la tercera dimensión de los objetos.
Los LEDs (Light Emitting Diodes) son la tecnología de iluminación más utilizada en sistemas de visión artificial industriales por su versatilidad, eficiencia energética y larga vida útil.
Emiten luz en longitudes de onda muy específicas (rojo, verde, azul, IR, UV), lo que facilita el filtrado óptico y mejora el contraste en inspección.
Pueden encenderse y apagarse en microsegundos, permitiendo sincronización precisa con la cámara (strobe/flash) para congelar objetos en movimiento.
Entre 50.000 y 100.000 horas de funcionamiento, reduciendo costes de mantenimiento en entornos industriales.
Alta eficiencia energética respecto a lámparas halógenas o fluorescentes, con menor generación de calor.
Regulación precisa mediante PWM (Pulse Width Modulation), adaptable a distintas condiciones de inspección.

La iluminación por fibra óptica transmite luz desde una fuente remota (halógena, LED o xenón) hasta el punto de inspección mediante haces de fibras ópticas. Es ideal cuando se requiere iluminar zonas de difícil acceso o ambientes con restricciones eléctricas o térmicas.
La fuente de calor queda alejada del objeto inspeccionado. Ideal para materiales sensibles a la temperatura (alimentos, electrónica, tejidos biológicos).
Los haces de fibra son flexibles y de pequeño diámetro, permitiendo iluminar cavidades, orificios o zonas de difícil acceso en piezas mecánicas.
Al no conducir electricidad, son seguros en entornos con riesgo de explosión o con campos electromagnéticos intensos (industria química, farmacéutica).
Distribución homogénea de la luz gracias a la mezcla de fibras en el haz. Reduce sombras y puntos calientes en la imagen.
La fuente puede ubicarse lejos del punto de inspección sin pérdida significativa de intensidad luminosa.
Fibras dispuestas en anillo alrededor del objetivo. Iluminación frontal uniforme sin sombras. Muy usado en microscopía e inspección de pequeñas piezas.
Haz único flexible que puede orientarse libremente. Ideal para iluminar zonas de acceso restringido o cavidades internas.
Fibras alineadas en barra. Genera una línea de luz uniforme para inspección de superficies en movimiento (line scan).
Concentra la luz en un punto muy pequeño. Usada en microscopía y medición de alta precisión.

Las lámparas fluorescentes generan luz mediante la excitación de un gas (mercurio) que emite radiación ultravioleta, la cual es convertida en luz visible por el recubrimiento fosforescente del tubo. Fueron ampliamente utilizadas en visión artificial antes de la llegada del LED.
Producen más luz por vatio que las lámparas incandescentes. Los tubos fluorescentes compactos (CFL) ofrecen entre 50–100 lm/W, adecuados para iluminación de área amplia.
Emiten luz en toda la longitud del tubo, generando una iluminación suave y homogénea que reduce sombras duras. Ideal para inspección de superficies grandes.
Cubren un espectro visible amplio, aunque con picos en determinadas longitudes de onda (verde, azul). Disponibles en versiones de luz fría (6500K) y cálida (3000K).
Tecnología madura y económica. Amplia disponibilidad en formatos estándar (T5, T8, T12) para instalaciones industriales.
Principal inconveniente: parpadean a la frecuencia de la red eléctrica (50/100 Hz en Europa, 60/120 Hz en América). Puede causar artefactos en imágenes capturadas a alta velocidad si no se sincroniza correctamente.
Formato lineal estándar. Usado en iluminación de área en líneas de inspección de productos planos (papel, tela, vidrio).
Formato compacto. Usado en iluminación general de cabinas de inspección y estaciones de trabajo.
Emite en el rango ultravioleta. Revela defectos, contaminantes o marcas fluorescentes invisibles a simple vista. Muy usado en industria alimentaria y farmacéutica.
Operan a 20–50 kHz, eliminando el parpadeo visible. Compatibles con cámaras de alta velocidad sin artefactos de flicker.

La iluminación láser emite luz coherente, monocromática y altamente colimada. En visión artificial se utiliza principalmente para aplicaciones de medición 3D, perfilometría y detección de alta precisión gracias a sus propiedades únicas de coherencia espacial y temporal.
Emite en una longitud de onda muy precisa (ej. 650 nm rojo, 532 nm verde, 808 nm infrarrojo). Permite filtrado óptico muy selectivo, eliminando prácticamente toda la luz ambiental con un filtro de banda estrecha.
El haz láser mantiene su diámetro a grandes distancias con mínima divergencia. Permite iluminar puntos o líneas muy precisas sobre el objeto inspeccionado.
Concentra gran cantidad de energía en un área muy pequeña. Ideal para aplicaciones donde se necesita máxima relación señal/ruido en el sensor.
Los láseres pulsados pueden sincronizarse con precisión de nanosegundos con el obturador de la cámara, permitiendo capturar objetos en movimiento a alta velocidad sin desenfoque de movimiento.
La proyección de una línea láser sobre una superficie permite calcular su perfil 3D mediante triangulación geométrica. Base de los sensores de desplazamiento láser y escáneres 3D industriales.
Haz enfocado en un único punto. Usado en sensores de distancia por triangulación y medición de desplazamiento con precisión micrométrica.
Lente cilíndrica o difractiva expande el haz en una línea. Fundamental en perfilometría 3D, inspección de soldaduras y escaneado de superficies.
Proyecta rejillas, franjas o patrones codificados. Permite reconstrucción 3D completa de superficies (luz estructurada). Usado en robótica y control de calidad.
Plano de luz muy delgado para inspección de cortes transversales y detección de partículas en fluidos.

Iluminación frontal uniforme. Elimina sombras. Ideal para superficies planas.
Iluminación lateral. Resalta texturas y relieves. Muy usada en inspección de superficies.
Iluminación difusa omnidireccional. Elimina reflejos en superficies brillantes o curvas.
Luz trasera que crea siluetas. Ideal para medición de contornos y detección de agujeros.
Luz paralela al eje óptico. Detecta defectos en superficies muy reflectantes (metales pulidos).
Técnica más común. La cámara recibe la luz reflejada. Útil en superficies con pocos reflejos (papel, tela).

Iluminación lateral a la cámara. Resalta detalles de piezas, defectos superficiales, grietas y surcos. Usa anillos de luz.

Objeto entre iluminación y cámara. Medidas de silueta. En materiales translúcidos detecta manchas, grietas y rayas.

Mismo eje con espejo semitransparente (beam splitter). Para objetos reflectantes: etiquetas, PCB, aluminio.

Simula iluminación de día nublado, sin sombras. Combina reflectante y coaxial. Para superficies especulares complejas.


Luz pulsada. ?
Domo Plano?
Las lentes son objetos transparentes limitados por superficies curvas que proyectan la luz del exterior formando una imagen en el sensor. Se basan en el distinto grado de refracción de los rayos de luz.
Distancia entre el centro óptico y el foco al enfocar al infinito. Convergente: f > 0. Divergente: f < 0. Depende de longitud de onda, índice de refracción y curvatura.
Determinado por la distancia focal y el tamaño del sensor.
Relación f/D. Gran abertura → menor profundidad de campo. Pequeña abertura → mayor nitidez y profundidad.
Velocidades rápidas reducen el movimiento. Velocidades lentas producen imágenes movidas. Forma parte del triángulo de exposición junto con ISO y apertura.
Zona donde la imagen es nítida. La DOF aumenta con: menor abertura (mayor N), menor distancia focal (menor f) y mayor distancia de enfoque (mayor s).


No existe una "cámara universal": debe elegirse para cada aplicación. Las cámaras se clasifican según tecnología (CCD/CMOS), formato (área, lineal, TDI), resolución, color, espectro y tipo de salida.
Distancia focal, ángulo de visión, número f, velocidad de obturación, profundidad de campo, aberraciones y distorsión.
Resolución (p.ej. 1024×1024 px), formato de vídeo, fps, sensibilidad, relación de aspecto de píxeles y tipo de barrido (progresivo o entrelazado).
La óptica debe ser igual o mayor que el sensor. Una lente 1/4" con sensor 1/3" genera esquinas oscuras; una lente 1/2" con sensor 1/3" no pierde información.
Las dos tecnologías dominantes en sensores de imagen presentan características complementarias. La elección depende de los requisitos de la aplicación.
Un sensor CCD (dispositivo de carga acoplada) es un tipo de dispositivo electrónico que se utiliza para capturar y grabar imágenes digitales. Convierte la luz entrante en carga eléctrica, que luego se transmite y almacena como datos digitales. Los sensores CCD constan de una serie de millones de pequeñas células sensibles a la luz llamadas píxeles. La carga acumulada por cada píxel es proporcional a la intensidad de la luz que incide sobre él. Luego, esta carga se lee y se convierte en un valor digital, formando una imagen.

Un sensor CMOS (semiconductor de óxido metálico complementario) es otro tipo de sensor de imagen utilizado en cámaras digitales, teléfonos inteligentes y otros dispositivos. Los sensores CMOS no utilizan el método analógico del CCD, sino que utilizan un diseño digital. Los sensores CMOS constan de una serie de píxeles, al igual que los sensores CCD. Sin embargo, cada píxel tiene su propio amplificador y convertidor analógico-digital, lo que permite leer píxeles individuales y convertirlos en señales digitales.
Cámaras ‐ Color
1 CCD: Un sensor con tres capas separadas de foto detectores fundidos en silicio
3 CCD: Tres sensores monocromos independientes
Filtro Bayer: El mayor número de píxeles sensibles al verde se justifica porque el ojo humano es mucho más sensible a este color.


El proceso completo de adquisición transforma la realidad 3D en una representación digital:
Una imagen se representa como una función f(u,v), donde el argumento u,v indica la localización del píxel y el valor su interpretación: intensidad, distancia o color . El vídeo añade la dimensión temporal.
Relación entre energía luminosa emitida, reflejada y captada por el sensor.
Conversión de energía luminosa en energía eléctrica.
Conversión de señales continuas en aproximaciones digitales discretas.
Relación entre puntos 3D y su proyección en el plano imagen 2D.
La radiometría estudia la medición de la radiación electromagnética, incluyendo la luz visible. En visión por computador, permite modelar cómo la luz interactúa con las superficies y cómo es captada por el sensor.
Energía total emitida, transferida o recibida en forma de radiación electromagnética. Unidad: Julios (J).
Potencia radiante: energía por unidad de tiempo. Φ = dQ/dt. Unidad: Vatios (W).
Flujo radiante incidente por unidad de área de superficie. E = dΦ/dA. Unidad: W/m².
Flujo radiante emitido o reflejado por unidad de área y por unidad de ángulo sólido. L = d²Φ / (dA · dΩ · cosθ). Unidad: W/(m²·sr). Es la magnitud más relevante para los sensores de imagen.
Flujo radiante por unidad de ángulo sólido. I = dΦ/dΩ. Unidad: W/sr.
Medida del campo de visión en 3D. Unidad: estereorradián (sr).


La digitalización convierte señales continuas en representaciones discretas mediante dos procesos fundamentales: muestreo (resolución espacial) y cuantificación (niveles de gris).
Define la resolución espacial (M×N píxeles). Valores típicos: 128×128, 256×256, 512×512, 1024×1024.
Número de niveles de gris K. Con 8 bits → K=256 niveles. Menos bits producen efecto de posterización.
Representación final en memoria del ordenador lista para procesamiento.





K = 256

K = 2

K = 8



256×256 100×100 · 20×20 píxeles



K=256 K=100 K=20 niveles de gris
La geometría describe la proyección de la escena 3D sobre el plano imagen 2D. Se asume que la luz se propaga en línea recta. Dos modelos son frecuentemente usados:

El más utilizado en visión. Matemáticamente muy sencillo. La imagen es invertida, el tamaño se reduce y se pierde la información de profundidad (distancia Z).

Primer modelo de lentes físicas. Las lentes recogen la luz de un área y la proyectan sobre el plano imagen. Usa la aproximación paraxial.
La proyección de perspectiva en el caso simple se expresa como:

La escena se proyecta en una imagen 2D.
La Imagen es invertida.
El tamaño se reduce.
Se pierde la información sobre la profundidad.
La revisión de matemática de las coordenadas de perspectiva de pin-hole no se revisará en este curso.
El modelo completo de cámara incorpora traslaciones y rotaciones entre el sistema de referencia del mundo (SRW) y el de la cámara (SRC), expresado en coordenadas homogéneas:
Propios de la cámara: origen de la imagen, distancias focales y tamaño del píxel.
Posición y orientación de la cámara en el mundo: matriz de rotación (3 ángulos) y vector de traslación.
El ojo humano posee tres grupos de fotorreceptores con picos de sensibilidad en rojo (580 nm), verde (540 nm) y azul (450 nm).
La retina contiene 125 millones de bastones y conos. Las radiaciones con longitud de onda entre ~350 y ~750 nm producen la sensación de color.

El matiz y la saturación conjuntamente se denominan cromaticidad.
La retina.

Sensado y capa de procesado de bajo nivel con 125 millones de bastones y conos alimentados por 1 millón de nervios.
Noción de luminosidad: indica si un área está más o menos iluminada (Cuánto brillo tiene B/N).
Asociado a la longitud de onda dominante. Sensación de rojo, amarillo, verde o azul. (Color)
Pureza relativa del color. Inversamente proporcional a la cantidad de luz blanca mezclada. (Cantidad de color).
Es la especificación de un sistema de coordenadas 3D y un sub-espacio dentro de dicho sistema en donde cada color se representa por un punto.
Red/Green/Blue. Cada componente entre 0 y 255. Representación cúbica. Usado en pantallas, cámaras y vídeo digital.
Cyan/Magenta/Yellow. Modelo sustractivo. Utilizado en impresoras de color.
Intensidad + Cromaticidad. Usados para transmisión de señales de televisión.
(Hue, Saturation, Intensity) Matiz (0-360°, 0-1, 0-255), Saturación, Valor/Intensidad. Más intuitivo para el procesamiento de imágenes artísticas y segmentación por color.


Sector RG (0°≤H≤120°):
Sector GB (120°≤H≤240°, H'=H-120°):
Sector BR (240°≤H≤360°, H'=H-240°):

Convertir un color RGB a gris (escala de grises) se logra calculando el promedio de sus componentes rojo (), verde () y azul (). La fórmula estándar ponderada para obtener la luminosidad es:
Visión Artificial