Fundamentos de la Visión Computacional

Fundamentos de
 Visión Artificial
 Visión Artificial
Ph.D. Andrés Cela
ESCUELA POLITÉCNICA NACIONAL
Sílabo
Índice del Tema
01
Aspectos generales
Visión por computador: definición, historia y aplicaciones
02
Iluminación y Óptica
Fuentes de luz, técnicas de iluminación y sistemas de lentes
03
Cámaras
Tecnologías CCD y CMOS, clasificación y parámetros
04
Adquisición e Imagen
Geometría, radiometría, fotometría y digitalización
05
Geometría de Cámara
Modelo pin-hole, transformaciones y parámetros
06
Introducción al Color
Ojo humano, espacios de color RGB y HSI
1. ¿Qué es la Visión por Computador?
Es la ciencia que estudia los procesos de adquisición, procesado, análisis e interpretación de la información procedente de imágenes 2D de un mundo 3D. Un ejemplo clásico es el análisis de escenas de tráfico: número y tipo de vehículos, localización de obstáculos y valoración de la densidad de congestión.
1
1950s–60s
Orígenes. Los primeros trabajos de visión artificial surgen en el MIT. Lawrence Roberts (1963) desarrolla el primer programa para extraer información 3D de imágenes 2D, sentando las bases del procesamiento de bordes y contornos.
2
1970s
Primeros sistemas. David Marr propone un marco teórico computacional para la visión. Se desarrollan los primeros algoritmos de segmentación y detección de bordes, como Sobel y Canny, y aparecen los primeros robots industriales con visión básica.
3
1980s
Consolidación. Crece el interés en visión estéreo, flujo óptico y reconocimiento de formas. Se publican trabajos fundamentales sobre pirámides de imagen y modelos de apariencia, y surgen primeras aplicaciones en control de calidad industrial.
4
1990s
Madurez académica. Proliferan revistas especializadas como IJCV y CVIU, junto con congresos como CVPR, ICCV y ECCV. Se desarrollan métodos estadísticos robustos, como Active Shape Models y eigenfaces, y aparecen aplicaciones comerciales en automoción y medicina.
5
2000s
Descriptores y detección. Surgen descriptores locales robustos como SIFT (Lowe, 2004) y HOG (Dalal & Triggs, 2005). Viola & Jones (2001) logran detección facial en tiempo real, impulsando aplicaciones en seguridad, vigilancia y fotografía digital.
6
2010s
Revolución del Deep Learning. AlexNet (Krizhevsky et al., 2012) gana ImageNet con una ventaja sin precedentes. Las CNN transforman el campo con detección de objetos como YOLO y Faster R-CNN, segmentación semántica con FCN y U-Net, y aplicaciones masivas en smartphones, vehículos autónomos e IoT.
7
2020s–presente
Transformers y modelos fundacionales. Vision Transformers (ViT, 2020) superan a las CNN en múltiples benchmarks. Modelos como CLIP, SAM (Segment Anything) y DINO permiten visión con pocos ejemplos, y la integración con LLMs impulsa la visión multimodal con sistemas como GPT-4V y Gemini.
Aplicaciones y Retos
Principales Aplicaciones
Robótica (guiado y navegación)
Medicina y diagnóstico
Seguridad y vigilancia
Sistemas de transporte
Modelado y reconstrucción 3D
Control de calidad industrial
Agricultura y arte
Principales Dificultades
Las imágenes son ambiguas: proyección 3D→2D
Variaciones naturales en color, textura, tamaño y forma
Iluminación, sombras, distorsión y oclusiones
Ruido y características del sensor
Gran cantidad de información a tratar
El 60% de la corteza cerebral se dedica a tratar información visual. Los sistemas artificiales tienen aún un largo camino por delante.
Tareas de un Sistema de Visión por Computador
Todo sistema de visión sigue un flujo de procesamiento desde la escena 3D hasta la descripción y reconocimiento de objetos.
La adquisición captura la escena; el pre-procesamiento la limpia; la extracción identifica rasgos relevantes; y finalmente la descripción y reconocimiento genera la salida para la aplicación.
Formación y Tipos de Imágenes
Las imágenes se forman cuando un sensor registra la radiación que interactúa con los objetos físicos del mundo 3D. 
Intensidad
Blanco/negro y color. Luz reflejada.
Distancia
Mapa de profundidad de la escena.
Tomografía
Densidad de tejido (TAC).
Infrarrojo (FIR)
Imagen térmica por calor emitido.
2. Sistemas de Iluminación
El sistema de iluminación contribuye de forma notable al éxito de los sistemas de visión, especialmente en aplicaciones industriales. Un buen diseño de iluminación puede reducir significativamente la complejidad de los algoritmos de procesamiento.
LED
Gran intensidad, larga vida (~100.000 h), modo estroboscópico. Tecnología chip-on-board para alta concentración.
Fibra Óptica
Luz más intensa de todos los tipos. Proporciona luz fría, ideal para entornos deflagrantes. Vida: 1.000–2.000 h.
Fluorescente
Alta eficiencia energética. Funciona a f > 25 kHz. Vida media ~10.000 h. Limitada variedad de formas.
Láser
Luz estructurada (puntos, líneas, matrices). Permite determinar la tercera dimensión de los objetos.
Iluminación LED 
Los LEDs (Light Emitting Diodes) son la tecnología de iluminación más utilizada en sistemas de visión artificial industriales por su versatilidad, eficiencia energética y larga vida útil.
Monocromático
Emiten luz en longitudes de onda muy específicas (rojo, verde, azul, IR, UV), lo que facilita el filtrado óptico y mejora el contraste en inspección.
Alta Velocidad de Conmutación
Pueden encenderse y apagarse en microsegundos, permitiendo sincronización precisa con la cámara (strobe/flash) para congelar objetos en movimiento.
Larga Vida Útil
Entre 50.000 y 100.000 horas de funcionamiento, reduciendo costes de mantenimiento en entornos industriales.
Bajo Consumo
Alta eficiencia energética respecto a lámparas halógenas o fluorescentes, con menor generación de calor.
Control de Intensidad
Regulación precisa mediante PWM (Pulse Width Modulation), adaptable a distintas condiciones de inspección.
Iluminación por Fibra Óptica
La iluminación por fibra óptica transmite luz desde una fuente remota (halógena, LED o xenón) hasta el punto de inspección mediante haces de fibras ópticas. Es ideal cuando se requiere iluminar zonas de difícil acceso o ambientes con restricciones eléctricas o térmicas.
Sin Calor en el Punto de Iluminación
La fuente de calor queda alejada del objeto inspeccionado. Ideal para materiales sensibles a la temperatura (alimentos, electrónica, tejidos biológicos).
Acceso a Zonas Reducidas
Los haces de fibra son flexibles y de pequeño diámetro, permitiendo iluminar cavidades, orificios o zonas de difícil acceso en piezas mecánicas.
Sin Interferencias Electromagnéticas
Al no conducir electricidad, son seguros en entornos con riesgo de explosión o con campos electromagnéticos intensos (industria química, farmacéutica).
Alta Uniformidad
Distribución homogénea de la luz gracias a la mezcla de fibras en el haz. Reduce sombras y puntos calientes en la imagen.
Larga Distancia de Transmisión
La fuente puede ubicarse lejos del punto de inspección sin pérdida significativa de intensidad luminosa.
Haz Anular
Fibras dispuestas en anillo alrededor del objetivo. Iluminación frontal uniforme sin sombras. Muy usado en microscopía e inspección de pequeñas piezas.
Guía de Luz Flexible
Haz único flexible que puede orientarse libremente. Ideal para iluminar zonas de acceso restringido o cavidades internas.
Iluminación Lineal
Fibras alineadas en barra. Genera una línea de luz uniforme para inspección de superficies en movimiento (line scan).
Iluminación Puntual
Concentra la luz en un punto muy pequeño. Usada en microscopía y medición de alta precisión.
⚠️ Limitación principal: la intensidad luminosa disminuye con la longitud del haz y con el número de curvaturas. Se recomienda minimizar los radios de curvatura para preservar la eficiencia de transmisión.
Iluminación Fluorescente

Las lámparas fluorescentes generan luz mediante la excitación de un gas (mercurio) que emite radiación ultravioleta, la cual es convertida en luz visible por el recubrimiento fosforescente del tubo. Fueron ampliamente utilizadas en visión artificial antes de la llegada del LED.
Alta Eficiencia Luminosa
Producen más luz por vatio que las lámparas incandescentes. Los tubos fluorescentes compactos (CFL) ofrecen entre 50–100 lm/W, adecuados para iluminación de área amplia.
Luz Difusa y Uniforme
Emiten luz en toda la longitud del tubo, generando una iluminación suave y homogénea que reduce sombras duras. Ideal para inspección de superficies grandes.
Amplio Espectro
Cubren un espectro visible amplio, aunque con picos en determinadas longitudes de onda (verde, azul). Disponibles en versiones de luz fría (6500K) y cálida (3000K).
Bajo Coste Inicial
Tecnología madura y económica. Amplia disponibilidad en formatos estándar (T5, T8, T12) para instalaciones industriales.
Parpadeo (Flicker)
Principal inconveniente: parpadean a la frecuencia de la red eléctrica (50/100 Hz en Europa, 60/120 Hz en América). Puede causar artefactos en imágenes capturadas a alta velocidad si no se sincroniza correctamente.
Tubo Fluorescente (T5/T8)
Formato lineal estándar. Usado en iluminación de área en líneas de inspección de productos planos (papel, tela, vidrio).
Fluorescente Compacto (CFL)
Formato compacto. Usado en iluminación general de cabinas de inspección y estaciones de trabajo.
Fluorescente UV (Luz Negra)
Emite en el rango ultravioleta. Revela defectos, contaminantes o marcas fluorescentes invisibles a simple vista. Muy usado en industria alimentaria y farmacéutica.
Fluorescente de Alta Frecuencia
Operan a 20–50 kHz, eliminando el parpadeo visible. Compatibles con cámaras de alta velocidad sin artefactos de flicker.
⚠️ Limitación principal: las lámparas fluorescentes contienen mercurio (sustancia tóxica) y tienen una vida útil menor que los LEDs (8.000–15.000 horas). Están siendo progresivamente reemplazadas por tecnología LED en nuevas instalaciones de visión artificial.
Iluminación Láser
La iluminación láser emite luz coherente, monocromática y altamente colimada. En visión artificial se utiliza principalmente para aplicaciones de medición 3D, perfilometría y detección de alta precisión gracias a sus propiedades únicas de coherencia espacial y temporal.
Luz Monocromática y Coherente
Emite en una longitud de onda muy precisa (ej. 650 nm rojo, 532 nm verde, 808 nm infrarrojo). Permite filtrado óptico muy selectivo, eliminando prácticamente toda la luz ambiental con un filtro de banda estrecha.
Alta Colimación
El haz láser mantiene su diámetro a grandes distancias con mínima divergencia. Permite iluminar puntos o líneas muy precisas sobre el objeto inspeccionado.
Alta Intensidad Puntual
Concentra gran cantidad de energía en un área muy pequeña. Ideal para aplicaciones donde se necesita máxima relación señal/ruido en el sensor.
Sincronización con Cámara
Los láseres pulsados pueden sincronizarse con precisión de nanosegundos con el obturador de la cámara, permitiendo capturar objetos en movimiento a alta velocidad sin desenfoque de movimiento.
Triangulación y Perfilometría
La proyección de una línea láser sobre una superficie permite calcular su perfil 3D mediante triangulación geométrica. Base de los sensores de desplazamiento láser y escáneres 3D industriales.
Punto Láser (Spot)
Haz enfocado en un único punto. Usado en sensores de distancia por triangulación y medición de desplazamiento con precisión micrométrica.
Línea Láser (Line)
Lente cilíndrica o difractiva expande el haz en una línea. Fundamental en perfilometría 3D, inspección de soldaduras y escaneado de superficies.
Patrón Estructurado
Proyecta rejillas, franjas o patrones codificados. Permite reconstrucción 3D completa de superficies (luz estructurada). Usado en robótica y control de calidad.
Láser de Hoja (Sheet Laser)
Plano de luz muy delgado para inspección de cortes transversales y detección de partículas en fluidos.
⚠️ Seguridad: los láseres se clasifican en clases (1 a 4) según su potencia y riesgo ocular. En entornos industriales se deben usar protecciones adecuadas y señalización de zona láser. Los láseres de Clase 3B y 4 pueden causar daños oculares permanentes.
Configuraciones principales en visión artificial
01
Anular (Ring Light)
Iluminación frontal uniforme. Elimina sombras. Ideal para superficies planas.
02
Barra (Bar Light)
Iluminación lateral. Resalta texturas y relieves. Muy usada en inspección de superficies.
03
Domo (Dome Light)
Iluminación difusa omnidireccional. Elimina reflejos en superficies brillantes o curvas.
04
Retroiluminación (Backlight)
Luz trasera que crea siluetas. Ideal para medición de contornos y detección de agujeros.
05
Coaxial (Coaxial Light)
Luz paralela al eje óptico. Detecta defectos en superficies muy reflectantes (metales pulidos).

Técnicas de Iluminación* (Tarea)
Directa
Técnica más común. La cámara recibe la luz reflejada. Útil en superficies con pocos reflejos (papel, tela).
Lateral (Dark Field)
Iluminación lateral a la cámara. Resalta detalles de piezas, defectos superficiales, grietas y surcos. Usa anillos de luz.
Contraste (Backlight)
Objeto entre iluminación y cámara. Medidas de silueta. En materiales translúcidos detecta manchas, grietas y rayas.
Difusa Coaxial
Mismo eje con espejo semitransparente (beam splitter). Para objetos reflectantes: etiquetas, PCB, aluminio.
Difusa Tipo Domo
Simula iluminación de día nublado, sin sombras. Combina reflectante y coaxial. Para superficies especulares complejas.
Estroboscópica
Luz pulsada. ?
Domo Plano?
3. Óptica — Lentes y Parámetros Clave
Las lentes son objetos transparentes limitados por superficies curvas que proyectan la luz del exterior formando una imagen en el sensor. Se basan en el distinto grado de refracción de los rayos de luz.
Distancia Focal f
Distancia entre el centro óptico y el foco al enfocar al infinito. Convergente: f > 0. Divergente: f < 0. Depende de longitud de onda, índice de refracción y curvatura.
Ángulo de Visión α
Determinado por la distancia focal y el tamaño del sensor.
Número f
Relación f/D. Gran abertura → menor profundidad de campo. Pequeña abertura → mayor nitidez y profundidad.
Velocidad de Obturación
Velocidades rápidas reducen el movimiento. Velocidades lentas producen imágenes movidas. Forma parte del triángulo de exposición junto con ISO y apertura.
Profundidad de Campo y Aberraciones
Profundidad de Campo (DOF)
Zona donde la imagen es nítida. La DOF aumenta con: menor abertura (mayor N), menor distancia focal (menor f) y mayor distancia de enfoque (mayor s).
Aberraciones Ópticas
Cromática longitudinal/lateral: distintos índices de refracción según longitud de onda (color)
Esférica: rayos de un punto se proyectan en un disco
Coma: rayos fuera del eje paraxial con distinta magnificación
Distorsión cojín/barril: distinto aumento según distancia al centro
Curvatura de campo: objeto plano se enfoca en superficie curva
4. Cámaras
No existe una "cámara universal": debe elegirse para cada aplicación. Las cámaras se clasifican según tecnología (CCD/CMOS), formato (área, lineal, TDI), resolución, color, espectro y tipo de salida.
Óptica
Distancia focal, ángulo de visión, número f, velocidad de obturación, profundidad de campo, aberraciones y distorsión.
Sensor
Resolución (p.ej. 1024×1024 px), formato de vídeo, fps, sensibilidad, relación de aspecto de píxeles y tipo de barrido (progresivo o entrelazado).
Adecuación Óptica–Sensor
La óptica debe ser igual o mayor que el sensor. Una lente 1/4" con sensor 1/3" genera esquinas oscuras; una lente 1/2" con sensor 1/3" no pierde información.
CCD vs. CMOS
Las dos tecnologías dominantes en sensores de imagen presentan características complementarias. La elección depende de los requisitos de la aplicación. 
Un sensor CCD (dispositivo de carga acoplada) es un tipo de dispositivo electrónico que se utiliza para capturar y grabar imágenes digitales. Convierte la luz entrante en carga eléctrica, que luego se transmite y almacena como datos digitales. Los sensores CCD constan de una serie de millones de pequeñas células sensibles a la luz llamadas píxeles. La carga acumulada por cada píxel es proporcional a la intensidad de la luz que incide sobre él. Luego, esta carga se lee y se convierte en un valor digital, formando una imagen.
Un sensor CMOS (semiconductor de óxido metálico complementario) es otro tipo de sensor de imagen utilizado en cámaras digitales, teléfonos inteligentes y otros dispositivos. Los sensores CMOS no utilizan el método analógico del CCD, sino que utilizan un diseño digital. Los sensores CMOS constan de una serie de píxeles, al igual que los sensores CCD. Sin embargo, cada píxel tiene su propio amplificador y convertidor analógico-digital, lo que permite leer píxeles individuales y convertirlos en señales digitales.
El filtro Bayer usa más píxeles verdes porque el ojo humano es más sensible a ese color. Los sistemas 3-CCD usan tres sensores independientes con separador de haz óptico.
Cámaras ‐ Color 
1 CCD: Un sensor con tres capas separadas de foto detectores fundidos en silicio
 3 CCD: Tres sensores monocromos independientes
 Filtro Bayer: El mayor número de píxeles sensibles al verde se justifica porque el ojo humano es mucho más sensible a este color. 



5. Adquisición y Geometría de Formación de Imágenes
El proceso completo de adquisición transforma la realidad 3D en una representación digital:
1
Escena
2
Iluminación
3
Óptica
4
Sensor
5
Señal
6
Digitalización
7
Representación Digital
Escena: Realidad (espacio 3D).
 Iluminación: Ilumina la escena (esta estrechamente relacionada con el tipo de sensor y los objetivos que se quieren alcanzar)
 Óptica: Enfoca {luz} desde la escena sobre el sensor
Sensor: Convierte {luz} a {energía eléctrica}
 Señal: representación de la luz incidente como una energía eléctrica continua.
Digitalizador: convierte señales continuas a señales discretas
 Representación digital: Representación final de la escena (realidad) en la memoria del ordenador
 
Una imagen se representa como una función f(u,v), donde el argumento u,v indica la localización del píxel y el valor su interpretación: intensidad, distancia o color . El vídeo añade la dimensión temporal.
Factores que intervienen en la formación de imágenes 

Radiometría
Relación entre energía luminosa emitida, reflejada y captada por el sensor.
Fotometría
Conversión de energía luminosa en energía eléctrica.
Digitalización
Conversión de señales continuas en aproximaciones digitales discretas.
Geometría
Relación entre puntos 3D y su proyección en el plano imagen 2D.
Radiometría — Conceptos Básicos
La radiometría estudia la medición de la radiación electromagnética, incluyendo la luz visible. En visión por computador, permite modelar cómo la luz interactúa con las superficies y cómo es captada por el sensor.
"Energía Radiante" (Q)
Energía total emitida, transferida o recibida en forma de radiación electromagnética. Unidad: Julios (J).
Flujo Radiante (Φ)
Potencia radiante: energía por unidad de tiempo. Φ = dQ/dt. Unidad: Vatios (W).
Irradiancia (E)
Flujo radiante incidente por unidad de área de superficie. E = dΦ/dA. Unidad: W/m².
"Radiancia" (L)
Flujo radiante emitido o reflejado por unidad de área y por unidad de ángulo sólido. L = d²Φ / (dA · dΩ · cosθ). Unidad: W/(m²·sr). Es la magnitud más relevante para los sensores de imagen.
Intensidad Radiante (I)
Flujo radiante por unidad de ángulo sólido. I = dΦ/dΩ. Unidad: W/sr.
Ángulo Sólido (Ω)
Medida del campo de visión en 3D. Unidad: estereorradián (sr).
La radiancia L (P,d) es la cantidad que mide el sensor de la cámara: representa la luz que llega desde la dirección d al punto P de la superficie.
Fotometría
Digitalización
La digitalización convierte señales continuas en representaciones discretas mediante dos procesos fundamentales: muestreo (resolución espacial) y cuantificación (niveles de gris).
1
Muestreo
Define la resolución espacial (M×N píxeles). Valores típicos: 128×128, 256×256, 512×512, 1024×1024.
2
Cuantificación
Número de niveles de gris K. Con 8 bits → K=256 niveles. Menos bits producen efecto de posterización.
3
Imagen Digital
Representación final en memoria del ordenador lista para procesamiento.
Digitalización - Muestreo


Digitalización - Cuantificación

K = 256
K = 2
K = 8

Ejemplos de Resolución Espacial y Cuantificación
Resolución Espacial
256×256          100×100 ·       20×20 píxeles
Niveles de Gris
K=256         K=100        K=20 niveles de gris
Geometría
La geometría describe la proyección de la escena 3D sobre el plano imagen 2D. Se asume que la luz se propaga en línea recta. Dos modelos son frecuentemente usados:
Modelo Pin-hole
El más utilizado en visión. Matemáticamente muy sencillo. La imagen es invertida, el tamaño se reduce y se pierde la información de profundidad (distancia Z).
Lentes Delgadas
Primer modelo de lentes físicas. Las lentes recogen la luz de un área y la proyectan sobre el plano imagen. Usa la aproximación paraxial.
La proyección de perspectiva en el caso simple  se expresa como:
x = f\frac{X}{Z}, \quad y = f\frac{Y}{Z}
Geometría Pin-hole
La escena se proyecta en una imagen 2D. 
La Imagen es invertida. 
El tamaño se reduce. 
Se pierde la información sobre la profundidad.
La revisión de matemática de las coordenadas de perspectiva de pin-hole no se revisará en este curso.
Modelo de Cámara — Parámetros
El modelo completo de cámara incorpora traslaciones y rotaciones entre el sistema de referencia del mundo (SRW) y el de la cámara (SRC), expresado en coordenadas homogéneas:
\begin{bmatrix} wu \\ wv \\ w \end{bmatrix} = \begin{bmatrix} f_x & 0 & u_o \\ 0 & f_y & v_o \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} R_1^T & T_x \\ R_2^T & T_y \\ R_3^T & T_z \end{bmatrix} \begin{bmatrix} \vec{P} \\ 1 \end{bmatrix} = K(R|T)\begin{bmatrix}X\\Y\\Z\\1\end{bmatrix}
Parámetros Intrínsecos
Propios de la cámara:  origen de la imagen, distancias focales y tamaño del píxel.
Parámetros Extrínsecos
Posición y orientación de la cámara en el mundo: matriz de rotación (3 ángulos) y vector de traslación.
Con una sola imagen no es posible obtener la coordenada Z. Se requieren al menos dos imágenes del mismo punto desde distintos puntos de vista.
10. Introducción al Color
El ojo humano posee tres grupos de fotorreceptores con picos de sensibilidad en rojo (580 nm), verde (540 nm) y azul (450 nm). 
La retina contiene 125 millones de bastones y conos. Las radiaciones con longitud de onda entre ~350 y ~750 nm producen la sensación de color.
El matiz y la saturación conjuntamente se denominan cromaticidad.
El ojo humano
La retina. 
Bastones (bajo nivel de luz, visión nocturna)
Conos (visión en color)
Sinapsis(Unión de neuronas)
Nervio óptico (envía la señal al cerebro)
Sensado y capa de procesado de bajo nivel con 125 millones de bastones y conos alimentados por 1 millón de nervios.
Caracterización del color
Brillo/Intensidad
Noción de luminosidad: indica si un área está más o menos iluminada (Cuánto brillo tiene B/N).
Matiz (Tono)
Asociado a la longitud de onda dominante. Sensación de rojo, amarillo, verde o azul. (Color)
Saturación
Pureza relativa del color. Inversamente proporcional a la cantidad de luz blanca mezclada. (Cantidad de color).
Espacios de Color
Es la especificación de un sistema de coordenadas 3D y un sub-espacio dentro de dicho sistema en donde cada color se representa por un punto.
RGB
Red/Green/Blue. Cada componente entre 0 y 255. Representación cúbica. Usado en pantallas, cámaras y vídeo digital.
CMY
Cyan/Magenta/Yellow. Modelo sustractivo. Utilizado en impresoras de color.
YUV / YIQ
Intensidad + Cromaticidad. Usados para transmisión de señales de televisión.
HSV / HSI
(Hue, Saturation, Intensity) Matiz (0-360°, 0-1, 0-255), Saturación, Valor/Intensidad. Más intuitivo para el procesamiento de imágenes artísticas y segmentación por color.
Conversión entre Espacios de Color RGB ↔ HSI
RGB → HSI
H = \begin{cases} \gamma & \text{si } B \leq G \\ 360° - \gamma & \text{si } B > G \end{cases}
\gamma = \cos^{-1}\!\left(\frac{R - \tfrac{1}{2}G - \tfrac{1}{2}B}{\sqrt{R^2+G^2+B^2-RG-GB-BR}}\right)
S = 1 - \frac{3\min(R,G,B)}{R+G+B}, \quad I = \frac{R+G+B}{3}
HSI → RGB (por sectores)
Sector RG (0°≤H≤120°):
B = I(1-S),\quad R = I\!\left[1+\frac{S\cos H}{\cos(60°-H)}\right],\quad G = 3I-(R+B)
Sector GB (120°≤H≤240°, H'=H-120°):
R = I(1-S),\quad G = I\!\left[1+\frac{S\cos H'}{\cos(60°-H')}\right],\quad B = 3I-(R+G)
Sector BR (240°≤H≤360°, H'=H-240°):
G = I(1-S),\quad B = I\!\left[1+\frac{S\cos H'}{\cos(60°-H')}\right],\quad R = 3I-(G+B)
Escala de grises

Convertir un color RGB a gris (escala de grises) se logra calculando el promedio de sus componentes rojo (R), verde (G) y azul (B). La fórmula estándar ponderada para obtener la luminosidad es: 
 Gris= 0.299R+0.587G+0.114B
Tipos de archivo de imagen
Siguiente sección