Visión por Computadora o Visión Computación: Guía 2021

La visión por computadora es el proceso de utilizar software para realizar operaciones que el cerebro y la visión humanos pueden realizar, como el reconocimiento de objetos, la detección de fallas o el control de calidad. Varios algoritmos de procesamiento de imágenes y aprendizaje automático se utilizan juntos para lograr la visión por computadora.

¿Qué es la visión por computadora?

IBM sugiere una definición clara: “La visión por computadora es un campo de inteligencia artificial (IA) que permite a las computadoras y sistemas derivar información significativa de imágenes digitales, videos y otras entradas visuales, y tomar acciones o hacer recomendaciones basadas en esa información. “

La visión por computadora tiene como objetivo que las computadoras vean y comprendan las imágenes al igual que los humanos. Las computadoras tienen mejores herramientas para ver, pero herramientas menos desarrolladas para comprender como los humanos. Las cámaras, los sensores, el radar y las cámaras térmicas de alta calidad permiten a las computadoras obtener más información visual del exterior. Sin embargo, la derivación del significado a partir de la entrada visual es un tema más complejo y es un área de investigación bajo inteligencia artificial.

Las técnicas de aprendizaje profundo y redes neuronales facilitan que la visión por computadora le dé sentido a lo que ve y la visión por computadora se acerca al sistema cognitivo visual humano. De hecho, la visión por computadora supera la visión humana en muchas aplicaciones, como el reconocimiento de patrones. Por ejemplo, los investigadores sugieren que la IA ofrece resultados mejores y más rápidos para identificar enfermedades neurológicas a partir de imágenes de escaneo cerebral.

¿Cuál es la diferencia entre visión artificial y visión artificial?

La visión artificial es la tecnología que se utiliza para detectar errores en una línea de producción o productos que deben categorizarse. Se utiliza principalmente en procesos industriales. La visión por computadora es el conjunto de herramientas de software y hardware que se utilizan para la adquisición y el procesamiento de imágenes. Si bien la visión por computadora se puede usar sola sin ser parte de un sistema grande, la visión por computadora es parte de un sistema.

¿Por qué es importante ahora?

Los casos de uso de la visión por computadora van desde la salud hasta la industria automotriz. Forbes esperaba que el mercado de la visión por computadora alcanzara los 49 mil millones de dólares para 2022.

La visión por computadora es uno de los puntos más importantes en la carrera de vehículos autónomos de la industria automotriz. La visión por computadora permite a los automóviles gestionar la relación entre el automóvil y el medio ambiente.

La visión por computadora depende en gran medida de la calidad y cantidad de los datos, más datos con mejor calidad crean mejores modelos de aprendizaje profundo. Los algoritmos de visión por computadora se alimentan de información visual que fluye desde los teléfonos inteligentes todos los días. Por lo tanto, los sistemas de visión por computadora serán mejores y más inteligentes en el futuro.

¿Cómo funciona la visión artificial?

Hay tres componentes principales de la visión por computadora:

Adquisición de una imagen
Procesamiento de imágenes
Análisis

Adquisición de una imagen: una cámara digital o un sensor captura la imagen o los datos y se almacena como números binarios; unos y ceros. A esto se le llama datos brutos.

Procesamiento de imágenes: este proceso incluye los métodos utilizados para extraer los elementos geométricos básicos que pueden dar información sobre la imagen. El procesamiento de imágenes también incluye el paso de procesamiento previo. El preprocesamiento es necesario para obtener un análisis más preciso al deshacerse de elementos no deseados como el ruido.

Análisis: en este paso, la imagen procesada se analiza mediante algoritmos de alto nivel. Se pueden usar redes neuronales capacitadas para identificar los objetos y tomar decisiones.

¿Cuáles son las mejores técnicas de visión por computadora?

En la visión por computadora, se utilizan varios métodos para evaluar las entradas y obtener las salidas. Técnicas como la clasificación de imágenes, la detección de objetos, el seguimiento de objetos y la segmentación de imágenes ayudan a crear visión por computadora combinándolos o por separado.

Se han creado muchas arquitecturas diferentes para el aprendizaje profundo, pero la arquitectura CNN se usa más comúnmente en el campo de CV. Esta técnica tiene desventajas como los requisitos de un gran conjunto de datos, la dificultad de optimización y ser una caja negra .

Clasificación de imágenes:

La clasificación de imágenes tiene como objetivo clasificar el contenido de la imagen según su tipo. La técnica de aprendizaje profundo más utilizada son las redes neuronales convolucionales (CNN).

Las imágenes preetiquetadas crean un conjunto de datos de entrenamiento. Cada una de las clases en las que se incluirán las imágenes tiene propiedades independientes y estas propiedades están representadas por vectores. Estos vectores se entrenan con CNN y se realizan mejoras con nuevos conjuntos de datos. Si la calidad del clasificador no es suficiente, se pueden agregar más conjuntos de prueba o conjuntos de entrenamiento.

Detección de objetos:

La identificación de los objetos en una imagen tiene un principio de funcionamiento diferente al de la clasificación de imágenes. Para clasificar los objetos en la imagen, esos objetos deben determinarse en los cuadros delimitadores. Para clasificar los objetos en la imagen, esos objetos deben determinarse en los cuadros. Aunque estas cajas son de diferentes tamaños, pueden contener imágenes de la misma clase. Además, la detección de imágenes que contienen una gran cantidad de objetos también requiere una cantidad cada vez mayor de potencia informática. Se han desarrollado algoritmos como R-CNN, Fast R-CNN, YOLO, Single Shot MultiBox Detector (SSD) y Redes totalmente convolucionales basadas en regiones para encontrar rápidamente estas ocurrencias.

Seguimiento de objetos:

El seguimiento de objetos es el método que rastrea el movimiento del objeto en una imagen al encontrar el mismo objeto en la siguiente imagen. Las técnicas de seguimiento de objetos se pueden dividir en tres categorías según los métodos de observación:

Técnicas generativas: en esta técnica, el problema de seguimiento se formula como la búsqueda de las regiones de la imagen que son más similares al modelo objetivo. El análisis de componentes principales (PCA), el análisis de componentes independientes (ICA), la factorización matricial no negativa (NMF) son ejemplos de modelos generativos que intentan encontrar una representación adecuada de los datos originales.
Técnicas discriminatorias: en los métodos discriminativos, el seguimiento se considera un problema de clasificación binaria, cuyo objetivo es encontrar un límite de decisión que separe mejor al objetivo del fondo. A diferencia de los métodos generativos, tanto la información de fondo como la de destino se utilizan simultáneamente. Ejemplos de métodos discriminativos son los codificadores automáticos apilados (SAE), las redes neuronales convolucionales y las máquinas de vectores de soporte (SVM).
Técnicas híbridas: estas dos técnicas se utilizan de forma conjunta y se adaptan diferentes técnicas según el problema.

Segmentación de imagen:

El proceso de dividir una imagen digital en objetos de imagen o conjuntos de píxeles. El propósito de la segmentación de imágenes es simplificar la representación de una imagen y facilitar el análisis.

Dado que existen muchos enfoques diferentes para la segmentación de imágenes, Mask R-CNN y Fully Convolutional Networks (FCN) pueden usarse para predicciones densas sin capas completamente conectadas.

¿Cuáles son sus casos de uso en la industria?

La visión por computadora se utiliza en muchas industrias, desde la automoción hasta el marketing, la salud y la seguridad. La visión por computadora y el procesamiento de imágenes son conceptos que no se separan entre sí con ciertas líneas.

contacto@brita.mx

Visión por Computadora o Visión Computación: Guía 2021