Fundamentos de visión por computador utilizando aprendizaje profundo

Autores/as

Diego Renza
Universidad Militar Nueva Granada, Colombia
Dora Maria Ballesteros
Universidad Militar Nueva Granada, Colombia

Palabras clave:

Fundamentos, visión por computador, aprendizaje profundo

Sinopsis

Día a día las imágenes se han convertido en uno de los contenidos multimedia más transmitidos, almacenados y utilizados tanto por usuarios de tecnologías digitales, como por empresas tecnológicas, por ejemplo, Facebook, Amazon, Google e IBM. La información que contienen las imágenes permite, entre otras, identificar (catalogar) las personas presentes en una foto, el lugar donde fue tomada (ej. bosque, ciudad, desierto), así como la cantidad y tipo de objetos. Hasta hace un poco más de una década, la visión por computador se basaba principalmente en técnicas tradicionales de procesamiento de imágenes (ej. filtros, operaciones morfológicas y ecualización), pero desde el año 2012 (aproximadamente), se utilizan soluciones basadas en el aprendizaje profundo para clasificar, identificar objetos, reconocer patrones, mejorar la calidad de la imagen y generar nuevas imágenes.

Este libro titulado “Fundamentos de visión por computador utilizando aprendizaje profundo” introducirá al lector en el aprendizaje profundo para resolver problemas de análisis de imágenes, con un enfoque tanto teórico, como práctico. Está dividido en cinco capítulos y dos anexos. En el primer capítulo, se presenta una breve introducción a la temática de la visión por computador. En el capítulo 2, se explican algunos conceptos básicos del aprendizaje profundo. En el capítulo 3 y 4, se explican las redes neuronales y convolucionales, respectivamente. En el capítulo 5 se abordan arquitecturas clásicas de CNNs, así como la transferencia de aprendizaje para el diseño de modelos de visión por computador. Finalmente, en los Anexos 1 y 2, se explica el entorno de trabajo con Colaboratory, así como algunas de las funcionalidades de la librería de OpenCV.

Capítulos

PlumX

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Diego Renza, Universidad Militar Nueva Granada, Colombia

editorial@redipe.org

Docente Asociado de la Universidad Militar Nueva Granada, vinculado al Programa de Ingeniería en Telecomunicaciones desde el año 2014. Es Ingeniero Electrónico de la Universidad Surcolombiana, con Maestría en Ingeniería en Telecomunicaciones de la Universidad Nacional de Colombia y Doctor en Computación Avanzada para Ciencias e Ingeniería de la Universidad Politécnica de Madrid (España). Sus áreas de conocimiento son el procesamiento de imágenes, visión por computador y comunicaciones inalámbricas. Cuenta con más de 40 artículos publicados en revistas nacionales e internacionales, y es coautor de dos libros académicos. Este libro titulado “Fundamentos de visión por computador utilizando aprendizaje profundo”, es resultado de su ejercicio académico como profesor de la Universidad Militar Nueva Granada.

Dora Maria Ballesteros, Universidad Militar Nueva Granada, Colombia

editorial@redipe.org

Docente Titular de la Universidad Militar Nueva Granada, vinculada al Programa de Ingeniería en Telecomunicaciones desde el año 2007. Es Ingeniera Electrónica de la Universidad Industrial de Santander, con Maestría en Ingeniería Electrónica de la Universidad de los Andes y Doctora en Ingeniería Electrónica de la Universidad Politécnica de Cataluña (España). Sus áreas de conocimiento son el procesamiento digital de señales, aprendizaje automático e ingeniería de datos. Cuenta con más de 60 artículos publicados en revistas nacionales e internacionales, y es co-autora de tres libros académicos. Este libro titulado “Fundamentos de visión por computador utilizando aprendizaje profundo”, es resultado de su ejercicio académico como profesor de la Universidad Militar Nueva Granada.

Citas

Brooks, R. A. (1979). The ACRONYM model-based vision system. Proceedings of the 6th international joint conference on Artificial intelligence, 1, págs. 105-113.

Canny, J. (1986). A computational approach to edge detection. IEEE Transactions on pattern analysis and machine intelligence, 6, 679-698.

Chan, T. F. (2001). Active contours without edges. IEEE Transactions on image processing, 10(2), 266-277.

Chollet, F. (2021). Deep learning with Python. Simon and Schuster.

Clevert, D. A. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289.

Csáji, B. C. (2001). Approximation with artificial neural networks. Hungary: Faculty of Sciences, Etvs Lornd University.

Dalal, N. &. (2005). Histograms of oriented gradients for human detection. IEEE computer society conference on computer vision and pattern recognition (CVPR'05), 1, págs. 886-893.

Felzenszwalb, P. M. (2008). A discriminatively trained, multiscale, deformable part model. IEEE conference on computer vision and pattern recognition, (págs. 1-8).

Fischler, M. A. (1973). The representation and matching of pictorial structures. IEEE Transactions on computers, 100(1), 67-92.

Glorot, X. &. (2010). Understanding the difficulty of training deep feedforward neural networks. Thirteenth international conference on artificial intelligence and statistics (págs. 249-256). JMLR Workshop and Conference proceedings.

Godbole, V., Dahl , G., Gilmer, J., Shallue, C., & Nado, Z. (1 de 2023). Deep Learning Tuning Playbook. Obtenido de http://github.com/google/tuning_playbook

Harris, C. &. (1988). A combined corner and edge detector. Alvey vision conference, 15(50), págs. 10-5244.

He, K. Z. (2015). Delving deep into rectifiers. Surpassing human-level performance on imagenet classification. IEEE international conference on computer vision (págs. 1026-1034). IEEE.

He, K. Z. (2016). Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, (págs. 770- 778).

Hornik, K. M. (1989). Multilayer feedforward networks are universal approximators. Neural networks, 359-366.

Huang, G. a. (2017). Densely connected convolutional networks., (págs. 4700-- 4708).

Descargas

Publicado

diciembre 23, 2023

Categorías

Licencia

Creative Commons License

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.