Fundamentos de visión por computador utilizando aprendizaje profundo
Palabras clave:
Fundamentos, visión por computador, aprendizaje profundoSinopsis
Día a día las imágenes se han convertido en uno de los contenidos multimedia más transmitidos, almacenados y utilizados tanto por usuarios de tecnologías digitales, como por empresas tecnológicas, por ejemplo, Facebook, Amazon, Google e IBM. La información que contienen las imágenes permite, entre otras, identificar (catalogar) las personas presentes en una foto, el lugar donde fue tomada (ej. bosque, ciudad, desierto), así como la cantidad y tipo de objetos. Hasta hace un poco más de una década, la visión por computador se basaba principalmente en técnicas tradicionales de procesamiento de imágenes (ej. filtros, operaciones morfológicas y ecualización), pero desde el año 2012 (aproximadamente), se utilizan soluciones basadas en el aprendizaje profundo para clasificar, identificar objetos, reconocer patrones, mejorar la calidad de la imagen y generar nuevas imágenes.
Este libro titulado “Fundamentos de visión por computador utilizando aprendizaje profundo” introducirá al lector en el aprendizaje profundo para resolver problemas de análisis de imágenes, con un enfoque tanto teórico, como práctico. Está dividido en cinco capítulos y dos anexos. En el primer capítulo, se presenta una breve introducción a la temática de la visión por computador. En el capítulo 2, se explican algunos conceptos básicos del aprendizaje profundo. En el capítulo 3 y 4, se explican las redes neuronales y convolucionales, respectivamente. En el capítulo 5 se abordan arquitecturas clásicas de CNNs, así como la transferencia de aprendizaje para el diseño de modelos de visión por computador. Finalmente, en los Anexos 1 y 2, se explica el entorno de trabajo con Colaboratory, así como algunas de las funcionalidades de la librería de OpenCV.
Capítulos
-
Prólogo
-
Introducción a la visión por computador
-
Fundamentos de aprendizaje automático
-
Introducción a las redes neuronales
-
Redes neuronales convolucionales
-
Arquitecturas CNN de referencia
-
Anexo 1. Entorno de ejecución
-
Anexo 2. Introducción a Python y Opencv
-
Referencias
PlumX
Descargas
Citas
Brooks, R. A. (1979). The ACRONYM model-based vision system. Proceedings of the 6th international joint conference on Artificial intelligence, 1, págs. 105-113.
Canny, J. (1986). A computational approach to edge detection. IEEE Transactions on pattern analysis and machine intelligence, 6, 679-698.
Chan, T. F. (2001). Active contours without edges. IEEE Transactions on image processing, 10(2), 266-277.
Chollet, F. (2021). Deep learning with Python. Simon and Schuster.
Clevert, D. A. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289.
Csáji, B. C. (2001). Approximation with artificial neural networks. Hungary: Faculty of Sciences, Etvs Lornd University.
Dalal, N. &. (2005). Histograms of oriented gradients for human detection. IEEE computer society conference on computer vision and pattern recognition (CVPR'05), 1, págs. 886-893.
Felzenszwalb, P. M. (2008). A discriminatively trained, multiscale, deformable part model. IEEE conference on computer vision and pattern recognition, (págs. 1-8).
Fischler, M. A. (1973). The representation and matching of pictorial structures. IEEE Transactions on computers, 100(1), 67-92.
Glorot, X. &. (2010). Understanding the difficulty of training deep feedforward neural networks. Thirteenth international conference on artificial intelligence and statistics (págs. 249-256). JMLR Workshop and Conference proceedings.
Godbole, V., Dahl , G., Gilmer, J., Shallue, C., & Nado, Z. (1 de 2023). Deep Learning Tuning Playbook. Obtenido de http://github.com/google/tuning_playbook
Harris, C. &. (1988). A combined corner and edge detector. Alvey vision conference, 15(50), págs. 10-5244.
He, K. Z. (2015). Delving deep into rectifiers. Surpassing human-level performance on imagenet classification. IEEE international conference on computer vision (págs. 1026-1034). IEEE.
He, K. Z. (2016). Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, (págs. 770- 778).
Hornik, K. M. (1989). Multilayer feedforward networks are universal approximators. Neural networks, 359-366.
Huang, G. a. (2017). Densely connected convolutional networks., (págs. 4700-- 4708).