2.2 Redes Neuronales

2.1 Introducción

Las redes neuronales artificiales (RNA) constituyen uno de los pilares fundamentales del desarrollo contemporáneo de la inteligencia artificial (IA) y del aprendizaje automático. Su origen conceptual se encuentra estrechamente vinculado al estudio del sistema nervioso biológico y a los intentos tempranos por modelar, de manera matemática y computacional, los mecanismos de aprendizaje humano. Desde los primeros trabajos inspirados en la neurociencia, las RNA han evolucionado de modelos simples a arquitecturas altamente complejas capaces de resolver problemas de elevada dimensionalidad y no linealidad [20, 37].

Uno de los hitos históricos más relevantes en este campo fue la formulación del perceptrón por Rosenblatt en 1962, considerado el primer modelo computacional de una neurona artificial capaz de aprender a partir de datos. A partir de este punto, el desarrollo de nuevas arquitecturas, funciones de activación y algoritmos de entrenamiento permitió superar gradualmente las limitaciones iniciales, dando lugar a redes multicapa, redes no lineales y, posteriormente, a los modelos de aprendizaje profundo ampliamente utilizados en la actualidad [18].

La capacidad de las redes neuronales para aprender patrones complejos directamente a partir de los datos ha propiciado su aplicación en una amplia gama de dominios, tales como el reconocimiento de patrones, el procesamiento de imágenes y señales, la clasificación de sistemas dinámicos, la predicción de series temporales y el control inteligente de procesos industriales [22, 11]. En el ámbito energético y de ingeniería, estas herramientas han demostrado ser especialmente valiosas para la modelación de sistemas no lineales, la optimización de procesos y la toma de decisiones basada en datos.

En este contexto, el presente documento aborda los fundamentos teóricos y prácticos de diversos tipos de redes neuronales clásicas, incluyendo el perceptrón, la red Adaline, los modelos entrenados mediante retropropagación y las redes de funciones de base radial (RBF). Asimismo, se analizan sus principios de funcionamiento, ventajas, limitaciones y su implementación mediante software de programación especializado, proporcionando una visión integral de su relevancia dentro del ecosistema actual de la inteligencia artificial.

2.2 Red Perceptrón

La red perceptrón representa la forma más elemental de una red neuronal artificial y constituye el punto de partida conceptual para el estudio de arquitecturas neuronales más avanzadas. Está compuesta por una sola capa de neuronas artificiales que realizan una combinación lineal de las entradas, seguida de la aplicación de una función de activación, típicamente una función escalón, que produce una salida binaria [20, 37].

Desde un punto de vista matemático, el perceptrón implementa un clasificador lineal capaz de separar conjuntos de datos mediante un hiperplano en el espacio de características. Su simplicidad estructural facilita la comprensión de los principios básicos del aprendizaje supervisado, tales como la actualización de pesos, el ajuste de umbrales y la convergencia del algoritmo de entrenamiento, lo que explica su uso extendido con fines educativos y formativos [34, 8].

No obstante, el perceptrón presenta limitaciones inherentes a su naturaleza lineal. En particular, sólo puede resolver problemas que son linealmente separables, lo que restringe severamente su aplicabilidad en escenarios reales donde las relaciones entre variables suelen ser no lineales. Un ejemplo clásico de esta limitación es la incapacidad del perceptrón para resolver el problema XOR, lo cual motivó el desarrollo de redes multicapa y algoritmos de entrenamiento más sofisticados [36].

A pesar de estas restricciones, el perceptrón mantiene una relevancia histórica y conceptual significativa, ya que sentó las bases para la formulación de modelos neuronales más complejos y para la comprensión del aprendizaje automático desde una perspectiva algorítmica.

2.3 Red Adaline

La red Adaline (Adaptive Linear Neuron) surge como una extensión y mejora del modelo de perceptrón, introduciendo un enfoque más robusto para el ajuste de los pesos sinápticos. A diferencia del perceptrón clásico, Adaline emplea una función de activación lineal durante el proceso de entrenamiento y utiliza el criterio de minimización del error cuadrático medio (MSE) como función objetivo [20, 37].

Esta característica permite que el proceso de aprendizaje sea continuo y diferenciable, lo que facilita la aplicación de técnicas de optimización basadas en gradientes. Como resultado, la red Adaline presenta un comportamiento más estable durante el entrenamiento y una mayor capacidad para abordar problemas de regresión, además de tareas de clasificación lineal.

Desde una perspectiva práctica, Adaline constituye un modelo intermedio entre las redes neuronales más simples y las arquitecturas multicapa, proporcionando una base sólida para comprender los métodos de aprendizaje supervisado y los fundamentos del descenso del gradiente en redes neuronales artificiales.

2.3.1 Red Adaline Método 1

El Método 1 de entrenamiento de la red Adaline se basa en la aplicación directa del algoritmo delta, el cual ajusta iterativamente los pesos de la red en función del error cometido por la neurona. Este error se define como la diferencia entre la salida real de la red y el valor objetivo esperado, permitiendo una actualización gradual de los parámetros hasta alcanzar una solución óptima o cercana al mínimo global del error [20, 19, 22].

Una de las principales ventajas de este enfoque es su simplicidad computacional y su capacidad para converger de manera eficiente en problemas bien condicionados. Sin embargo, el rendimiento del algoritmo delta puede verse afectado por la escala de los datos de entrada, lo que hace recomendable la normalización o estandarización previa de las variables para mejorar la estabilidad y la velocidad de convergencia [—].

2.3.2 Red Adaline Método 2

El Método 2 introduce estrategias de optimización más avanzadas para el entrenamiento de la red Adaline, incorporando técnicas inductivas y heurísticas como los algoritmos genéticos. Estos métodos permiten explorar el espacio de soluciones de manera más amplia, reduciendo la probabilidad de quedar atrapados en mínimos locales durante el proceso de aprendizaje [14, 31].

Este enfoque resulta particularmente útil en problemas complejos o con superficies de error altamente no convexas, donde los métodos clásicos basados únicamente en gradientes pueden presentar limitaciones. No obstante, el uso de técnicas evolutivas implica un mayor costo computacional y requiere un ajuste cuidadoso de hiperparámetros, tales como la tasa de aprendizaje, el tamaño de la población y los criterios de selección, de forma similar a lo observado en otras arquitecturas neuronales [8, 2].

2.4 Red Retropropagación (Backpropagation)

La retropropagación del error constituye uno de los algoritmos más influyentes en el entrenamiento de redes neuronales multicapa o perceptrones multicapa (MLP). Este método permite calcular de manera eficiente el gradiente del error total de la red respecto a cada uno de sus pesos, utilizando la regla de la cadena para propagar el error desde la capa de salida hacia las capas ocultas [11, 25].

Gracias a la retropropagación, las redes neuronales pueden aprender representaciones no lineales altamente complejas, lo que ha impulsado avances significativos en áreas como el reconocimiento de imágenes, el procesamiento del lenguaje natural y la modelación de sistemas energéticos y de control. Sin embargo, este algoritmo no está exento de desafíos, entre los que destacan el sobreajuste (overfitting), la desaparición del gradiente y la sensibilidad a la inicialización de los pesos.

Para mitigar estos problemas, se han desarrollado diversas técnicas complementarias, tales como la regularización, la parada temprana (early stopping) y el uso de funciones de activación mejoradas, las cuales contribuyen a mejorar la generalización y la estabilidad del modelo [11, 5].

2.5 Funciones de Base Radial (RBF)

Las redes neuronales de funciones de base radial (RBF) constituyen una alternativa eficaz a las redes multicapa tradicionales, caracterizándose por el uso de funciones de activación radiales, generalmente gaussianas, en la capa oculta. Estas funciones responden a la distancia entre el vector de entrada y un conjunto de centros previamente definidos, lo que confiere a las RBF una elevada capacidad de interpolación y aproximación de funciones no lineales [11].

Una de las principales ventajas de las redes RBF es su rapidez de entrenamiento y su habilidad para generalizar más allá de los datos de entrenamiento, lo que las hace especialmente atractivas en aplicaciones donde la precisión y la eficiencia computacional son factores críticos, como la predicción de sistemas dinámicos y el análisis de señales [1].

No obstante, el desempeño de estas redes depende en gran medida de la selección adecuada de parámetros, como la ubicación de los centros y la anchura de las funciones de base. Este proceso suele requerir estrategias de optimización y validación exhaustivas para garantizar resultados robustos y confiables [4, 15].

2.6 Analizar y aplicar Redes Neuronales usando un Software de programación

El desarrollo y la aplicación de redes neuronales artificiales se han visto ampliamente favorecidos por la disponibilidad de plataformas de programación especializadas. Frameworks como TensorFlow y PyTorch proporcionan entornos flexibles y escalables para la implementación de modelos neuronales, facilitando el diseño de arquitecturas complejas, el entrenamiento eficiente y la evaluación rigurosa del desempeño de los modelos [32, 24].

Estas herramientas permiten a investigadores e ingenieros experimentar con distintos algoritmos de aprendizaje, funciones de activación y esquemas de optimización, adaptando los modelos a problemas específicos de ingeniería, energía y ciencias aplicadas [25, 23]. Además, la integración de técnicas como el aprendizaje transferido y el uso de redes preentrenadas ha impulsado avances notables en tareas de alta complejidad, reduciendo el tiempo de entrenamiento y mejorando la precisión de los modelos [17].

En conclusión, las redes neuronales artificiales, desde los modelos clásicos como el perceptrón y Adaline hasta las arquitecturas avanzadas de aprendizaje profundo, han demostrado ser herramientas fundamentales en la inteligencia artificial moderna. Su evolución continua y su creciente accesibilidad a través de software de programación consolidan su papel como tecnologías clave para la solución de problemas complejos en múltiples disciplinas, particularmente en el ámbito de la ingeniería y la energía.

[1] Hrycej, T. (1997). Neurocontrol: Towards an industrial control methodology. Wiley-Interscience.

[2] Akbar, S., & Pourazad, H. (2023). Modeling a petrochemical unit with artificial neural networks (ANN). In Artificial neural networks – Recent advances, new perspectives and applications. IntechOpen. https://doi.org/10.5772/intechopen.107723 (Autores corregidos: Shafaati Akbar y Pourazad Hamidreza; capítulo open access).

[3] Barriot, J.-P., & Sichoix, L. (2020). Inversion procedures: Gravity modeling, theory and computation, and other gravity papers. In H. K. Gupta (Ed.), Encyclopedia of solid earth geophysics (pp. 662–668). Springer Nature. https://doi.org/10.1007/978-3-030-58631-7_218-1 (o entrada equivalente; no es libro independiente, sino capítulo/entrada enciclopédica).

[4] Batra, A., Saini, L.M., Kumar, A., Noise cancellation using adaptive filter for bioimpedance signal, Int. J. Eng. Sci. Technol., 2011.

[5] Bortolussi, L., et al., Conformal predictions for hybrid system state classification, IEEE, 2019.

[6] Buessler, J., Urban, M., Modular neural architectures for robotics, Robotics and Autonomous Systems, 2003.
DOI: https://doi.org/10.1016/S0921-8890(02)00311-7

[7] Choi, Y., Yao, Y., Web page classification, Data & Knowledge Engineering, 2005.
https://doi.org/10.1145/1363686.13642

[8]da Fonseca, J. B. (2015). A novel algorithm to train multilayer hardlimit neural networks based on a mixed integer linear program model. En I. Rojas, G. Joya, & A. Catala (Eds.), Advances in computational intelligence (pp. 472–480). Springer. Lecture Notes in Computer Science, vol. 9095. https://doi.org/10.1007/978-3-319-19222-2_40

[9] Garrido L. Statistical mechanics of neural networks proceedings of the XIth Sitges conference, Sitges, Barcelona, Spain, 3-7 June 1990 /. In: Springer-Verlag; 1990. https://wcmq.idm.oclc.org/login?url=https://link.springer.com/book/10.1007/3-540-53267-6

[10] Giovannucci, E., Cigarette smoking and colorectal cancer, J. Natl. Cancer Inst., 2004.
DOI: 10.1002/ijc.24191

[11] Hastie, T., Tibshirani, R., Friedman, J., The elements of statistical learning, Springer, 2001.
DOI: https://doi.org/10.1007/978-0-387-21606-5

[12] Hirose, A., Nakano, Y., Applications of complex-valued self-organizing maps to ground penetrating radar imaging systems, IEEE Trans. Geosci. Remote Sens., 2011.
DOI: 10.5772/14019

https://www.intechopen.com/chapters/13305

[13] Kim, Y., Learning and coordination, MIT Press, 1994.

[14] Koza, J.R., Keane, M.A., Genetic breeding of non-linear optimal control strategies for broom balancing, Proc. IEEE, 1990.
DOI: https://doi.org/10.1109/5.103166

[15] Kůrková, V., Sanguineti, M., Tight bounds on rates of neural-network approximation, IEEE Trans. Neural Netw., 2001.
DOI: https://doi.org/10.1109/72.946585

[16] Lefty, R., Teacher education and teachers’ colleges, Routledge, 2019.

[17] Lo, Y., et al., Artificial intelligence-based drug design and discovery, Trends Pharmacol. Sci., 2020.
DOI: https://doi.org/10.1016/j.tips.2020.01.007

[18] Macukow, B., Neural networks – state of art, brief history, basic models and architecture, Studies in Logic, Grammar and Rhetoric, 2016.

[19] Manuel, P., et al., Multi-robot systems control implementation, Int. J. Adv. Robot. Syst., 2010.
DOI: https://doi.org/10.5772/9411

[20] Muñoz, J., Learning in feed-forward artificial neural networks I, 2009.

[21] Paegelow, M., Olmedo, M.T., Advances in geomatic simulations for environmental dynamics, Environ. Model. Softw., 2008.
DOI: https://doi.org/10.1016/j.envsoft.2007.01.011

[22] Pham, D.T., Liu, X., Neural networks for identification, prediction and control, Springer, 1995.
DOI: https://doi.org/10.1007/978-1-4612-2544-9

[23] Pooyandeh, M., et al., A comparison between complexity and temporal GIS models for spatio-temporal urban applications, Comput. Environ. Urban Syst.

[24] Prokopowicz, P., Mikołajewski, D., OFN-based brain function modeling, Neural Netw., 2017.
DOI: https://doi.org/10.1016/j.neunet.2017.03.002

[25] Raff, E., et al., Feed forward neural networks, Wiley Interdiscip. Rev. Data Min. Knowl. Discov., 2012.
DOI: https://doi.org/10.1002/widm.1078

[26] Rodríguez, A., et al., Time-frequency transforms for classification of power quality disturbances, IEEE Trans. Power Deliv., 2011.
DOI: https://doi.org/10.1109/TPWRD.2011.2139870

[27] Santos-García, G., Hernandez, C., Using artificial neural networks to identify glaucoma stages, Expert Syst. Appl., 2011.
DOI: https://doi.org/10.1016/j.eswa.2011.02.113

[28] Shahmaleki, P., et al., Vision-based hierarchical fuzzy controller and real time results for a wheeled autonomous robot, Robotics and Autonomous Systems, 2010.
DOI: https://doi.org/10.1016/j.robot.2010.04.005

[29] Skiadas, C.H., Advances in data analysis, Springer, 2010.
DOI: https://doi.org/10.1007/978-3-642-14420-9

[30] Soni, N., et al., In depth analysis, applications and future issues of artificial neural network, Int. J. Comput. Sci. Eng., 2020.

[31] Sullivan, K., Classification and prediction, Springer, 2011.
DOI: https://doi.org/10.1007/978-1-4419-9863-7

[32] Tan, Y., et al., Advances in swarm and computational intelligence, Springer, 2015.
DOI: https://doi.org/10.1007/978-3-319-09171-5

[33] Torres, J., Perceptron learning, Elsevier, 2020.

[34] Türker, M., Pre-informing methods for ANNs, Neural Processing Letters, 2023.
DOI: https://doi.org/10.1007/s11063-023-11123-4

[35] Wagner, F.H., Influences on upland system structure IV: The ungulate guild, J. Ecol., 2006.
DOI: https://doi.org/10.1111/j.1365-2745.2006.01134.x

[36] Zeng, B., et al., Faults detection for power systems, Electr. Power Syst. Res., 2010. DOI: 10.5772/9080

https://www.intechopen.com/chapters/10371