¿Cómo pueden ayudarnos las técnicas computacionales a entender una tradición musical centenaria? Un novedoso estudio publicado en ACM's Journal on Computing and Cultural Heritage aplica el Procesamiento del Lenguaje Natural y el aprendizaje automático a las letras del flamenco, arrojando luz sobre cómo se distinguen los distintos géneros (o palos) a través del lenguaje. La investigación, realizada en el Instituto de Física Interdisciplinar y Sistemas Complejos (IFISC, CSIC-UIB), explora la estructura oculta tras la tradición oral del flamenco, con implicaciones para la conservación del patrimonio cultural y las humanidades digitales.
Los investigadores del IFISC Pablo Rosillo-Rodes, Maxi San Miguel y David Sánchez analizaron un corpus de más de 2000 letras de flamenco y aplicaron un método de aprendizaje automático que utiliza métricas basadas en frecuencias de palabras para predecir la categoría de un texto y distinguir diferentes palos basándose únicamente en su contenido léxico (es decir, basado en palabras). "Descubrimos que, además del ritmo y la tonalidad, el propio léxico contiene información suficiente para clasificar las canciones en su palo correcto con una alta precisión", explica Pablo Rosillo-Rodes, autor principal del estudio e investigador doctoral en el IFISC. "Este enfoque cuantitativo no sólo valida el conocimiento tradicional, sino que también desvela nuevas relaciones entre los estilos flamencos".
Patrones léxicos en el flamenco
Utilizando técnicas de lingüística computacional y análisis de redes, los investigadores identificaron palabras características de cada género y trazaron las relaciones entre estilos. "Por ejemplo, observamos los estrechos vínculos históricos conocidos entre soleá y bulerías, y entre tientos y tangos, sólo a partir de las letras", añade David Sánchez, investigador principal y catedrático del IFISC.
Más allá de la clasificación, el estudio también revela patrones culturales profundos. Las letras asociadas a las seguiriyas son ricas en vocabulario relacionado con el dolor y la espiritualidad, mientras que las alegrías destacan temas de celebración y geografía, en particular referencias a la ciudad de Cádiz. "El lenguaje del flamenco codifica las experiencias vividas, las luchas y las celebraciones de sus comunidades", afirma el profesor emérito del IFISC Maxi San Miguel.
Además, mediante el cálculo de distancias léxicas y la aplicación de técnicas de análisis de redes, el estudio construye un "árbol de relaciones" entre los principales palos. En este árbol, las bulerías emergen como un nodo central que conecta diferentes ramas estilísticas, como los cantes malagueños (fandangos y malagueñas) y los estilos de origen gitano (seguiriyas y soleá).
Un puente entre inteligencia artificial y patrimonio cultural
Este trabajo representa el primer análisis computacional a gran escala de letras de flamenco, y abre nuevas puertas a la investigación de la música tradicional. "Aplicando el aprendizaje automático al patrimonio cultural inmaterial, podemos preservar y comprender mejor las complejas historias que encierran las tradiciones orales", concluye Rosillo-Rodes.
Este estudio no sólo complementa la investigación cualitativa tradicional, sino que también contribuye al campo nicho de la exploración de la evolución del flamenco a través de métodos basados en datos. Al tender un puente entre el patrimonio cultural y la inteligencia artificial, abre interesantes vías para la investigación interdisciplinar y ofrece potentes herramientas para preservar y comprender mejor una de las tradiciones musicales más emblemáticas de España, reconocida por la UNESCO como parte del Patrimonio Cultural Inmaterial de la Humanidad.
Izquierda: pintura de una bailaora // Pixabay. Derecha: precisión de la clasificación de varios géneros flamencos. Tangos (Ta) y tientos (Ti) se confunden debido a su origen afín.
Rosillo-Rodes, Pablo; San Miguel, Maxi; Sánchez, David. ACM J. Comput. Cult. Herit. (2025). DOI: https://doi.org/10.1145/3748729