Con el surgimiento de la Inteligencia Artificial (IA), ya no existen los audios escándalo ni los videoescándalos
ADMIN: / Revista el Tlacuilo
Hoy en día, cualquiera puede hacer que usted “diga” lo que nunca dijo.
Revista el Tlacuilo
OPINIÓN | Revista el Tlacuilo / 2025-05-24
Redacción | Portal El Tlacuilo.– Con el surgimiento de la Inteligencia Artificial (IA), ya no existen los audios escándalo ni los videoescándalos, porque estos programas permiten clonar imágenes y voces en cuestión de minutos.
La noche de anoche, Rafael Alarcón Barrientos, futuro regidor de Xalapa y una de las figuras más activas del Verde Ecologista Veracruz, tuvo que salir a desmentir un audio negativo que circuló durante todo el día en redes sociales. Dicho audio fue generado con Inteligencia Artificial por algunos que, al parecer, no tienen inteligencia propia. La anécdota nos confirma lo que dijimos al principio: ya no debemos considerar este tipo de grabaciones como reales, porque corremos el riesgo de que nos vean “la cara de Whats”.
La Inteligencia Artificial, a través de la clonación o síntesis personalizada de voz, es una tecnología que utiliza modelos de aprendizaje profundo para imitar la voz de una persona específica, generando audio a partir de texto escrito. Si se graba la voz propia o se roba la de otra persona, lo que diga ese texto dependerá exclusivamente de la calidad moral de quien la utilice, porque literalmente pueden hacernos decir lo que quieran.
Para clonar una voz ni siquiera es necesario pagar. Existen programas gratuitos en línea con escasos candados de seguridad. Aunque en teoría deberían contar con la autorización del dueño de la voz, los filtros son permisivos y laxos.
¿Cómo funciona la clonación de voz?
Se requieren grabaciones de la voz de una persona. Pueden ser desde unos pocos minutos hasta varias horas, dependiendo de la calidad deseada. Si se trata de una figura pública, hay material de sobra: horas de discursos, entrevistas o videos bastan para crear un audio casi indistinguible del original.
La IA aprende los patrones vocales, acento, entonación, velocidad y timbre. Después, a partir de cualquier texto, el sistema puede generar audio con esa voz, como si la persona lo estuviera leyendo en vivo.
¿Para qué se usa legalmente?
El uso ético y legal de esta tecnología incluye:
Doblaje en películas o videojuegos
Restauración de voces para personas con enfermedades (como ELA/ALS)
Creación de asistentes virtuales personalizados
Campañas de marketing o anuncios (con consentimiento)
Pero también hay quienes la usan con fines delictivos: suplantación de identidad, fraudes telefónicos, generación de deepfakes o fabricación de declaraciones falsas.
¿Qué tan realista es?
Los resultados pueden ser casi indistinguibles de la voz real, especialmente si se cuenta con buen material de entrenamiento. Sin embargo, todavía es posible detectar ciertas señales sutiles.
¿Y la ley qué dice?
En México, aunque no hay una legislación específica sobre clonación de voz por IA, sí existen leyes aplicables:
Artículo 211 bis del Código Penal Federal: La intervención ilegal de comunicaciones privadas puede sancionarse con 6 a 12 años de prisión y 300 a 600 días de multa.
Artículo 16 de la Ley Federal de Protección de Datos Personales: Usar la voz (dato biométrico) de alguien sin su consentimiento puede implicar sanciones administrativas, multas millonarias y, si hay dolo, responsabilidad penal.
Además, la suplantación de identidad ya está tipificada como delito en varios estados del país, con penas de hasta 6 años de prisión sin derecho a fianza.
¿Cómo detectar una voz clonada?
Aunque los modelos actuales son muy realistas, aún presentan defectos sutiles:
Entonación plana o "robótica": La musicalidad suena artificial o repetitiva.
Pausas poco humanas: Demasiado exactas o fuera de contexto, sin muletillas ni titubeos.
Falta de emociones reales: La voz puede sonar correcta, pero sin alma (risa o llanto falsos).
Repetición de cadencias: Frases distintas con el mismo ritmo y entonación.
Errores de pronunciación: Especialmente en nombres propios o siglas.
Ausencia de ruido de fondo o respiración: Las voces demasiado limpias son sospechosas.
Lectura literal de errores: Si el texto tiene faltas de ortografía o mala puntuación, la IA lo leerá exactamente así: sin acentos, sin pausas, sin lógica.
¡Póngase buzo!
Ya no se crea todo lo que escuche… porque hoy en día, cualquiera puede hacer que usted “diga” lo que nunca dijo.