Deepfake: engaño convincente (3)
WIKIPEDIA (editado): “Se ha descubierto que a menudo los deepfakes tienen errores en la estructura de los rostros. Eso se debe al hecho de que se crean a partir del reemplazo de partes del rostro original con imágenes faciales sintetizadas, y como las personas tienen estructuras de la cara diferentes, la tecnología de los deepfakes no acaba de conseguir garantizar que todos los puntos de referencia identificados por la computadora se alineen correctamente.
Otros elementos de identificación son el hecho que los vídeos creados artificialmente acostumbran a ser demasiado perfectos en cuanto a imagen, produciendo así que les falte aquellas imperfecciones de los vídeos grabados de verdad en el mundo físico real. Por otra parte, también se han creado nuevos algoritmos que pueden llegar a percibir el flujo de sangre en las personas que aparecen en los videos.
Por lo que hace referencia a la voz, como más cortos sean los audios, más difícil será poder detectar si son sintéticos o no, y la calidad tanto del sonido de la voz como del sonido de fondo también hará que sea más fácil o no de distinguir un audio falso de uno de verdadero.
Consecuentemente, cuanto más clara sea la grabación de la voz y menos sonido de fondo tenga, más fácilmente identificable será el engaño. En comparación con los vídeos, los audio deepfakes sí son mayoritariamente identificables por ordenadores, aunque seguramente no lo sean tanto para el oído humano a simple vista. Cada segundo que una persona habla, su voz contiene entre 8 mil y 50 mil datos que pueden ayudar al ordenador a verificar su autenticidad. Un ejemplo sería la rapidez en la que los humanos pueden pronunciar determinados sonidos con los músculos de la boca y las cuerdas vocales.
Por otro lado, al analizar una voz de un audio también es importante fijarse en la pronunciación de los sonidos fricativos, ya que a los sistemas de deep-learning les cuesta mucho diferenciar esos sonidos con posibles ruidos. Por último, otro elemento que les cuesta distinguir es el final de las frases con el sonido de fondo, hecho que hace que los deepfakes puedan contener momentos donde la voz se aleje del micrófono o teléfono más a menudo del que una persona acostumbraría a hacer.
Aunque los deepfakes normalmente se utilizan con intenciones fraudulentas, también ha habido personas que han querido aprovechar satisfactoriamente este nuevo avance tecnológico como un aporte en diversos ámbitos.
La primera actriz de cine impulsada por IA: una ciber Ornella Muti del videoarte de Joseph Ayerle ‘Una emoción para siempre 2.0’ (2018).
En un momento donde un actor o actriz se quedara sin voz en un rodaje, en vez de detenerlo hasta que esa persona se recuperara, se podría simular su voz a partir de audio deepfakes. Por otro lado, también se podrían corregir errores de escenas en la etapa del montaje, modificando un rostro o movimientos de una persona por otros, en caso de que no fueran los deseados. Hasta se podría conseguir realizar películas con actores que ya hubieran fallecido o doblajes de forma automática y en cualquier lengua, aunque eso supondría la eliminación del trabajo de los actores de doblaje y sería muy grave.
Hay que destacar que ya se ha empezado a experimentar con alguna de estas técnicas en el ámbito cinematográfico, razón por la cual se ha podido avanzar tanto en el realismo de las películas de animación o en los efectos especiales en general.
Un ejemplo sería la exposición permanente de arte titulada Dalí Lives, que se creó el 2019 en el Dalí Museum en San Petersburgo (Florida). Antes de morir, el mismo Dalí en una entrevista afirmó: “Generalmente yo creo en la muerte, pero en la muerte de Dalí, claramente no”. Así pues, se puede ver en esta exposición como hacen realidad su opinión reviviendo al pintor con un deepfake construido a partir de unos 6,000 fotogramas existentes de entrevistas suyas, 1,000 horas de aprendizaje automático para que el algoritmo de inteligencia artificial reprodujera con precisión el rostro de Dalí en diferentes posiciones, falseando las expresiones faciales a través de un actor, y la voz realizada por un doblador profesional capaz de imitar el acento particular de Dalí. La novedad no solo es que a partir de esa tecnología se pueda mostrar el pintor vivo en la actualidad, sino que además se pueda dotarlo de tal inteligencia artificial que pueda ser capaz de interactuar con el público, casi como si fuera un dispositivo Alexa.
La sorpresa final, también impresionante, es que siempre termina la conversación preguntando a los visitantes si se quieren hacer una selfie con él, se gira y toma una, la cual después te puedes enviar en el móvil. Otro ejemplo donde se podría utilizar el deepfake de forma educativa sería en la traducción automática e inmediata de conferencias online (videoconferencia), donde al modificar las expresiones faciales y de la boca del hablante para que fuera coherente la imagen con el audio traducido, mejoraría el contacto visual del espectador y facilitaría su concentración y aprendizaje en el tema”.