Audición y HRTF
Sonido 3D con EDF
Inicio Rivel

Sonido 3D y HRTF
La cabeza artificial Claudia Rivel
Roger Andreu. Barcelona.



Introducción a la cabeza artificial y HRTF
El término cabeza artificial, en el mundo del sonido, designa al conjunto de dos micrófonos especiales, los cuales, insertados en los correspondientes canales auditivos de una cabeza sintética, recogerán la función de transferencia HRTF de forma natural, tal como ocurre con los humanos, sin necesidad de recurrir a la implementación digital de esta compleja función.
La recreación de espacios sonoros (sonido 3D) utilizando cabezas artificiales son alternativas electroacústicas conocidas desde hace mucho tiempo. Concretamente, a partir de 1940, después de los estudios pioneros de De Boer, varias empresas, tanto americanas, como alemanas y, posteriormente japonesas, se dedicaron a fabricar cabezas artificiales para realizar grabaciones musicales, clásica sobretodo. Posteriormente, en los años sesenta, muy popular se hizo la cabeza artificial japonesa "Hiraga", la cual, fue utilizada para realizar grabaciones de música clásica. También, en USA y Alemania se presentaron excelentes grabaciones con esta técnica de grabación realizadas en salas de concierto. Ahora, con la cabeza Claudia Rivel y similares, también en España podemos realizar grabaciones 3D con nuestros propios sistemas.

Finalmente, hay que señalar que, si bien las grabaciones binaurales con cabeza artificial, el llamado sonido 3D, pueden aportar un realismo sorprendente, también adolecen de algunos inconvenientes. Por esta razón, pensamos que, en el presente, la mejor alternativa es aprovechar la capacidad de procesamiento digital de los sistemas electrónicos para implementar la función de transferencia de la cabeza humana (HRTF) y emular, de esta manera, el comportamiento del oído en lo que respecta a la localización de una fuente sonora.
En cualquier caso, la audición de estas grabaciones se realiza, casi siempre, con auriculares, a excepción de algunos sistemas de sonido, en los cuales, se elimina la diafonía entre altavoces. (En los sistemas estéreo tradicionales, el oído izquierdo, también recibe sonido destinado al derecho y viceversa, lo cual hace que el efecto tridimensional se esfume).

Más sobre la cabeza artificial y HRTF
Para conocer un poco más los fenómenos involucrados, incluimos aquí una pequeña parte del documento "La localización por el oído y HRTF", el cual, puede leerse completo en el apartado de esta misma web: "Audición y HRTF".

La función HRTF

LA CABEZA HUMANA NATURAL Y ARTIFICIAL

En el desarrollo de aplicaciones acústicas avanzadas, la cabeza humana es un elemento imprescindible para la realización de medidas e implementación de HRTF. Las magnitudes físicas asociadas a los parámetros vistos hasta el momento están condicionados por la forma y tamaño de la cabeza. Todo lo cual no deja de ser un inconveniente. Por lo tanto, para la realización de las medidas acústicas y grabaciones musicales es aconsejable realizarlas en base a una cabeza humana de tipo medio, la cual, nos servirá para proyectar un modelo sintético o una implementación software con las mismas propiedades acústicas que el modelo de referencia.
Como la función HRTF está condicionada por la fisonomía de la cabeza, todas las personas que se salgan del marco establecido, en cuanto a las medidas seleccionadas, tendrán más dificultades para experimentar la música en 3D realizada con la implementación HRTF y/o cabeza artificial.
Dejando a un lado la calidad de los micrófonos utilizados en la cabeza artificial, los cuales, tendrían que situarse en el mismo nivel de comportamiento que el sistema de audición oído-cerebro, (actualmente es prácticamente imposible), las propiedades fisico-acústicas de "superficie" de la cabeza artificial son, básicamente, las mismas en el original (cabeza humana) y la copia (cabeza artificial).


LAS CURVAS DE SIVIAN Y WHITE

Ralizadas a mediados de los años cuarenta del siglo XX, representan un primer indicio del comportamiento, tanto de una cabeza humana natural como, también, de un modelo sintétíco y nos sirven para extraer importantes conclusiones relacionadas, en este caso, con la amplitud de la onda y el timbre, demostrando que el oído izquierdo no recibe la misma presión sonora que el derecho (excepto en frecuencias muy bajas o cuando la fuente de sonido se encuentra justamente en el plano de simetría de la cabeza. Estas curvas podemos considerarlas como el primer paso en la creación de la función HRTF actual.

Este comportamiento, reflejado en las curvas presentadas, son una función de la frecuencia y la posición, por lo tanto, dado que las señales musicales o la palabra son ondas mecánicas complejas, a medida que la fuente se mueve alredededor de la cabeza cambia el timbre percibido. También, sucede lo mismo cuando dicha fuente se mueve de arriba a abajo o viceversa. Las variaciones de amplitud (presión sonora), timbre y, finalmente, tiempo de llegada son, pues, los parámetros que una función HRTF completa debería recoger en sus algoritmos.

En síntesis, para localizar la dirección de procedencia de un sonido, podemos hacerlo en base a las diferencias de presión sonora, a las diferencias de tiempo o ambas conjuntamente. También, las diferencias de timbre detectadas por el cerebro afianzarán, aún más, las percepciones anteriores.
Finalmente, añadiendo la interactividad (en un futuro próximo), conseguiremos emular, prácticamente de forma completa, el comportamiento del oído en cuanto a la percepción del espacio sonoro, aunque, este caso, tal como puede comprenderse, es el más complejo desde el punto de vista de la implementación tecnológica.


LA INTERACTIVIDAD EN EL SISTEMA

Supongamos que, en una sala de audición con un tiempo de reverberación reducido, situamos una esfera maciza del tamaño aproximado al de una cabeza humana normal, a la cual, se añaden dos micrófonos diametralmente opuestos. Necesitaremos, también, un pequeño altavoz o "baffle" que pueda trasladarse alrededor de nuestra cabeza. De esta manera, intentamos emular el comportamiento de nuestro sistema de audición. En otra habitación contigua se situa un oyente con auriculares. (De Boer, en los años cuarenta, (siglo XX) fue el primer científico en realizar este experimento.)
Esta primera fase de la experiencia fue todo un éxito pues el oyente podía seguir el desplazamiento del altavoz a través del sonido percibido. En estas condiciones, situando el altavoz en cualquier posición, desde la zona izquierda a la derecha, se podía localizar su posición sin esfuerzo alguno tal como sucede en el mundo real.

En la segunda fase del experimento empezaron los problemas; en este caso, se trataba de averiguar si el oyente, recordemos, provisto de auriculares y situado en la habitación contigua era capaz de discriminar entre las posiciones frontal o posterior. Para ello, la fuente sonora se colocaba, ahora, justamente delante o detrás de la cabeza artificial. Lamentablemente, esta fase del experimento fue un fracaso. Aunque, en ocasiones, se acertaba en la ubicación de la fuente sonora, en la mayoría de pruebas realizadas era imposible saber con total seguridad si la fuente sonora se encontraba delante o detrás del oyente. Más bien parecía un acertijo que una percepción real y auténtica.

Finalmente, en la tercera fase del experimento, De Boer tuvo una intuición genial, añadir movimiento, en absoluta sincronía entre la cabeza artificial, la cual, recogía el sonido, y la cabeza real receptora a través de auriculares. De esta manera, si el movimiento de la cabeza artificial, moviéndose sobre su eje desde el lado izquierdo al derecho y viceversa a modo de negación, era seguida por el oyente en total sincronia, la discriminación delante-detrás fue totalmente posible. Ahora, mediante el movimiento, podía saberse, si la fuente sonora se encontraba delante o detrás del oyente, sin ambiguedad alguna. Hasta aquí llegó el experimento de De Boer.

Para llegar a la cuarta fase del experimento, realizado por otros científicos, tenemos que dirigirnos hacia los años setenta del siglo pasado hasta llegar a nuestro presente tecnológico. Sabemos que los micrófonos de los años cuarenta, en cuanto a prestaciones y tamaño no eran como los que estamos acostumbrados a utilizar en el presente. Por otra parte, en aquella lejana época se despreciaba el efecto que podría tener el pabellon auditivo y perfil general de la cabeza, incluso torso, sobre la percepción de la dirección.
Ahora, en vez de utilizar una simple cabeza artificial, una esfera con un micrófono a cada lado, empezaron a emplearse cabezas artificiales de tamaño medio con todas y cada una de las características que definen a una cabeza humana en todos sus detalles. También, entraron en escena diminutos micrófonos de excelente calidad, en especial en lo que respecta a la respuesta en las frecuencias más altas del espectro. En estas condiciones, los resultados, en cuanto a la percepción de la dirección mejoraron ostensiblemente aunque al no existir interacción, la discriminación delante-detrás, incluso arriba abajo, seguía siendo un tanto ambigua. (y sigue siendo en bastantes ocasiones).
Posteriormente, en la investigación y recogida de muestras de sonido empezó a sustituirse la cabeza artificial por otra natural, insertando los micrófonos en los mismos canales auditivos de algún voluntario.
Del estudio y procesado de las muestras recogidas con la adecuada tecnología electrónico informática, llegamos a lo que hoy se conoce como la función HRTF aplicable a cualquier fuente de sonido.


VOLVIENDO A LA INTERACTIVIDAD DE "DE BOER"

Ahora nos preguntamos ¿A qué es debido que De Boer necesitara del movimiento en sincronía entre cabeza artificial y oyente para lograr una descriminación real entre las posiciones delante-detrás?
En primer lugar, ahora sabemos que existe una fuerte correlación entre la dirección del sonido que percibimos y la composición de la señal que llega al sistema de audición; a cada posible dirección de la fuente de sonido detectado por el cerebro, le corresponde un patrón de ondas determinado, es decir, una combinación diferente en cuanto a amplitudes, tiempos y timbres.
Es evidente que, si en la escucha de una fuente sonora determinada, la posición del oyente varía en el tiempo, el cerebro de éste recibirá diversos patrones de percepción, (no uno exclusivamente), todos ellos diferentes, aunque apuntando en la misma dirección/posición. De esta manera, afianzamos, aún más las percepciones de la fuente de sonido.
En resumen, si la posición entre la fuente y el oyente es invariable, sólo existirá un patrón determinado para evaluar la dirección/posición de la fuente, mientras que si el oyente se mueve, el cerebro recibirá diversos estímulos, todos ellos diferentes, pero equivalentes en cuanto a la dirección de la fuente de sonido.
La importancia de los movimientos del observador para una mejor detección del origen de un sonido podemos observarla en el mundo animal, ya sea a través del movimiento de la cabeza, o bien, de sus pabellones auditivos móviles.


SÍNTESIS

Tenemos, pues, dos maneras diferentes de implementar la función HRTF. En la primera opción, la actual, el oyente permanece en una posición fija, pues aún cambiando de posición, al no existir la interactividad, el campo sonoro sigue siendo el mismo y, aún cuando los resultados pueden ser óptimos, en ocasiones, el efecto tridimensional se esfumará debido a todo lo expuesto en este documento.
En la segunda opción, la futura, la interactividad afianzará, y mucho, las percepciones en cuanto a direcciones/posiciones puesto que, en esta situación, a cada posición del oyente, le corresponderá un patrón diferente en cuanto a amplitudes, tiempos y timbres, tal como sucede en la vida real con los humanos y en otros muchos animales.

Donde:
ΔA representa, como ya sabemos, la variaciones de amplitud sonora (presión) en cada uno de los oídos del oyente.
Δt son las diferencias de tiempo de llegada entre los oídos y, finalmente,
ΔT las variaciones de timbre producidas en los oídos a consecuencia de, en primer lugar, la onda de difracción alrededor de la cabeza producida por el foco emisor y, en segundo lugar, la perturbación acústica sobre esta onda a consecuencia principalmente del tamaño y forma de la cabeza y pabellones auditivos del oyente.
Como ya se ha comentado anteriormente, un procesamiento completo de las señales para realidad virtual o sonido HI-END debería dar cuenta, al menos, de estas tres variables:

Dir(p,t,T) = Dir(Δp,0,0) + Dir(0,Δt,0) + Dir(0,0,ΔT).

Dicho procesamiento es lo que conocemos como HRTF, "Head related transfer function" o, en castellano, "Función de transferencia de la cabeza". Aunque, en el presente, sin la deseada interacción.


OPCIONES EN EL PROCESO DE GRABACIÓN HRTF

En primer lugar, podemos utilizar el sistema más simple, "la cabeza artificial". Con ella, tenemos la facultad de utilizar todos los parámetros puestos en juego por la Naturaleza sin grandes complicaciones tecnológicas. Eso sí, en una sóla posición, puesto que la interacción con el oyente no existe, lo cual, limitará las percepciones con atributos de realidad.
También, podemos utilizar algún sistema informático con implementación de HRTF (sin interacción actualmente) y, aunque su utilización es relativamente simple, no lo es, sin embargo, el trabajo previo de creación del programa informático, el cual, puede llegar a ser bastante complejo.
Finalmente, tengamos presente que, aunque la cabeza artificial percibe, en principio, lo mismo que nosotros si está bien diseñada, hay una importante diferencia entre usar dicha cabeza o un programa informático con implementación de HRTF; con la cabeza artificial el trabajo está hecho, en el sentido de crear o experimentar entornos sonoros originales. Todo lo contrario ocurre con la implementación de HRTF en un programa informático, puesto que, de esta manera, ponemos en manos del ingeniero de sonido, músico, productor, etc. otro medio más para poner en marcha la creatividad, no sólo con la música sino, también, con el mismo espacio sonoro si el "plugin" HRTF está bien concebido.

 Subir   Inicio 

Rivel. Acústica Musical. Música. Barcelona
Cabeza artificial Claudia Rivel. Sonido 3D, HRTF, Sonido binaural. Roger Andreu.