SAMURAI

Saliency and Attention: MUltimodality, context-awaReness, self-Adaptation and bio-Inspiration

Abstract:

Our knowledge of the world is shaped by human perception. Our sensory and motor capabilities allow us to understand and interact with reality. Cognition is the result of these interactions. Mimicking such brain functions is one of the most challenging scientific endeavours technologist have currently embraced with the name of cognitive computation, aiming at building biologically inspired intelligent machines.

Saliency is a key cognitive mechanism that prioritizes particular stimuli over others: our brain takes decisions about what is relevant or not in every particular situation in the process of exploring the world.

From a research perspective we identify the following key directions for advancing this technology:

    1. Multimodality: humans cannot conceive the world using a single modality. Yet most research results specialize on a particular one and have a limited understanding of others. Based on our experience we propose an integration of the two main human modalities: aural and visual. This integration pivots around two main conceptions: first, taking an information-theoretic based perspective for evaluation improves the interpretability of the results and is expected to provide a helpful metric for the fusion and second, an understanding of the role of time.
    1. Bio-inspiration: deep learning algorithms have had a profound impact in a large number of computational tasks and have also been employed for building models of visual saliency mainly for fusing maps based on different features. However, up to our knowledge, its application to aural saliency has not been explored. Mathematical morphology has also proven to be an advantageous tool to mimick psychoacoustical properties of the human auditory system.
  1. Context-awareness and self-adaptation: in contrast with the abundant literature about visual bottom-up saliency (the one based on low-level features or stimuli) the modeling of top-down visual attention still remains an open problem since its solutions are, in general, task-dependent. We aim at integrating bottom-up and top-down models by adopting a general framework where user goals and their relationship with low-level stimuli can be learnt and adapted for a particular context (task, individual, environmental, etc.). The capability of acquiring knowledge through the discovery of latent classes, topics, tasks or events together with the adoption of exploratory based analysis guided by experts is our proposal to contribute in this area.

From a methodological point of view, we adopt an end-user perspective since knowledge of the perceptual relevance of audio-visual items can be applied to several problems: e.g. object recognition, action classification or event detection. This, not only involves developing algorithms that incorporate saliency, but also changing the evaluation protocol, moving from the traditional evaluation that assesses the alignment of saliency maps and human fixations to a more meaningful one.

Under this conceptual framework, the purpose of this project is double-fold: first, to contribute to the advance the technology in each of the previous three directions and second, to develop a set of multi-purpose computational tools ready to be assembled into different applications such as event detection, object recognition, video annotation and indexing, personalized information retrieval or recommender systems, bio-imaging based diagnosis, healthcare, etc.

fig1_SAMURAI

Figure 1. Conceptual Axes of the project

Conclusions:

El proyecto SAMURAI tenía como objetivo principal entender un mecanismo cognitivo básico para la supervivencia del ser humano: la atención. Se trata de un mecanismo por el cual priorizamos ciertos estímulos frente a otros: nuestro cerebro toma decisiones sobre qué es relevante y qué no en cada situación en su proceso de exploración del mundo. La metodología que hemos utilizado para comprender este mecanismo es la de construir modelos computacionalesdel mismo siguiendo la filosofía de Feyman de que “lo que no puedo crear, no lo entiendo”.

Comprendiendo que este fenómeno es genuinamente multimodal hemos trabajado principalmente en dos modalidades: la visual y la aural.

En el primer caso, el estado del arte se encuentra mucho más avanzado principalmente por la disponibilidad de sensores (eye-trackers) capaces de registrar las posiciones (fijaciones oculares) a las que prestamos más atención. Así, en este caso, hemos sido capaces de distinguir el mecanismo de saliencia (bottom-up) y el más general de atención (top-down, o mediado por la tarea u objetivo del sujeto) y proponer unsistema jerárquico basado en el empleo de modelos de tópicos latentes que realiza un mapeo entre estímulos y características de bajo nivel y la atención dirigida a la realización de tareas. En particular, este mapeo se hace a través de una capa intermedia (los tópicos latentes) que representa sub-tareas de especial interés para modelar la atención en escenarios específicos, en los que un sujeto desea resolver una tarea particular.

En el segundo caso, la dificultad de obtener medidas empíricas de la atención aural nos ha hecho decantarnos por métodos no supervisados. Así hemos desarrollado un sistema de atención aural no supervisado basado en métodos bayesianos, el concepto biológico de memoria ecoica o memoria sensorial auditiva y la fusión de información a diversas escalas temporales mediante la utilización de diferentes distancias o divergencias estadísticas. Hemos evaluado el funcionamiento de este sistema sobre tareas de detección de eventos acústicos y analizado su robustez frente a diversas condiciones de ruido ambiental.

Por último, y aunque esta línea queda aún abierta, hemos desarrollado un sistema de detección de saliencia visual basado en la influencia que la saliencia auditiva ejerce en la percepción.

Creemos que además del impacto científico-tecnológico del avance del conocimiento que ha supuesto SAMURAI, el impacto socio-económico puede ser muy elevado ya que hemos identificado aplicaciones en las áreas de salud, seguridad, transporte y turismos a las que ya estamos trabajando en transferir los conocimientos.

Keywords:

Saliency, attention, multimodality, bioinspiration, deep learning, latent topics, exploratory analysis, cognitive computation

Download here the Layman Report

Publications

(Open access in our Institutional Repository: https://e-archivo.uc3m.es/handle/10016/1591)

[bibtex file=http://www.tsc.uc3m.es/~carmen/webgpm19_v2.bib key=RN412,jim16,lud16,val:gon:pen:pel:15old,gon15,fer16,Gonzalez16,HERNANDEZGARCIA2016280,Ludena-Choez2017,JIMENEZMORENO2017,GONZALEZDESUSO2017,de-la-Calle-Silos2017,Abdalmalak2018,Martinez-Enriquez2018b,Martinez-Enriquez2018a,Lopez-Labraca2018,rod:pel:gal:18,Molina-Moreno2018,val:pel:18b,Gonzalez18]

Conferences

[bibtex file=http://www.tsc.uc3m.es/~carmen/webgpm19_v2.bib key=RN417,RN416,RN415,zlo15,Fernandez-Torres2016,Rodriguez-Hidalgo2016,Ludena-Choez2016,RN407,rod:pel:gal:17,Jimenez-Recio2018,Martinez-Cortes2018,Rituerto-Gonzalez2018,val:pel:cab:cor:oje:18b,val:pel:18e,val:pel:18d]

PhDThesis

[bibtex file=http://www.tsc.uc3m.es/~carmen/webgpm19_v2.bib allow=phdthesis]

Funded by:

MINECO (Ministry of Economy and Competitiveness)

TEC2014-53390-P (Convocatoria 2014 de Proyectos de I+D del Programa Estatal de Fomento de la Investigación Científica y Técnica de Excelencia)

Jan. 2015 – Dec. 2018

Contact Persons
Ascensión Gallardo-Antolín (gallardo at tsc.uc3m.es)
Carmen Peláez-Moreno (carmen at tsc.uc3m.es)

Comments are closed.