Live HDR + y controles de doble exposición en Pixel 4 y 4a

Google AI blog – Blog de Inteligencia Artificial

Lunes 3 de agosto de 2020

Publicado por Jiawen Chen y Sam Hasinoff, ingenieros de software, Google Research La imagen de

alto rango dinámico (HDR) es un método para capturar escenas con un amplio rango de brillo, desde sombras profundas hasta reflejos brillantes. En los teléfonos Pixel, el motor detrás de las imágenes HDR es la fotografía HDR + ráfaga , que consiste en capturar una ráfaga rápida de imágenes deliberadamente subexpuestas, combinarlas y renderizarlas de manera que conserven los detalles en toda la gama de tonos. Hasta hace poco, un desafío con HDR + era que no podía calcularse en tiempo real (es decir, a 30 cuadros por segundo), lo que impedía que el visor coincidiera con el resultado final. Por ejemplo, los cielos blancos brillantes en el visor pueden aparecer azules en el resultado HDR +.

Comenzando con Pixel 4 y 4a, hemos mejorado el visor utilizando una aproximación basada en aprendizaje automático para HDR +, que llamamos Live HDR + . Esto proporciona una vista previa en tiempo real del resultado final, haciendo que las imágenes HDR sean más predecibles. También creamos controles de exposición dual , que generalizan el control deslizante clásico de “compensación de exposición” en dos controles para ajustar por separado la reproducción de sombras y reflejos. Juntos, Live HDR + y los controles de doble exposición proporcionan imágenes HDR con control creativo en tiempo real.

Live HDR + en Pixel 4 y 4a ayuda al usuario a componer su toma con un visor WYSIWYG que se parece mucho al resultado final. Puedes ver imágenes individuales aquí . Fotos cortesía de Florian Kainz.

El aspecto HDR +
Cuando el usuario presiona el obturador en la aplicación de la cámara Pixel, captura de 3 a 15 imágenes subexpuestas. Estas imágenes están alineadas y fusionadas para reducir el ruido en las sombras, produciendo una “imagen RGB lineal” intermedia de 14 bits con valores de píxeles proporcionales al brillo de la escena. Lo que le da a las imágenes HDR + su aspecto característico es el “mapeo de tonos” de esta imagen, lo que reduce el rango a 8 bits y lo hace adecuado para su visualización.

Considere la foto retroiluminada de un motociclista, a continuación. Si bien la imagen RGB lineal contiene detalles tanto en la motocicleta oscura como en el cielo brillante, el rango dinámico es demasiado alto para verlo. El método más simple para revelar más detalles es aplicar una “curva global”, reasignando todos los píxeles con un brillo particular a algún valor nuevo. Sin embargo, para una escena HDR con detalles en sombras y reflejos, ninguna curva individual es satisfactoria.

Diferentes formas de mapear por tonos una imagen RGB lineal. (a) La imagen original, “sin asignación de tonos”. (b) Optimización de la curva global para el cielo. (c) Optimización de la curva global para el sujeto. (d) HDR +, que conserva los detalles en todas partes. En el histograma 2D, las áreas más brillantes indican dónde se asignan más píxeles de un brillo de entrada dado a la misma salida. Las formas superpuestas muestran que la relación no se puede modelar usando una sola curva. Foto cortesía de Nicholas Wilson.

En contraste con la aplicación de una sola curva, HDR + utiliza un algoritmo de mapeo de tonos local para garantizar que el resultado final contenga detalles en todas partes, mientras mantiene los bordes y las texturas con un aspecto natural. Efectivamente, esto aplica una curva diferente a diferentes regiones, dependiendo de factores como el brillo general, la textura local y la cantidad de ruido. Desafortunadamente, HDR + es demasiado lento para ejecutarse en vivo en el visor, lo que requiere un enfoque alternativo para Live HDR +.

Aproximación de curva local para Live HDR +
El uso de una curva de tono único no produce un resultado satisfactorio para toda la imagen, pero ¿qué tal para una región pequeña? Considere el pequeño parche rojo en la figura a continuación. Aunque el parche incluye sombras y reflejos, la relación entre el brillo de entrada y salida sigue una curva suave. Además, la curva varía gradualmente. Para el parche azul, desplazado diez píxeles hacia la derecha, tanto el contenido de la imagen como la curva son similares. Pero aunque la aproximación de la curva funciona bien para parches pequeños, se descompone para parches más grandes. Para el parche amarillo más grande, la relación entrada / salida es más complicada y no se aproxima bien por una sola curva.

(a) Entrada y resultado HDR +. (b) El efecto de HDR + en un parche pequeño (rojo) es aproximadamente una curva suave. (c) La relación es casi idéntica para el parche azul cercano. (d) Sin embargo, si el parche es demasiado grande, una sola curva ya no proporcionará un buen ajuste.

Para abordar este desafío, dividimos la imagen de entrada en “mosaicos” de tamaño aproximadamente igual al parche rojo en la figura anterior, y aproximamos HDR + usando una curva para cada mosaico. Dado que estas curvas varían gradualmente, la combinación entre curvas es una buena manera de aproximar la curva óptima en cualquier píxel. Para renderizar un píxel, aplicamos las curvas de cada uno de los cuatro mosaicos más cercanos, luego mezclamos los resultados de acuerdo con las distancias a los respectivos centros de mosaicos.

En comparación con HDR +, este algoritmo es particularmente adecuado para GPU . Dado que la asignación de tonos de cada píxel se puede calcular de forma independiente, el algoritmo también se puede paralelizar. Además, la representación es eficiente en la memoria: solo un pequeño número de mosaicos es suficiente para representar el mapeo de tonos local HDR + para el visor.

Para calcular las curvas locales, utilizamos un algoritmo de aprendizaje automático llamado HDRnet , una red neuronal profunda que predice, a partir de una imagen lineal, curvas por mosaico que se aproximan al aspecto HDR + de esa imagen. También es rápido, debido a su arquitectura compacta y la forma en que las imágenes de entrada de baja resolución pueden usarse para predecir las curvas para el visor de alta resolución. Capacitamos a HDRnet en miles de imágenes para garantizar que funcione bien en todo tipo de escenas.

HDRnet vs. HDR + en una escena desafiante con brillos y sombras extremas. Los resultados son muy similares en la resolución del visor. Foto cortesía de Nicholas Wilson.

Controles de exposición dual
HDR + está diseñado para producir imágenes HDR agradables automáticamente, sin la necesidad de controles manuales o postprocesamiento. Pero a veces la interpretación HDR + puede no coincidir con la visión artística del fotógrafo. Si bien las herramientas de edición de imágenes son un remedio parcial, las imágenes HDR pueden ser difíciles de editar, porque algunas decisiones se incorporan efectivamente al JPG final. Para maximizar la libertad de edición, es posible guardar imágenes RAW para cada disparo (una opción en la aplicación). Sin embargo, este proceso saca al fotógrafo del momento y requiere experiencia con herramientas de edición RAW, así como almacenamiento adicional.

Otro enfoque del control artístico es proporcionarlo en vivo en el visor. Muchos fotógrafos están familiarizados con la compensación de exposición.control deslizante, que ilumina u oscurece la imagen. Pero el brillo general no es lo suficientemente expresivo para la fotografía HDR. Como mínimo, se necesitan dos controles para controlar los reflejos y las sombras por separado.

Para abordar esto, presentamos controles de doble exposición. Cuando el usuario toca el visor Live HDR +, aparecen dos controles deslizantes. El control deslizante “Brillo” funciona como la compensación de exposición tradicional, cambiando la exposición general. Este control deslizante se utiliza para recuperar más detalles en cielos brillantes, o soplar intencionalmente el fondo y hacer que el sujeto sea más visible. El control deslizante “Sombras” afecta solo a las áreas oscuras: funciona cambiando el mapeo de tonos, no la exposición. Este control deslizante es más útil para escenas de alto contraste, ya que permite al usuario aumentar las sombras para revelar detalles o suprimirlas para crear una silueta.

Captura de pantalla de controles de doble exposición en acción en una escena HDR exterior con los resultados HDR + a continuación. Puedes ver imágenes individuales aquí . Fotos cortesía de Florian Kainz.

Estas son algunas de las representaciones dramáticas que pudimos lograr usando controles de exposición dual.

Diferentes representaciones utilizando controles de exposición dual. Puedes ver imágenes individuales aquí . Créditos de las fotos: Jiawen Chen, Florian Kainz, Alexander Schiffhauer.

Los controles de doble exposición le brindan la flexibilidad de capturar versiones dramáticamente diferentes del mismo sujeto. No se limitan a escenas difíciles de HDR, así que no tengas miedo de experimentar con diferentes sujetos e iluminación. ¡Te sorprenderá lo mucho que estos controles deslizantes cambiarán tu forma de disparar!

Agradecimientos
Live HDR + y Dual Exposure Controls es el resultado de una colaboración entre los equipos de Google Research, Android, Hardware y UX Design. Los contribuyentes clave incluyen: Francois Bleibel, Sean Callanan, Yulun Chang, Eric Chen, Michelle Chen, Kourosh Derakshan, Ryan Geiss, Zhijun He, Joy Hsu, Liz Koh, Marc Levoy, Chia-Kai Liang, Diane Liang, Timothy Lin, Gaurav Malik , Hossein Mohtasham, Nandini Mukherjee, Sushil Nath, Gabriel Nava, Karl Rasche, YiChang Shih, Daniel Solomon, Gary Sun, Kelly Tsai, Sung-fang Tsai, Ted Tsai, Ruben Velarde, Lida Wang, Tianfan Xue, Junlan Yang.

Presentamos el Kit de herramientas de tarjeta de modelo para informes de transparencia de modelo más fáciles

Miércoles 29 de julio de 2020Publicado por Huanming Fang y Hui Miao, ingenieros de software, la

transparencia del modelo de aprendizaje automático de investigación de Google (ML) es importante en una amplia variedad de dominios que afectan la vida de las personas, desde la atención médica hasta las finanzas personales y el empleo. La información que necesitan los usuarios intermedios variará, al igual que los detalles que los desarrolladores necesitan para decidir si un modelo es apropiado para su caso de uso. Este deseo de transparencia nos llevó a desarrollar una nueva herramienta para la transparencia del modelo, las Tarjetas de modelo , que proporcionan un marco estructurado para informar sobre la procedencia, el uso y la evaluación basada en la ética del modelo ML y brindar una descripción detallada de los usos y limitaciones sugeridos de un modelo que puede beneficiar a desarrolladores, reguladores y usuarios intermedios por igual.

Durante el año pasado, hemoslanzó Model Cards públicamente y trabajó para crear Model Cards para modelos de código abierto lanzados por equipos en Google. Por ejemplo, el equipo de MediaPipe crea modelos de visión por computadora de última generación para una serie de tareas comunes, y ha incluido Tarjetas de modelo para cada uno de sus modelos de código abierto en su repositorio de GitHub. Crear tarjetas de modelo como estas requiere mucho tiempo y esfuerzo, y a menudo requiere una evaluación y análisis detallados de los datos y el rendimiento del modelo. En muchos casos, uno necesita evaluar adicionalmente cómo se desempeña un modelo en diferentes subconjuntos de datos, observando las áreas donde el modelo tiene un rendimiento inferior. Además, los creadores de la Tarjeta modelo pueden querer informar sobre los usos y limitaciones previstos del modelo, así como cualquier consideración ética que los usuarios potenciales puedan encontrar útil, compilando y presentando la información en un formato accesible y comprensible.

Para simplificar la creación de Model Cards para todos los profesionales de ML, estamos compartiendo el Model Card Toolkit(MCT), una colección de herramientas que ayudan a los desarrolladores a recopilar la información que se incluye en una Tarjeta modelo y que ayudan en la creación de interfaces que serán útiles para diferentes audiencias. Para demostrar cómo se puede usar el MCT en la práctica, también hemos lanzado un tutorial de Colab que crea una tarjeta modelo para un modelo de clasificación simple entrenado en el conjunto de datos de ingresos del censo de UCI .

Presentación de la MCT
Para guiar al creador de la Tarjeta modelo para organizar la información del modelo, proporcionamos un esquema JSON , que especifica los campos para incluir en la Tarjeta modelo. Uso de la información de procedencia del modelo almacenada con metadatos ML(MLMD), el MCT rellena automáticamente el JSON con información relevante, como las distribuciones de clases en los datos y las estadísticas de rendimiento del modelo. También proporcionamos una API de datos de ModelCard para representar una instancia del esquema JSON y visualizarla como una Tarjeta modelo. El creador de la Tarjeta modelo puede elegir qué métricas y gráficos mostrar en la Tarjeta modelo final, incluidas las métricas que resaltan las áreas en las que el rendimiento del modelo puede diferir de su rendimiento general.

Una vez que el MCT ha poblado la Tarjeta modelo con métricas y gráficos clave, el creador de la Tarjeta modelo puede complementar esto con información sobre el uso previsto del modelo, limitaciones, compensaciones y otras consideraciones éticas que de otro modo serían desconocidas para las personas que lo utilizan. . Si un modelo tiene un rendimiento inferior para ciertos segmentos de datos, la sección de limitaciones sería otro lugar para reconocer esto, junto con las estrategias de mitigación sugeridas para ayudar a los desarrolladores a abordar estos problemas. Este tipo de información es fundamental para ayudar a los desarrolladores a decidir si un modelo es adecuado o no para su caso de uso, y ayuda a los creadores de Model Card a proporcionar contexto para que sus modelos se usen de manera adecuada. En este momento, estamos proporcionando una plantilla de interfaz de usuariopara visualizar la Tarjeta modelo, pero puede crear diferentes plantillas en HTML si desea visualizar la información en otros formatos.

Actualmente, el MCT está disponible para cualquier persona que use TensorFlow Extended (TFX) en código abierto o en Google Cloud Platform . Los usuarios que no están sirviendo sus modelos ML a través de TFX aún pueden aprovechar el esquema JSON y los métodos para visualizar a través de la plantilla HTML.

Aquí hay un ejemplo de la Tarjeta modelo completa del tutorial de Colab, que aprovecha el MCT y la plantilla de interfaz de usuario proporcionada.

Conclusión
Actualmente, el MCT incluye una plantilla estándar para informar sobre modelos de ML en general, pero seguimos creando plantillas de UI para aplicaciones más específicas de ML. Si desea unirse a la conversación sobre qué campos son importantes y cómo aprovechar mejor el MCT para diferentes casos de uso, puede comenzar aquí o con el tutorial de Colab . Háganos saber cómo ha aprovechado el MCT para su caso de uso enviándonos un correo electrónico a model-cards@google.com . Puede obtener más información sobre los esfuerzos de Google para promover la IA responsable en el ecosistema de TensorFlow en nuestra página de IA responsable de TensorFlow .

Agradecimientos
Huanming Fang, Hui Miao, Karan Shukla, Dan Nanas, Catherina Xu, Christina Greer, Neoklis Polyzotis, Tulsee Doshi, Tiffany Deng, Margaret Mitchell, Timnit Gebru, Andrew Zaldivar, Mahima Pushkarna, Meena Natarajan, Roy Kim, Parker Barnes, Tom Murray , Susanna Ricco, Lucy Vasserman y Simone Wu

Anunciando ScaNN: Búsqueda eficiente de similitud de vectores

Martes 28 de julio de 2020Publicado por Philip Sun, ingeniero de software, Google Research

Suponga que uno quiere buscar en un gran conjunto de datos de obras literarias utilizando consultas que requieren una coincidencia exacta de título, autor u otros criterios fácilmente indexables por máquina. Tal tarea sería adecuada para una base de datos relacional que usa un lenguaje como SQL. Sin embargo, si uno desea admitir consultas más abstractas, como el “poema de la Guerra Civil”, ya no es posible confiar en métricas ingenuas de similitud, como el número de palabras en común entre dos frases. Por ejemplo, la consulta “ciencia ficción” está más relacionada con el “futuro” que con la “ciencia de la tierra” a pesar de que el primero tiene cero y el último tiene una palabra en común con la consulta.

El aprendizaje automático (ML) ha mejorado enormemente la capacidad de las computadoras para comprender la semántica del lenguaje y, por lo tanto, responder a estas preguntas abstractas. Los modelos modernos de ML pueden transformar entradas como texto e imágenes en incrustaciones, vectores de alta dimensión entrenados para que las entradas más similares se agrupen más juntas. Por lo tanto, para una consulta dada, podemos calcular su incrustación y encontrar las obras literarias cuyas incrustaciones están más cerca de la consulta. De esta manera, ML ha transformado una tarea abstracta y anteriormente difícil de especificar en una tarea matemática rigurosa. Sin embargo, queda un desafío computacional: para una incrustación de consulta determinada, ¿cómo se encuentran rápidamente las incrustaciones de conjuntos de datos más cercanas? El conjunto de incrustaciones suele ser demasiado grande para una búsqueda exhaustiva y su alta dimensionalidad dificulta la poda.

En nuestroEl artículo de ICML 2020 , ” Acelerar la inferencia a gran escala con la cuantización anisotrópica de vectores” , abordamos este problema centrándonos en cómo comprimir los vectores del conjunto de datos para permitir cálculos rápidos de distancia aproximada, y proponemos una nueva técnica de compresión que aumenta significativamente la precisión en comparación con trabajos anteriores . Esta técnica se utiliza en nuestra biblioteca de búsqueda de similitud de vectores de código abierto (ScaNN) y nos permite superar a otras bibliotecas de búsqueda de similitud de vectores en un factor de dos, según se mide en ann-benchmarks.com .

La importancia de la búsqueda de similitud de vectores
La búsqueda basada en incrustación es una técnica que es efectiva para responder consultas que se basan en la comprensión semántica en lugar de simples propiedades indexables. En esta técnica, los modelos de aprendizaje automático están entrenados para mapear las consultas y los elementos de la base de datos a un espacio de incrustación de vectores común, de modo que la distancia entre las incrustaciones tenga un significado semántico, es decir, elementos similares están más juntos.

El modelo de red neuronal de dos torres, ilustrado arriba, es un tipo específico de búsqueda basada en incrustación donde las consultas y los elementos de la base de datos se asignan al espacio de incrustación por dos redes neuronales respectivas. En este ejemplo, el modelo responde a consultas en lenguaje natural para una base de datos literaria hipotética.

Para responder una consulta con este enfoque, el sistema primero debe asignar la consulta al espacio de incrustación. Luego debe encontrar, entre todas las incrustaciones de bases de datos, las más cercanas a la consulta; Este es el problema de búsqueda de vecinos más cercano . Una de las formas más comunes para definir la similitud de incrustación de la base de datos de consultas es por su producto interno ; Este tipo de búsqueda de vecino más cercano se conoce como búsqueda máxima de producto interno (MIPS).

Debido a que el tamaño de la base de datos puede ser fácilmente de millones o incluso miles de millones, MIPS es a menudo el cuello de botella computacional para la velocidad de inferencia, y la búsqueda exhaustiva no es práctica. Esto requiere el uso de algoritmos MIPS aproximados que intercambian cierta precisión para una aceleración significativa sobre la búsqueda de fuerza bruta.

Un nuevo enfoque de cuantificación para MIPS
Varias soluciones de vanguardia para MIPS se basan en comprimir los elementos de la base de datos para que se pueda calcular una aproximación de su producto interno en una fracción del tiempo que tarda la fuerza bruta. Esta compresión se realiza comúnmente con la cuantización aprendida , donde un libro de códigos de vectores se entrena desde la base de datos y se utiliza para representar aproximadamente los elementos de la base de datos.

Los esquemas de cuantificación de vectores anteriores cuantificaron elementos de la base de datos con el objetivo de minimizar la distancia promedio entre cada vector x y su forma cuantificada x̃ . Si bien esta es una métrica útil, la optimización para esto no es equivalente a optimizar la precisión de búsqueda del vecino más cercano. La idea clave detrás de nuestro trabajo es que las codificaciones conuna distancia promedio más alta en realidad puede resultar en una precisión superior de MIPS.

La intuición para nuestro resultado se ilustra a continuación. Supongamos que tenemos dos inmersiones de base de datos x ₁ y x ₂ , y debemos cuantizar cada a uno de dos centros: c ₁ o c ₂ . Nuestro objetivo es cuantificar cada x _i a x̃ _{i de} modo que el producto interno < q , x̃ _i > sea lo más similar posible al producto interno original < q , x _i >. Esto se puede visualizar como la magnitud de la proyección de x̃_i sobre q lo más similar posible a la proyección de x _i sobre q . En el enfoque tradicional de cuantización (izquierda), elegiríamos el centro más cercano para cada x _i , lo que lleva a una clasificación relativa incorrecta de los dos puntos: < q , x̃ ₁ > es mayor que < q , x̃ ₂ >, incluso ¡aunque < q , x ₁ > es menor que < q , x ₂ >! Si en su lugar asignamos x ₁ a c₁ y x ₂ a c ₂ , obtenemos la clasificación correcta. Esto se ilustra en la figura a continuación.

El objetivo es cuantificar cada x _i a x̃ _i = c ₁ o x̃ _i = c ₂ . La cuantización tradicional (izquierda) da como resultado un orden incorrecto de x ₁ y x ₂ para esta consulta. Aunque nuestro enfoque (derecha) elige centros más alejados de los puntos de datos, esto de hecho conduce a un menor error interno del producto y una mayor precisión.

Resulta que la dirección importa tanto como la magnitud, aunque c ₁ está más lejos de x ₁ que c ₂ , c ₁ está desplazado de x ₁ en una dirección casi completamente ortogonal a x ₁ , mientras que el desplazamiento de c ₂ es paralelo (para x ₂ , se aplica la misma situación pero invertida). El error en la dirección paralela es mucho más dañino en el problema de MIPS porque impacta desproporcionadamente en productos internos altos, que por definición son los que MIPS está tratando de estimar con precisión.

En base a esta intuición, penalizamos más fuertemente el error de cuantificación que es paralelo al vector original. Nos referimos a nuestra nueva técnica de cuantificación como cuantificación vectorial anisotrópica debido a la dependencia direccional de su función de pérdida. La capacidad de esta técnica para comercializar un mayor error de cuantificación de productos internos inferiores a cambio de una precisión superior para productos internos altos es la innovación clave y la fuente de sus ganancias de rendimiento.

En los diagramas anteriores, las elipses denotan contornos de igual pérdida. En la cuantización de vectores anisotrópicos, el error paralelo al punto de datos original x se penaliza más.

Anisotrópico Cuantificación Vectorial en SCANN
anisotrópico cuantificación vectorial permite SCANN para estimar mejor los productos internos que puedan estar en las láminas superior k MIPS resultados y por lo tanto lograr una mayor precisión. En el punto de referencia de guante-100-angular de ann-benchmarks.com , ScaNN superó a otras once bibliotecas de búsqueda de similitud de vectores cuidadosamente ajustadas, manejando aproximadamente el doble de consultas por segundo para una precisión dada que la biblioteca más próxima. ^{* *}

Recall @ k es una métrica de uso común para la precisión de búsqueda del vecino más cercano, que mide la proporción de los k vecinos más cercanos verdaderos que están presentes en los k vecinos devueltos por un algoritmo. ScaNN (línea morada superior) logra un rendimiento superior en varios puntos de la compensación de precisión de velocidad.

ScaNN es un software de código abierto y puede probarlo usted mismo en GitHub . La biblioteca se puede instalar directamente a través de Pip y tiene interfaces para las entradas de TensorFlow y Numpy. Consulte el repositorio de GitHub para obtener más instrucciones sobre cómo instalar y configurar ScaNN.

Conclusión
Al modificar el objetivo de cuantificación del vector para alinearlo con los objetivos de MIPS, logramos un rendimiento de vanguardia en los puntos de referencia de búsqueda de vecinos más cercanos, un indicador clave del rendimiento de búsqueda basado en incrustación. Aunque la cuantificación de vectores anisotrópicos es una técnica importante, creemos que es solo un ejemplo de las ganancias de rendimiento que se pueden lograr mediante la optimización de algoritmos para el objetivo final de mejorar la precisión de la búsqueda en lugar de un objetivo intermedio como la distorsión de compresión.

Agradecimientos
Esta publicación refleja el trabajo de todo el equipo de ScaNN: David Simcha, Erik Lindgren, Felix Chern, Nathan Cordeiro, Ruiqi Guo, Sanjiv Kumar y Zonglin Li. También nos gustaría agradecer a Dan Holtmann-Rice, Dave Dopson y Felix Yu.

* ScaNN funciona de manera similar en los otros conjuntos de datos de ann-benchmarks.com , pero el sitio web actualmente muestra números obsoletos y más bajos. Consulte esta solicitud de extracción para obtener cifras de rendimiento más representativas en otros conjuntos de datos. ↩

Mejora de la comprensión de la escena holística con Panoptic-DeepLab

Martes 21 de julio de 2020Publicado por Bowen Cheng, investigador estudiantil, y Liang-Chieh Chen, investigador científico, Google Research.

Las aplicaciones de visión por computadora del mundo real, como los autos sin conductor y la robótica, se basan en dos tareas principales: segmentación de instancia y segmentación semántica . La segmentación de instancias identifica la clase y el alcance de “cosas” individuales en una imagen (es decir, objetos contables como personas, animales, automóviles, etc.) y asigna identificadores únicos a cada uno (por ejemplo, car_1 y car_2). Esto se complementa con una segmentación semántica., que etiqueta todos los píxeles de una imagen, incluidas las “cosas” que están presentes, así como las “cosas” circundantes (p. ej., regiones amorfas de textura o material similar, como hierba, cielo o carretera). Sin embargo, esta última tarea no diferencia entre píxeles de la misma clase que pertenecen a diferentes instancias de esa clase.

La segmentación panóptica representa la unificación de estos dos enfoques con el objetivo de asignar un valor único a cada píxel en una imagen que codifica tanto la etiqueta semántica como la identificación de la instancia. La mayoría de los algoritmos de segmentación panóptica existentes se basan en la máscara R-CNN, que trata la segmentación semántica y de instancias por separado. El paso de segmentación de instancia identifica objetos en una imagen, pero a menudo produce máscaras de instancia de objeto que se superponen entre sí. Para resolver el conflicto entre las máscaras de instancias superpuestas, comúnmente se emplea una heurística que resuelve la discrepancia ya sea en base a la máscara con un puntaje de confianza más alto o mediante el uso de una relación por parejas predefinida entre categorías (por ejemplo, siempre se debe usar un empate en frente de una persona). Además, las discrepancias entre los resultados de segmentación semántica y de instancia se resuelven favoreciendo las predicciones de instancia. Si bien estos métodos generalmente producen buenos resultados, también introducen una latencia intensa, lo que dificulta su aplicación en aplicaciones en tiempo real.

Impulsados por la necesidad de un modelo de segmentación panóptica en tiempo real, proponemos ” Panoptic-DeepLab: un sistema simple, rápido y fuerte para la segmentación panóptica “, aceptado en CVPR 2020 . En este trabajo, ampliamos el modelo de segmentación semántica moderna de uso común, DeepLab, para realizar una segmentación panóptica utilizando solo un pequeño número de parámetros adicionales con la adición de sobrecarga marginal de cálculo. El modelo resultante, Panoptic-DeepLab, produce segmentación semántica y de instancias en paralelo y sin superposición, evitando la necesidad de la heurística diseñada manualmente adoptada por otros métodos. Además, desarrollamos una operación computacionalmente eficiente que combina los resultados de segmentación semántica y de instancias, permitiendo una predicción de segmentación panóptica de extremo a extremo casi en tiempo real. A diferencia de los métodos basados en la máscara R-CNN, Panoptic-DeepLab no genera predicciones de cuadro delimitador y requiere solo tres funciones de pérdida durante el entrenamiento, significativamente menos que los métodos de vanguardia actuales, como UPSNet, que puede tener hasta ocho. Finalmente, Panoptic-DeepLab ha demostrado un rendimiento de vanguardia en varios conjuntos de datos académicos.

Resultados de segmentación panóptica obtenidos por Panoptic-DeepLab. Izquierda: cuadros de video utilizados como entrada para el modelo de segmentación panorámica. Derecha: resultados superpuestos en cuadros de video. Cada instancia de objeto tiene una etiqueta única, por ejemplo, car_1, car_2, etc.

Visión general
Panoptic-DeepLab es simple tanto conceptual como arquitectónicamente. A alto nivel, predice tres salidas. El primero es la segmentación semántica, en la que asigna una clase semántica (por ejemplo, automóvil o césped) a cada píxel. Sin embargo, no diferencia entre múltiples instancias de la misma clase. Entonces, por ejemplo, si un automóvil está parcialmente detrás de otro, los píxeles asociados con ambos tendrían la misma clase asociada y serían indistinguibles entre sí. Esto se puede abordar mediante las segundas dos salidas del modelo: una predicción de centro de masa para cada instancia y una regresión de centro de instancia, donde el modelo aprende a retroceder cada píxel de instancia a su centro de masa. Este último paso asegura que el modelo asocie los píxeles de una clase dada a la instancia apropiada. La segmentación de instancia independiente de la clase,

Descripción general de Panoptic-DeepLab. La segmentación semántica asocia los píxeles de la imagen con las clases generales, mientras que el paso de segmentación de instancia independiente de la clase identifica los píxeles asociados con un objeto individual, independientemente de la clase. En conjunto, se obtiene la imagen de segmentación panóptica final.

Diseño de red neuronal
Panoptic-DeepLab consta de cuatro componentes: (1) una red troncal de codificador pre-entrenada en ImageNet , compartida por la segmentación semántica y las ramas de segmentación de instancias de la arquitectura; (2) módulos de agrupación de pirámides espaciales (ASPP ) atroces , similares a los utilizados por DeepLab , que se implementan de forma independiente en cada rama para realizar la segmentación en un rango de escalas espaciales; (3) módulos decodificadores desacoplados de manera similar específicos para cada tarea de segmentación; y (4) cabezas de predicción específicas de la tarea.

El backbone del codificador (1), que ha sido previamente entrenado en ImageNet, extrae mapas de características que son compartidos tanto por la segmentación semántica como por las ramas de segmentación de instancias de la arquitectura. Típicamente, el mapa de características es generado por el modelo de red troncal usando una convolución estándar, que reduce la resolución del mapa de salida a 1/32 de la imagen de entrada y es demasiado gruesa para una segmentación de imagen precisa. Con el fin de preservar los detalles de los límites de los objetos, en su lugar empleamos una convolución atroz , que conserva mejor las características importantes como los bordes, para generar un mapa de características con una resolución de 1/16 del original. Esto es seguido por dos módulos ASPP (2), uno para cada rama, que captura información de múltiples escalas para la segmentación.

Los módulos decodificadores livianos (3) siguen los utilizados en la versión más reciente de DeepLab ( DeepLabV3 + ), pero con dos modificaciones. Primero, reintroducimos un mapa de características adicional de bajo nivel (escala 1/8) en el decodificador, que ayuda a preservar la información espacial de la imagen original (por ejemplo, límites de objetos) que puede ser significativamente degradada en la salida del mapa de características final por el columna vertebral. En segundo lugar, en lugar de usar el típico núcleo 3 × 3, el decodificador emplea una convolución separable en profundidad de 5 × 5, que produce un rendimiento algo mejor a un costo mínimo en gastos generales adicionales.

Las dos cabezas de predicción (4) se adaptan a su tarea. El cabezal de segmentación semántica emplea una versión ponderada de la función de pérdida de entropía cruzada bootstrapped estándar, que pondera cada píxel de manera diferente y ha demostrado ser más eficaz para la segmentación de objetos a pequeña escala. El cabezal de segmentación de instancias está entrenado para predecir los desplazamientos entre el centro de masa de una instancia de objeto y los píxeles circundantes, sin conocimiento de la clase de objeto, formando las máscaras de instancia independientes de la clase.

Resultados
Para demostrar la eficacia de Panoptic-DeepLab, llevamos a cabo experimentos sobre tres bases de datos académicas populares, urbanos , mapillary vistas , y COCO conjuntos de datos. Con una arquitectura simple, Panoptic-DeepLab ocupa el primer lugar en Cityscapes para las tres tareas (segmentación semántica, instancia y panóptica) sin ningún ajuste fino específico de la tarea. Además, Panoptic-DeepLab ganó el premio al mejor resultado , el mejor papel y los premios más innovadores en la pista de segmentación panóptica mapeo en el Taller conjunto de ICOV 2019 COCO y reconocimiento de reconocimiento mapeo.. Supera al ganador de 2018 por un margen saludable de 1.5%. Finalmente, Panoptic-DeepLab establece nuevos resultados de segmentación panóptica de última generación (es decir, sin caja) en el conjunto de datos COCO , y también es comparable a otros métodos basados en la máscara R-CNN.

Precisión (PQ) frente a velocidad (tiempo de inferencia de GPU) en tres conjuntos de datos.

Conclusión
Con una arquitectura simple y solo tres funciones de pérdida de entrenamiento, Panoptic-DeepLab logra un rendimiento de vanguardia mientras es más rápido que otros métodos basados en Máscara R-CNN . Para resumir, desarrollamos el primer modelo de segmentación panóptica de un solo disparo que alcanza un rendimiento de vanguardia en varios puntos de referencia públicos y ofrece una velocidad de inferencia de extremo a extremo casi en tiempo real. Esperamos que nuestro Panoptic-DeepLab simple y efectivo pueda establecer una línea de base sólida y beneficiar aún más a la comunidad de investigación.

Agradecimientos
Nos gustaría agradecer el apoyo y las valiosas conversaciones con Maxwell D. Collins, Yukun Zhu, Ting Liu, Thomas S. Huang, Hartwig Adam, Florian Schroff y el equipo de Google Mobile Vision.

Explorando una detección más rápida con menos pruebas a través de pruebas de grupo bayesianas

Martes 14 de julio de 2020Publicado por Marco Cuturi y Jean-Philippe Vert, Investigadores científicos, Google Research, Brain Team

¿Cómo se encuentra una aguja en un pajar? Al final de la Segunda Guerra Mundial, esa pregunta adquirió una forma muy concreta cuando los médicos se preguntaron cómo detectar de manera eficiente las enfermedades entre aquellos que habían sido reclutados en el esfuerzo de guerra. Inspirado por este desafío, Robert Dorfman , un joven estadístico en ese momento (más tarde para convertirse en profesor de economía de Harvard), propuso en un documento seminalUn enfoque de 2 etapas para detectar individuos infectados, mediante el cual las muestras de sangre individuales se agrupan primero en grupos de cuatro antes de analizar la presencia o ausencia de un patógeno. Si un grupo es negativo, entonces es seguro asumir que todos en el grupo están libres del patógeno. En ese caso, la reducción en el número de pruebas requeridas es sustancial: un grupo completo de cuatro personas ha sido aprobado con una sola prueba. Por otro lado, si un grupo da positivo, lo que se espera que ocurra raramente si la prevalencia del patógeno es pequeña, al menos una o más personas dentro de ese grupo deben ser positivas; por lo tanto, se necesitan algunas pruebas más para determinar los individuos infectados.

Izquierda: se requieren dieciséis pruebas individuales para evaluar a 16 personas; solo una prueba de la persona es positiva, mientras que 15 dan negativo. Derecha: siguiendo el procedimiento de Dorfman, las muestras se agrupan en cuatro grupos de cuatro individuos, y las pruebas se ejecutan en las muestras agrupadas. Debido a que solo el segundo grupo da positivo, 12 personas son autorizadas y solo aquellos cuatro que pertenecen al grupo positivo necesitan ser reexaminados. Este enfoque requiere solo ocho pruebas, en lugar de las 16 necesarias para una campaña exhaustiva de pruebas.

La propuesta de Dorfman desencadenó muchos trabajos de seguimiento con conexiones a varias áreas de la informática, como la teoría de la información , la combinatoria o la detección de compresión , y se han propuesto varias variantes de su enfoque, en particular las que aprovechan la división binaria o el conocimiento secundario sobre las tasas de probabilidad de infección individual . El campo ha crecido en la medida en que varios subproblemas son reconocidos y merecen una literatura completa por sí mismos. Algunos algoritmos están diseñados para el caso silencioso en el que las pruebas son perfectamente confiables, mientras que otros consideran el caso más realista donde las pruebas son ruidosasy puede producir falsos negativos o positivos. Finalmente, algunas estrategias son adaptativas , proponen grupos basados en los resultados de las pruebas ya observados (incluido Dorfman, ya que propone volver a evaluar a individuos que aparecieron en grupos positivos), mientras que otros se adhieren a un entorno no adaptativo en el que los grupos se conocen de antemano o dibujado al azar.

En ” Pruebas grupales adaptativas ruidosas con diseño experimental secuencial bayesiano“, Presentamos un enfoque para las pruebas grupales que pueden funcionar en un entorno ruidoso (es decir, donde las pruebas pueden confundirse) para decidir de forma adaptativa al observar los resultados anteriores qué grupos probar a continuación, con el objetivo de converger en una detección confiable tan rápido , y con la menor cantidad de pruebas posible. Las simulaciones a gran escala sugieren que este enfoque puede resultar en mejoras significativas sobre las líneas de base adaptativas y no adaptativas, y son mucho más eficientes que las pruebas individuales cuando la prevalencia de la enfermedad es baja. Como tal, este enfoque es particularmente adecuado para situaciones que requieren que se realicen grandes cantidades de pruebas con recursos limitados, como puede ser el caso de pandemias, como la correspondiente a la propagación de COVID-19. Hemos abierto el código a la comunidad a través de nuestro repositorio de GitHub .

Pruebas grupales ruidosas y adaptativas en un régimen no asintótico
Una estrategia de prueba grupal es un algoritmo que tiene la tarea de adivinar quién, entre una lista de n personas, porta un patógeno particular. Para hacerlo, la estrategia proporciona instrucciones para agrupar a las personas en grupos. Suponiendo que un laboratorio puede ejecutar k pruebas a la vez, la estrategia formará una matriz de agrupación de k ⨉ n que define estos grupos. Una vez que se llevan a cabo las pruebas, los resultados se utilizan para decidir si se ha reunido suficiente información para determinar quién está infectado o no y, de no ser así, cómo formar nuevos grupos para otra ronda de pruebas.

Diseñamos un enfoque de prueba grupal para el entorno realista donde la estrategia de prueba puede ser adaptativa y donde las pruebas son ruidosas: la probabilidad de que la prueba de una muestra infectada sea positiva ( sensibilidad ) es inferior al 100%, al igual que la especificidad , la probabilidad que una muestra no infectada devuelve negativo.

Detección de más personas con menos pruebas utilizando el diseño experimental óptimo bayesiano
La estrategia que proponemos procede de la forma en que un detective investigará un caso. Primero forman varias hipótesis sobre quién puede o no estar infectado, utilizando evidencia de todas las pruebas (si las hay) que se han llevado a cabo hasta ahora e información previa sobre la tasa de infección (a). Usando estas hipótesis, nuestros detectives producen un elemento procesable para continuar la investigación, es decir, una próxima ola de grupos que pueden ayudar a validar o invalidar tantas hipótesis como sea posible (b), y luego volver a (a) hasta el conjunto de plausibles Las hipótesis son lo suficientemente pequeñas como para identificar inequívocamente el objetivo de la búsqueda. Más precisamente,

Dada una población de n personas, un estado de infección es un vector binario de longitud n que describe quién está infectado (marcado con un 1) y quién no (marcado con un 0). En un momento determinado, una población se encuentra en un estado determinado (muy probablemente unos pocos 1 y principalmente 0). El objetivo de las pruebas grupales es identificar ese estado utilizando la menor cantidad de pruebas posible. Dada una creencia previa sobre la tasa de infección (la enfermedad es rara) y los resultados de las pruebas observados hasta ahora (si los hay), esperamos que solo una pequeña parte de esos estados de infección sea plausible. En lugar de evaluar la plausibilidad de los 2 ⁿ estados posibles (un número extremadamente grande incluso para n pequeños ), recurrimos a un método más eficiente para tomar muestrashipótesis plausibles utilizando una muestra secuencial de Monte Carlo (SMC) . Aunque es bastante costoso según los estándares comunes (unos minutos usando una GPU en nuestra configuración experimental), mostramos en este trabajo que los muestreadores SMC permanecen manejables incluso para grandes n , abriendo nuevas posibilidades para pruebas grupales. En resumen, a cambio de unos pocos minutos de cálculos, nuestros detectives obtienen una extensa lista de miles de hipótesis relevantes que pueden explicar las pruebas observadas hasta ahora.
Equipada con una lista relevante de hipótesis, nuestra estrategia procede, como lo harían los detectives, al reunir selectivamente evidencia adicional. Si se pueden realizar k pruebas en la próxima iteración, nuestra estrategia propondrá probar k nuevos grupos, que se calculan utilizando el marco del diseño experimental óptimo bayesiano . Intuitivamente, si k = 1 y uno solo puede proponer un solo grupo nuevo para probar, habría una clara ventaja en construir ese grupo de manera que el resultado de la prueba sea lo más incierto posible, es decir, con una probabilidad de que arroje un resultado positivo lo más cercano posible 50% como sea posible, dado el conjunto actual de hipótesis. De hecho, para avanzar en una investigación, es mejor maximizar el factor sorpresa (oganancia de información ) proporcionada por los nuevos resultados de la prueba, en lugar de usarlos para confirmar aún más lo que ya consideramos muy probable. Para generalizar esa idea a un conjunto de k> 1 nuevos grupos, calificamos este factor sorpresa calculando la información mutua de estas pruebas de grupo “virtuales” frente a la distribución de hipótesis. También consideramos un enfoque más complejo que calcula el área esperada bajo la curva ROC (AUC) que se obtendría al probar estos nuevos grupos utilizando la distribución de hipótesis. La maximización de estos dos criterios se lleva a cabo utilizando un enfoque codicioso , lo que resulta en dos selectores de grupo, GMIMAX y GAUCMAX (maximización codiciosa de información mutua o AUC, respectivamente).

La interacción entre un laboratorio ( wet_lab) que realiza las pruebas y nuestra estrategia, compuesta de ay samplera group selector, se resume en el siguiente dibujo, que utiliza nombres de clases implementadas en nuestro paquete de código abierto.

Nuestro marco de prueba grupal describe una interacción entre un entorno de prueba wet_lab, cuyos resultados de prueba agrupados son utilizados por el samplerpara dibujar miles de hipótesis plausibles sobre el estado de infección de todos los individuos. Luego, estas hipótesis se utilizan mediante un procedimiento de optimización, group_selector,que determina qué grupos pueden ser los más relevantes para evaluar con el fin de reducir el verdadero estado de la infección. Una vez formados, estos nuevos grupos se prueban nuevamente, cerrando el ciclo. En cualquier punto del procedimiento, las hipótesis formadas por la muestra se pueden promediar para obtener la probabilidad promedio de infección para cada paciente. A partir de estas probabilidades, se puede tomar una decisión sobre si un paciente está infectado o no al limitar estas probabilidades a un cierto nivel de confianza.

Evaluación
comparativa Comparamos nuestras dos estrategias GMIMAX y GAUCMAX contra varias líneas de base en una amplia variedad de entornos (tasas de infección, niveles de ruido de prueba), informando el rendimiento a medida que aumenta el número de pruebas. Además de las estrategias simples de Dorfman, las líneas de base que consideramos incluían una combinación de estrategias no adaptativas ( ensayos de origami , diseños aleatorios) complementadas en etapas posteriores con el llamado enfoque informativo de Dorfman . Nuestros enfoques superan significativamente a los demás en todos los entornos.

Ejecutamos 5000 simulaciones en una muestra de población de 70 individuos con una tasa de infección del 2%. Hemos asumido valores de sensibilidad / especificidad de 85% / 97% para pruebas con grupos de tamaño máximo 10, que son representativos de las máquinas de PCR actuales . Esta figura demuestra que nuestro enfoque supera a las otras líneas de base con tan solo 24 pruebas (hasta 8 pruebas utilizadas en 3 ciclos), incluidas las variedades adaptativas y no adaptativas, y se desempeña significativamente mejor que las pruebas individuales (representadas en la sensibilidad / especificidad plano como un hexágono, que requiere 70 pruebas), destacando el potencial de ahorro ofrecido por las pruebas grupales. Ver preprint para otras configuraciones.

Conclusión La
detección de un patógeno en una población es un problema fundamental, uno que enfrentamos actualmente durante la epidemia actual de COVID-19. Hace setenta años, Dorfman propuso un enfoque simple actualmente adoptado por varias instituciones. Aquí, hemos propuesto un método para extender el enfoque de prueba de grupo básico de varias maneras. Nuestra primera contribución es adoptar una perspectiva probabilística y formar miles de hipótesis plausibles de distribuciones de infección dados los resultados de las pruebas, en lugar de confiar en que los resultados de las pruebas sean 100% confiables como lo hizo Dorfman. Esta perspectiva nos permite incorporar a la perfección conocimientos previos adicionales sobre la infección, como cuando sospechamos que algunas personas son más propensas que otras a portar el patógeno, basándose, por ejemplo, en datos de rastreo de contactos o respuestas a un cuestionario. Esto proporciona nuestros algoritmos, que se pueden comparar con los detectives que investigan un caso, la ventaja de saber cuáles son las hipótesis de infección más probables que concuerdan con las creencias y pruebas anteriores realizadas hasta ahora.

Agradecimientos
Nos gustaría agradecer a nuestros colaboradores en este trabajo, Olivier Teboul, en particular, por su ayuda en la preparación de figuras, así como a Arnaud Doucet y Quentin Berthet . También agradecemos a Kevin Murphy y Olivier Bousquet (Google) por sus sugerencias en las primeras etapas de este proyecto, así como a Dan Popovici por su inquebrantable apoyo para impulsar esto; Ignacio Anegon, Jeremie Poschmann y Laurent Tesson (INSERM) por proporcionarnos información de fondo sobre las pruebas de RT-PCR y Nicolas Chopin (CREST) por brindar orientación sobre su trabajo para definir SMC para espacios binarios.

Google en ICML 2020

Lunes 13 de julio de 2020Publicado por Jaqui Herman y Cat Armato, los gerentes de programa

El aprendizaje automático es un enfoque estratégico clave en Google, con grupos altamente activos que realizan investigaciones en prácticamente todos los aspectos del campo, incluido el aprendizaje profundo y algoritmos más clásicos, explorando la teoría y la aplicación. Utilizamos herramientas y arquitecturas escalables para construir sistemas de aprendizaje automático que nos permiten resolver profundos desafíos científicos y de ingeniería en áreas de lenguaje, habla, traducción, música, procesamiento visual y más.

Como líder en investigación de aprendizaje automático, Google se enorgullece de ser un patrocinador platino de la trigésima séptima Conferencia Internacional sobre Aprendizaje Automático(ICML 2020), un evento anual de primer nivel que tiene lugar prácticamente esta semana. Con más de 100 publicaciones aceptadas y Googlers participando en talleres, esperamos nuestra colaboración continua con la comunidad más grande de investigación de aprendizaje automático.

Si está registrado en ICML 2020, esperamos que visite el stand virtual de Google para obtener más información sobre el emocionante trabajo, la creatividad y la diversión que implica resolver algunos de los desafíos más interesantes del campo. También puede obtener más información sobre la investigación de Google presentada en ICML 2020 en la lista a continuación (afiliaciones de Googleen negrita)

Expo ICML
Búsqueda de conjuntos de datos de Google: construcción de un ecosistema abierto para el descubrimiento de conjuntos de datos
Natasha Noy

Flujos de trabajo de inferencia bayesiana de extremo a extremo en TensorFlow Probability
Colin Carroll

Publicaciones
Optimización de caja negra basada en la población para el diseño de secuencias biológicas
Christof Angermueller, David Belanger, Andreea Gane, Zelda Mariet, David Dohan, Kevin Murphy, Lucy Colwell, D Sculley

Codificación predictiva para control localmente lineal
Rui Shu, Tung Nguyen, Yinlam Chow , Tuan Pham, Khoat Than, Mohammad Ghavamzadeh, Stefano Ermon, Hung Bui

FedBoost: una comunicación eficaz Algoritmo para Federados de aprendizaje
Jenny Hamer, Mehryar Mohri, Ananda Theertha Suresh

más rápido Gráfico Inclusiones través Coarsening
Mateo Fahrbach, Gramoz goranci, Richard Peng, Sushant Sachdeva, Chi Wang

Revisiting Fundamentals of Experience Replay
William Fedus, Prajit Ramachandran, Rishabh Agarwal, Yoshua Bengio, Hugo Larochelle, Mark Rowland, Will Dabney

Impulsando el control de los sistemas dinámicos
Naman Agarwal, Nataly Brukhim, Elad Hazan, Zhou Lu

Procesos de agrupamiento neural
Ari Pakman, Yueqi Wang , Catalin Mitelut, JinHyung Lee, Liam Paninski

La capa del conjunto de árboles: la diferenciabilidad se cumple Computación condicional
Hussein Hazimeh, Natalia Ponomareva , Petros Mol, Zhenyu Tan , Rahul Mazumder

Representaciones para el aprendizaje
estable de refuerzo fuera de la política Dibya Ghosh, Marc Bellemare

REALM: Recuperación-Modelo de lenguaje aumentado Pre-Entrenamiento
Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat Ming-Wei Chang

Contexto consciente de la privacidad diferencial local
Jayadev Acharya, Keith Bonawitz , Peter Kairouz , Daniel Ramage , Ziteng Sun

Modelado generativo profundo escalable para gráficos
dispersos Hanjun Dai, Azade Nazi, Yujia Li , Bo Dai, Dale Schuurmans

Deep k-NN para etiquetas ruidosas
Dara Bahri, Heinrich Jiang, Maya Gupta ^†

Revisiting Invariance espacial con conectividad local de bajo rango
Gamaleldin F. Elsayed, Prajit Ramachandran, Jonathon Shlens, Simon Kornblith

ANDAMIO: Promedio controlado estocástico para el aprendizaje federado
Sai Praneeth Karimireddy, Satyen Kale, Mehryar Mohri, Sashank J. Reddi, Sebastian U. Stich, Ananda Theertha Suresh

Muestreo incremental sin reemplazo para los modelos de secuencia
Kensen Shi, David Bieber, Charles Sutton

SoftSort: una relajación continua para el operador
argsort Sebastian Prillo, Julian Martin Eisenschlos

XTREME: un punto de referencia multitarea masivamente multilingüe para evaluar la generalización multilingüe (ver publicación de blog )
Junjie Hu, Sebastian Ruder, Aditya Siddhant , Graham Neubig, Orhan Firat , Melvin Johnson

Aprendiendo a parar mientras aprenden a predecir
Xinshi Chen, Hanjun Dai, Yu Li, Xin Gao, Le Song

Bandits with Adversarial Scaling
Thodoris Lykouris, Vahab Mirrokni , Renato Paes Leme

SimGANs: redes adversas generativas basadas en simulador para la síntesis de ECG para mejorar la clasificación profunda de ECG
Tomer Golany, Daniel Freedman , Kira Radinsky

Stochastic Frank-Wolfe para la minimización de suma finita
restringida Geoffrey Negiar, Gideon Dresdner, Alicia Yi-Ting Tsai, Laurent El Ghaoui, Francesco Locatello, Robert M. Freund, Fabian Pedregosa

Diferenciación implícita de modelos tipo Lasso para la optimización de hiperparámetros
Quentin Bertrand, Quentin Klopfenstein, Mathieu Blondel , Samuel Vaiter, Alexandre Gramfort, Joseph Salmon

Atención infinita: NNGP y NTK para redes de atención profunda
Jiri Hron, Yasaman Bahri, Jascha Sohl-Dickstein, Roman Novak

Logarithmic Lamento por el aprendizaje de reguladores cuadráticos lineales eficientemente
Asaf Cassel, Alon Cohen , Tomer Koren

Adversarial Garantías de aprendizaje para hipótesis lineales y redes neuronales
Pranjal Awasi , Natalie Frank , Mehryar Mohri Escalarizaciones

aleatorias de hipervolumen para la optimización de caja negra multipropósito comprobable
Daniel Golovin, Qiuyi (Richard) Zhang

Generando expresiones de referencia programáticas a través de la síntesis del programa
Jiani Huang, Calvin Smith, Osbert Bastani, Rishabh Singh , Aws Albarghouthi, Mayur Naik

Optimización del bienestar social a largo plazo en los sistemas de recomendación: un enfoque de emparejamiento limitado
Martin Mladenov, Elliot Creager, Omer Ben-Porat, Kevin Swersky, Richard Zemel , Craig Boutilier

AutoML-Zero: Algoritmos de aprendizaje automático en evolución desde cero (ver publicación de blog )
Esteban Real , Chen Liang, David R. Entonces, Quoc V. Le

¿Qué tan bueno es realmente el Bayes posterior en redes neuronales profundas?
Florian Wenzel, Kevin Roth, Bastiaan S. Veeling, Jakub Swiatkowski, Linh Tran, Stephan Mandt, Jasper Snoek, Tim Salimans, Rodolphe Jenatton, Sebastian Nowozin ^†

¿Qué tareas deben aprenderse juntas en el aprendizaje de tareas múltiples?
Trevor Standley, Amir R. Zamir, Dawn Chen, Leonidas Guibas, Jitendra Malik, Silvio Savarese

Diagrama de influencia de bandidos: Muestreo variante de Thompson para problemas de bandidos estructurados
Tong Yu, Branislav Kveton , Zheng Wen, Ruiyi Zhang, Ole J. Mengshoel

Desenredamiento Trability and Generalization in Deep Neural Networks
Lechao Xiao, Jeffrey Pennington, Samuel S. Schoenholz

Los muchos valores de Shapley para la explicación del modelo
Mukund Sundararajan, Amir Najmi

Neural Contextual Bandits con Exploration con sede en UCB
Dongruo Zhou, Lihong Li , Quanquan Gu

Eliminación automática de atajos para la representación supervisada por cuenta propia Aprendizaje
Matthias Minderer, Olivier Bachem, Neil Houlsby, Michael Tschannen

Federados de aprendizaje con Solamente positivos Etiquetas
Felix X. Yu, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar

Cómo recurrentes Redes implementar el procesamiento de contexto en los Sentiment Analysis
Niru Maheswaranathan, David Sussillo

aprendizaje supervisado: Sin pérdida No Cry
Richard Nock, Aditya Krishna Menon

Política Ready Uno: Construcción mundial a través del aprendizaje activo
Philip Ball, Jack Parker-Holder, Aldo Pacchiano, Krzysztof Choromanski , Stephen Roberts Desincrustación

supervisada débilmente sin compromisos
Francesco Locatello, Ben Poole , Gunnar Raetsch, Bernhard Schölkopf, Olivier Bachem , Michael Tschannen

Clasificación y clasificación rápida y diferenciable
Mathieu Blondel, Olivier Teboul, Quentin Berthet, Josip Djolonga Debaryed

Sinkhorn barycenters
Hicham Janati, Marco Cuturi , Alexandre Gramfort

Interpretable, multidimensional, detección de anomalías multimodales con muestreo negativo para la detección de fallas del dispositivo
John Sipple

acelerando con gran escala Cuantización anisotrópica de vectores
Ruiqi Guo, Philip Sun, Erik Lindgren, Quan Geng ^† , David Simcha, Felix Chern, Sanjiv Kumar

Una perspectiva optimista sobre el aprendizaje de refuerzo fuera de línea (ver la publicación del blog )
Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi

El núcleo de la tangente neuronal en altas dimensiones: triple descenso y una teoría de generalización de múltiples
escalas Ben Adlam, Jeffrey Pennington

Liberación de consultas privadas con la asistencia de datos públicos
Raef Bassily, Albert Cheu, Shay Moran , Aleksandar Nikolov, Jonathan Ullman, Zhiwei Steven Wu

Learning y Evaluación de la inclusión contextual del código fuente
Aditya Kanade, Petros Maniatis, Gogul Balakrishnan, Kensen Shi

Evaluación de la precisión de la máquina en ImageNet
Vaishaal Shankar, Rebecca Roelofs , Horia Mania, Alex Fang, Benjamin Recht, Ludwig Schmidt

Imputer: modelado de secuencias mediante imputación y programación dinámica
William Chan , Chitwan Saharia, Geoffrey Hinton, Mohammad Norouzi, Navdeep Jaitly

Redes de agregación de dominios para la adaptación de dominios de múltiples fuentes
Junfeng Wen, Russell Greiner, Dale Schuurmans planean

explorar a través de modelos mundiales auto supervisados
Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner , Deepak Pathak

Modelo dinámico dinámico para la generalización en el aprendizaje basado en modelos de refuerzo
Kimin Lee, Younggyo Seo, Seunghyun Lee, Honglak Lee , Jinwoo Shin

Retro *: Aprendizaje de planificación retrosintética con guía neuronal A * Buscar
Binghong Chen, Chengtao Li, Hanjun Dai , Le Song

en la consistencia de Top-k Pérdidas sustitutas
Forest Yang , Sanmi Koyejo

Descenso de espejo doble para problemas de asignación en línea
Haihao Lu, Santiago Balseiro, Vahab Mirrokni

Redes neuronales bayesianas eficientes y escalables con factores de rango 1
Michael W. Dusenberry, Ghassen Jerfel, Yeming Wen, Yi-An Ma ^† , Jasper Snoek, Katherine Heller, Balaji Lakshminarayanan, Dustin Tran

Batch Estimación de distribución estacionaria
Junfeng Wen, Bo Dai , Lihong Li , Dale Schuurmans

Small-GAN: Acelerando la capacitación en GAN utilizando conjuntos de núcleo
Samarth Sinha, Han Zhang , Anirudh Goyal, Yoshua Bengio, Hugo Larochelle , Augustus Odena

Valuación de datos Usando el aprendizaje por refuerzo
Jinsung Yoon, Sercan Ö. Arik, Tomas Pfister

Una perspectiva teórica del juego sobre el aprendizaje basado en modelos de refuerzo
Aravind Rajeswaran, Igor Mordatch, Vikash Kumar

Codificación de estilo musical con transformadores Autoencoders
Kristy Choi, Curtis Hawthorne, Ian Simon, Monica Dinculescu, Jesse Engel

The Shapley Taylor Interaction Index
Kedar Dhamdhere, Mukund Sundararajan, Ashish Agarwal

Restricciones de forma multidimensional
Maya Gupta ^† , Erez Louidor, Olexander Mangylov ^† , Nobu Morioka, Taman Narayan, Sen Zhao

Conteo privado de mensajes anónimos: precisión casi óptima con comunicación de fuga en lo
alto Badih Ghazi, Ravi Kumar, Pasin Manurangsi, Rasmus Pagh

Aprendiendo a puntuar comportamientos para la optimización guiada de políticas
Aldo Pacchiano, Jack Parker-Holder, Yunhao Tang, Anna Choromanska, Krzysztof Choromanski , Michael I. Jordan Compensaciones

fundamentales entre la invarianza y la sensibilidad a perturbaciones adversarias
Florian Tramèr, Jens Behrmann, Nicholas Carlini , Nicolas Papernot , Jörn-Henrik Jacobsen

Optimización de métricas de caja negra con sustitutos adaptativos
Qijia Jiang, Olaoluwa Adigun, Harikrishna Narasimhan , Mahdi Milani Fard , Maya Gupta ^†

Métodos intrínsecos basados en circuitos para detectar saturación excesiva
Sat Chatterjee, Alan Mishchenko

Reparametrización automática de programas probabilísticos
Maria I. Gorinova, Dave Moore, Matthew D. Hoffman

Flujos estocásticos y optimización geométrica en el grupo ortogonal
Krzysztof Choromanski, David Cheikhi , Jared Davis , Valerii Likhosherstov, Achille Nazaret, Achraf Bahamou, Xingyou Song , Mrugank Aka, Mrugank Aka Jack Parker-Holder, Jacob Bergquist, Yuan Gao, Aldo Pacchiano, Tamas Sarlos , Adrian Weller, Vikas Sindhwani

Black-Box Inferencia variante como una aproximación paramétrica a Langevin Dynamics
Matthew Hoffman, Yi-An Ma ^†

Explicaciones concisas de redes neuronales usando entrenamiento adversarial
Prasad Chalasani, Jiefeng Chen, Amrita Roy Chowdhury, Somesh Jha, Xi Wu

p-Norm Flow Diffusion for Local Graph Clustering
Shenghao Yang, Di Wang , Kimon Fountoulakis

Estudio empírico de los beneficios de la sobreparamización en el aprendizaje Modelos variables latentes
Rares-Darius Buhai, Yoni Halpern , Yoon Kim, Andrej Risteski, David Sontag

Precios robustos en diseño de mecanismos dinámicos
Yuan Deng, Sébastien Lahaie , Vahab Mirrokni

Cuantización de productos diferenciables para el aprendizaje Capas de incrustación compactas
Ting Chen, Lala Li, Yizhou Sun

Adaptive Region Active Learning
Corinna Cortes, Giulia DeSalvo, Claudio Gentile, Mehryar Mohri, Ningshan Zhang Counter

Language Drift with Seeded Iterated Learning
Yuchen Lu, Soumye Singhal, Florian Strub, Olivier Pietquin , Aaron Courville

¿Label Smoothing Mitigate Label Ruise?
Michal Lukasik, Srinadh Bhojanapalli, Aditya Krishna Menon, Sanjiv Kumar

Aceleración a través de la estimación de la densidad espectral
Fabian Pedregosa, Damien Scieur

Momentum mejora SGD normalizado
Ashok Cutkosky, Harsh Mehta

ConQUR: mitigando el sesgo delirante en el profundo Q-Learning
Andy Su, Tyler Andy Su, Jayden, Tyler Lu O, Andy O , Tyler Andy Su, Jayden Dale Schuurmans, Craig Boutilier

Aprendizaje en línea con consejos imperfectos
Aditya Bhaskara,Ashok Cutkosky , Ravi Kumar , Manish Purohit

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
Denny Zhou, Mao Ye , Chen Chen, Tianjian Meng, Mingxing Tan, Xiaodan Song, Quoc Le, Qiang Liu , Dale Schuurmans

en la regularización implícita en β-VAE
Abhishek Kumar, Ben Poole

¿El SGD local es mejor que el SGD Minibatch?
Blake Woodworth, Kumar Kshitij Patel, Sebastian U. Stich, Zhen Dai, Brian Bullins, H. Brendan McMahan , Ohad Shamir, Nathan Sreb

Un marco simple para el aprendizaje comparativo de representaciones visuales
Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton

Optimización de caso promedio universal de Polyak Momentum
Damien Scieur, Fabian Pedregosa

Un enfoque de aprendizaje de imitación para el reemplazo de caché
Evan Zheran Liu, Milad Hashemi, Kevin Swersky, Parthasarathy Ranganathan, Junwhan Ahn colapsó

inferencia variada amortiguada para cambiar sistemas dinámicos no lineales
Zhe Dong, Bryan Seybold, Kevin P. Murphy, Hung H. Bui

Más allá del ruido sintético: Aprendizaje profundo sobre etiquetas ruidosas controladas
Lu Jiang, Di Huang, Mason Liu, Weilong Yang

Optimizando el uso de datos a través de recompensas diferenciables
Xinyi Wang, Hieu Pham , Paul Michel, Antonios Anastasopoulos, Jaime Carbonell, Graham

Neubig Atención escasa de Sinkhorn
Yi Tay, Dara Bahri, Liu Yang, Donald Metzler, Da-Cheng Juan

Una política para controlarlos a todos: políticas modulares compartidas para el control agnóstico del agente
Wenlong Huang, Igor Mordatch , Deepak Pathak

en Thompson Sampling with Langevin Algorithms
Eric Mazumdar, Aldo Pacchiano , Yi-An Ma ^† , Peter L. Bartlett, Michael I. Jordan

Existe una buena subred: poda a través de Greedy Forward Selection
Mao Ye, Chengyue Gong, Lizhen Nie, Denny Zhou , Adam Klivans, Qiang Liu

en las tasas de convergencia global de Softmax Métodos de gradiente de políticas
Jincheng Mei, Chenjun Xiao, Csaba Szepesvari , Dale Schuurmans

Concept Modelos de cuello de botella
Pang Wei Koh, Thao Nguyen , Yew Siang Tang, Stephen Mussmann, Emma Pierson, Been Kim , Percy Liang

Normalización de cuantiles supervisada para aproximación matricial de bajo rango
Marco Cuturi, Olivier Teboul, Jonathan Niles-Weed , Jean-Philippe Vert

Imputación de datos perdidos utilizando Transporte óptimo
Boris Muzellec, Julie Josse , Claire Boyer, Marco Cuturi

Aprendiendo a combinar señales de arriba hacia abajo y de abajo hacia arriba en redes neuronales recurrentes con atención sobre los módulos
Sarthak Mittal, Alex Lamb, Anirudh Goyal, Vikram Voleti, Murray Shanahan, Guillaume Lajoie, Michael Mozer , Yoshua Bengio

Optimización estocástica para estimadores de Wasserstein regularizados
Marin Ballu, Quentin Berthet , Francis Bach Cuellos de

botella de bajo rango en modelos de atención de
múltiples cabezas Srinadh Bhojanapalli, Chulhee Yun, Ankit Singh Rawat, Sashank Jakkam Reddi, Sanjiv Kumar

Rigging the Lottery: Making All Tickets Winners
Utku Evci , Trevor Gale, Jacob Menick , Pablo Samuel Castro, Erich Elsen

Aprendizaje en línea con gráficos de retroalimentación estocástica dependientes
Corinna Cortes, Giulia DeSalvo, Claudio Gentile, Mehryar Mohri,

Calibración de Ningshan Zhang , Tasas de entropía y memoria en modelos de lenguaje
Mark Braverman, Xinyi Chen , Sham Kakade, Karthik Narasimhan, Cyril Zhang, Yi Zhang

Bocetos componibles para funciones de frecuencias: más allá del peor caso
Edith Cohen, Ofir Geri, Rasmus Pagh

Procesos basados en energía para datos intercambiables
Mengjiao Yang, Bo Dai, Hanjun Dai, Dale Schuurmans

Límites de arrepentimiento casi óptimo para el camino más corto estocástico
Alon Cohen, Haim Kaplan, Yishay Mansour, Aviv Rosenberg

PEGASO: Pre-entrenamiento con oraciones extraídas para el resumen abstracto (vea la publicación del blog )
Jingqing Zhang, Yao Zhao , Mohammad Saleh , Peter J. Liu

La complejidad de encontrar puntos estacionarios con descenso estocástico de gradiente
Yoel Drori Ohad Shamir

La distribución normal ligada a k: una parametrización compacta de los posteriores del campo medio gaussiano en redes neuronales bayesianas
Jakub Swiatkowski, Kevin Roth, Bas Veeling, Linh Tran, Josh Dillon, Stephan Mandt, Jasper Snoek, Tim Salimans, Rodolphe Jenatton, Sebastian Nowozin ^†

Regularized El transporte óptimo es el costo adverso del terreno
François-Pierre Paty, Marco Cuturi

Talleres de trabajo
Nuevo en ML
Ponente invitado: Nicolas Le Roux Organizadores: Zhen Xu, Sparkle Russell-Puleri, Zhengying Liu, Sinead A Williamson, Matthias W Seeger, Wei-Wei Tu, Samy Bengio , Isabelle Guyon Asesor del taller LatinX in AI : Pablo Samuel Castro Women en Machine Learning Un-Workshop Ponente invitado: Doina Precup Sponsor Expositor: Jennifer Wei Queer en AI Ponente invitado: Shakir Mohamed Taller sobre organizadores de aprendizaje continuo : Haytham Fayek, Arslan Chaudhry, David Lopez-Paz, Eugene Belilovsky, Jonathan Schwarz, Marc Pickett

Live HDR + y controles de doble exposición en Pixel 4 y 4a