Cuando los gobiernos recurren a la IA: algoritmos, compensaciones y confianza

La inteligencia artificial puede ayudar a las agencias gubernamentales a resolver problemas complejos del sector público. Para aquellos que son nuevos en ello, aquí hay cinco factores que pueden afectar los beneficios y riesgos.

A medida que la inteligencia artificial (IA) y el aprendizaje automático ganan impulso, un número creciente de agencias gubernamentales están considerando o comenzando a usarlos para mejorar la toma de decisiones. Además, COVID-19 ha puesto de repente énfasis en la velocidad. En estas aguas desconocidas, donde las mareas siguen cambiando, no es sorprendente que el análisis, ampliamente reconocido por su destreza predictiva y de resolución de problemas, se haya convertido en una herramienta de navegación esencial. Algunos ejemplos de aplicaciones convincentes incluyen aquellas que identifican patrones de evasión fiscal, clasifican los datos de infraestructura para dirigir las inspecciones puente, o examinan los datos de salud y servicios sociales para priorizar los casos de bienestar y apoyo infantil, o predecir la propagación de enfermedades infecciosas. Permiten a los gobiernos desempeñarse de manera más eficiente, tanto mejorando los resultados como manteniendo bajos los costos.

Los aspectos más apremiantes de la adopción de tales soluciones son generalmente bien conocidos. Los algoritmos deben ser precisos y comprobados conscientemente para detectar sesgos no deseados.1 Otros lo son menos. Los algoritmos deben ser estables, lo que significa que los pequeños cambios en su entrada no cambian significativamente su salida. Deben ser explicables, especialmente en el sector público, donde una miríada de partes interesadas revisarán cada paso. Y para garantizar una adopción exitosa, los usuarios del sector público deben prestar especial atención a cómo se implementan las soluciones de IA, dado que los gerentes del sector público generalmente tienen menos autoridad y control operativo para obligar a la adopción que los del sector privado. Si bien todos estos factores son relevantes para cada entidad del sector público, no son necesariamente relevantes de la misma manera.

Conseguir el equilibrio adecuado es esencial no solo para minimizar los riesgos, sino también para construir un caso de negocio adecuado para la inversión y para garantizar que los dólares de los contribuyentes se gasten bien. A continuación, exploraremos cada una de estas cinco dimensiones: precisión, equidad, explicabilidad, estabilidad y adopción, tal como se aplican al sector público.

Precisión

Cuando se trata de algoritmos, los usuarios del sector público podrían medir el rendimiento en términos de una mejor toma de decisiones.

Cuando se trata de algoritmos, los usuarios del sector público podrían medir el rendimiento en términos de una mejor toma de decisiones. Dado que normalmente hay muchas medidas posibles y resultados probabilísticos, es poco probable que un algoritmo prevea cada uno de ellos con precisión. Los usuarios podrían comenzar por identificar cuáles tienen más probabilidades de llevar a las mejores decisiones para la situación. Recomendamos centrarnos en dos o tres medidas que realmente importan para el caso de uso específico. Considere los siguientes ejemplos:

  • Priorizar las inversiones en trabajo vial mediante el análisis de cuellos de botella de tráfico. Cuando los fondos son escasos, los funcionarios del gobierno pueden preferir reducir el número de falsos positivos -gastar dinero para reparar carreteras con menos cuellos de botella- en relación con los falsos negativos, es decir, perder una carretera que tiene cuellos de botella. Gastar dinero en carreteras que no necesitan reparaciones desperdicia dinero de los contribuyentes y, potencialmente, tensa las arcas públicas. Por el contrario, aunque perder un camino con cuello de botella retrasa la resolución del problema, es probable que hasta la próxima ronda de evaluación y priorización.
  • Decidir dónde enfocar las auditorías fiscales. Los funcionarios fiscales pueden querer optimizar para centrarse solo en los evasores de impuestos más probables, dadas las posibles consecuencias de etiquetar falsamente a alguien como un alto riesgo de evasión.
  • Decidir qué estudiantes obtienen dinero de la beca basado en la probabilidad de graduarse. Cuando el orden de clasificación de los estudiantes determina las cantidades de becas escaladas, el orden en el que los estudiantes se clasifican podría importar más que la puntuación probabilística absoluta que el estudiante individual recibe del modelo, en este caso, la probabilidad de graduación. En tales casos, a los administradores de la escuela les importaría más predecir el orden de clasificación correcto de los estudiantes que la exactitud del resultado probabilístico por sí mismo.

Una palabra de precaución: asegúrese de que exista una precisión de referencia clara para la toma de decisiones antes de implementar un algoritmo, ya sea basado en decisiones humanas históricas, puntuación rudimentaria o enfoques basados en criterios que se estaban utilizando. Saber cuándo el algoritmo funciona bien y cuándo no, en relación con la línea de base, es útil tanto para presentar un caso para usarlo como para establecer incentivos para la mejora continua del algoritmo.

En nuestra experiencia, el aprendizaje automático puede mejorar significativamente la precisión en relación con la mayoría de los procesos o sistemas de toma de decisiones tradicionales. Su valor puede provenir de mejores decisiones de asignación de recursos, como emparejar los tipos correctos de programas de rehabilitación en un centro penitenciario con los prisioneros con más probabilidades de beneficiarse de ellos. Pero también puede ser valioso para mejorar la eficiencia, como ayudar a los trabajadores de casos de salud pública a priorizar los casos correctos, así como la eficacia, como saber qué programas escolares son más eficaces para minimizar el abandono escolar.

Equidad

Hay muchas maneras de definir un algoritmo justo, o “justicia algorítmica”.2 La noción refleja un interés en la toma de decisiones sin prejuicios o, cuando participan clases protegidas de individuos, en evitar un impacto dispar en las clases legalmente protegidas.3 Hay una extensa literatura sobre el sesgo en los algoritmos y cómo esto podría manifestarse. Los problemas comunes incluyen algunos tipos de sesgo en los conjuntos de datos y distorsiones en la técnica analítica del algoritmo, o en cómo los humanos interpretan los datos.

Un primer paso crítico es establecer lo que significa equidad en el contexto específico del caso de uso, es decir, cuáles son las clases protegidas y cuáles son las métricas de equidad. Hay algunas maneras de medir y abordar la equidad, no todas las cuales pueden ser igualmente eficaces en cada caso:

  • Ceguera voluntaria. Un enfoque que se utiliza comúnmente es construir una especie de ceguera en el algoritmo, de modo que trate a los subgrupos de la misma manera independientemente de las distinciones tradicionales entre ellos, como la raza, el género u otros factores socioeconómicos.Por ejemplo, si una escuela utiliza un algoritmo para identificar a los estudiantes en riesgo de abandono escolar, los educadores podrían implementar un modelo que utilice registros enmascarados de género o neutrales en cuanto al género para identificar a los que están en mayor riesgo. Sin embargo, incluso ese tipo de enfoque puede ser ingenuo si no tiene en cuenta variables relacionadas entre correlacionados, como códigos postales que podrían implicar raza, nivel de educación o género. Tal enfoque podría conducir a resultados injustos o causar problemas con los datos de muestra utilizados para entrenar el modelo en sí. Termina creando un algoritmo que simplemente no es consciente sin ninguna consideración a la equidad.

Paridad demográfica o estadística. Otra manera de abordar la equidad es garantizar la paridad estadística en las decisiones que se permiten o en los resultados, por ejemplo, seleccionando una proporción igual de personas de grupos protegidos y no protegidos. Una manera de lograr esto sería establecer diferentes umbrales para diferentes grupos para garantizar la paridad en los resultados para cada grupo.

Un ejemplo de esto último sería un algoritmo escrito para aplicar diferentes umbrales de puntuación de crédito para diferentes grupos demográficos, con el fin de seleccionar la misma proporción de solicitantes de cada uno. Sin embargo, este enfoque requiere que alguien verifique y modifique constantemente los umbrales, y a menudo puede no tener en cuenta las diferencias subyacentes en los subgrupos. Por lo general, es efectivo solo cuando alguien se preocupa por una sola medida de equidad, en este caso, una proporción igual de los resultados de aprobación de préstamos en todos los tipos de género.

Igualdad predictiva. Posiblemente el enfoque más equilibrado para abordar la equidad es no forzarla en el resultado de la decisión, sino más bien en el rendimiento (o precisión) del algoritmo en diferentes grupos. (Para obtener más información, consulte la barra lateral “Garantizar la equidad”). En esta definición, la equidad significa que el algoritmo no está desproporcionadamente mejor o peor en la forma en que se toman las decisiones para subgrupos específicos. Eso significa, por ejemplo, que las tasas de error o prevalencia de falsos positivos o falsos negativos para cada grupo son las mismas, mientras que se tienen en cuenta las variaciones en la población subyacente. En nuestro ejemplo de solicitante de préstamo, esto significa que podemos no aprobar una proporción igual de solicitantes de préstamo entre géneros, pero el porcentaje de solicitantes aprobados que terminan incumpliendo (es decir, los falsos positivos) sería el mismo entre los géneros. En otras palabras, no estamos favoreciendo o afectando desproporcionadamente a ninguno de los géneros, ya que estamos cometiendo el mismo ritmo de errores o errores en nuestra selección.

Debemos tener en cuenta que la equidad puede tener un costo de menor precisión. Por ejemplo, podemos encontrar que un modelo algorítmico es altamente preciso para una población en general, pero no para algunos subconjuntos de la población donde hay menos datos. En el caso de los sistemas educativos, los cambios en la demografía de una población podrían hacer que los modelos de comportamiento sean discutibles, si los modelos se basan en datos históricos. Dicho de otra manera, el modelo podría ser más preciso para los grupos históricamente dominantes y menos preciso para otros.

Puede haber una compensación entre una mayor precisión general a costa de un rendimiento peor y menos justo para algunos y más equidad (eliminando ciertas características) a costa de reducir la precisión general. Por ejemplo, si ciertas variables en los datos subyacentes, como los códigos postales, están correlacionadas con la raza en ciertas geografías, entonces agregar códigos postales al conjunto de datos utilizado por un modelo para ser más preciso podría introducir inadvertidamente prejuicios raciales. Por lo tanto, al elegir el modelo correcto, es importante ver cómo los algoritmos obtienen una puntuación en las cinco dimensiones que hemos descrito aquí.

Explicabilidad

Los algoritmos fácilmente explicados pueden ser críticos para fomentar la adopción de una aplicación de IA, asegurando que las partes interesadas entiendan cómo y por qué se toman decisiones. En nuestra experiencia, la IA y el aprendizaje automático son más valiosos cuando se utilizan para apoyar, y no sustituir, la toma de decisiones humanas, y para permitir que los mismos humanos entiendan la razón detrás de las recomendaciones del algoritmo. En nuestra experiencia, solo hacer que una persona real esté disponible para interactuar con los afectados por las decisiones consecuentes puede hacer una diferencia, incluso si la decisión no se cambia. Muchos sistemas del sector público ya están diseñados para permitir esto, como audiencias judiciales y períodos de comentario público en torno a decisiones políticas. Esta combinación de “human plus machine” en realidad a menudo puede tomar decisiones sustancialmente mejores que la máquina o el humano por su cuenta (ver barra lateral, “Privacidad, integridad y vulnerabilidad”).

Esto es particularmente relevante con respecto a las decisiones de asignar un recurso escaso, como cuando el resultado de un algoritmo ayuda a seleccionar un número limitado de solicitantes de becas, subvenciones o permisos. En casos extremos, una aplicación de IA de caja negra, una que no se explica o no se puede explicar, puede causar potencialmente más daño que ayuda. Las máquinas pueden cometer errores y llegar a conclusiones rígidas, especialmente en situaciones de límite estrecho. Por ejemplo, un algoritmo podría denegar un préstamo para un solicitante con un puntaje de crédito de 728 cuando el límite es de 730. Las personas solo pueden corregir errores o hacer excepciones cuando entienden cómo la máquina toma decisiones.

Al igual que la equidad, la explicabilidad también puede conducir a compensaciones difíciles. Los algoritmos más simples que utilizan heurística basada en reglas o árboles de decisiones pueden ser más fáciles de explicar, pero algoritmos más matizados y complejos podrían ser más precisos o menos sesgados. La pregunta determinante es si es más importante que la gente entienda la razón detrás de una decisión o más importante ser preciso.

La respuesta es contextual. En algunos países, por ejemplo, varios sistemas de puntuación crediticia4 puede tener implicaciones de amplio alcance para la capacidad de un individuo para obtener un préstamo. En tales casos, un algoritmo más explicable daría a los solicitantes la oportunidad de mejorar sus variables de entrada, como evitar los pagos atrasados, para influir en sus puntuaciones finales con el tiempo. Por el contrario, si un algoritmo identifica con precisión a los pacientes con alto riesgo de cáncer, es poco probable que los pacientes se preocupen si el algoritmo se explica fácilmente.

Las organizaciones también pueden considerar pasar a algoritmos más complejos una vez que la base de usuarios se familiarice y se construya confianza en los modelos más explicables.

Estabilidad

Con el tiempo, el rendimiento de la mayoría de los algoritmos se vuelve inestable, principalmente porque se desarrollaron utilizando datos recopilados en un mundo antes de que se utilizaran algoritmos para tomar decisiones. Además, a veces los cambios macro pueden afectar la relevancia de los datos en los que se entrenó a los modelos. Por ejemplo, los modelos entrenados en escenarios antes de la pandemia COVID-19 pueden no ser relevantes en el futuro. Los sistemas tradicionales de puntuación de riesgos o incluso las decisiones humanas se enfrentan a los mismos obstáculos.

La estabilidad es particularmente importante en el sector público, donde muchos factores externos afectan la toma de decisiones. Considere el ejemplo de los modelos de mitigación del fraude y los beneficios públicos. Los patrones de fraude evolucionan muy rápidamente. Además, los cambios en los requisitos de beneficios pueden afectar significativamente el tipo de fraude que experimentan los gobiernos y los datos en los que se entrenó el modelo de aprendizaje automático. Por ejemplo, durante la crisis de COVID-19, muchos estados de EE. UU. experimentaron un aumento sustancial en el fraude de identidad relacionado con las solicitudes de beneficios de desempleo. Un conjunto de datos creado antes de COVID-19 no habría visto esta tendencia. Tales cambios pueden crear shocks en el sistema que hacen que los datos históricos sean menos capaces de predecir el futuro y, por lo tanto, invalidar la heurística tradicional o las reglas de toma de decisiones.

Para estimar la frecuencia con la que se deben actualizar los modelos, los usuarios deben entender la velocidad a la que se degrada el rendimiento algorítmico. Una manera de hacer esto es probar su rendimiento utilizando datos retrospectivos en diferentes lapsos de tiempo. Si el modelo funciona muy bien en los datos de prueba que caducaron hace un año, pero no en los datos que caducaron hace dos años, entonces el reciclaje del modelo en algún lugar entre un año y dos años probablemente ayudará a evitar la degradación.

Idealmente, las organizaciones utilizarían dicha información para desarrollar una cadencia de pruebas y reciclaje regulares para actualizar y reconstruir continuamente su heurística. Sin embargo, los modelos también pueden necesitar ser actualizados a raíz de cualquier cambio importante en un conjunto de datos subyacente. Estos podrían ser cambios internos, como la implementación de nuevas políticas, o externos, como nueva legislación.

Adopción

Cuando pensamos en el impacto potencial de la IA, pensamos en tres grandes piezas de trabajo: desarrollar el modelo o algoritmo, obtener información de su resultado y adoptar su resultado o recomendaciones. Al final, un gran modelo de aprendizaje automático, por sí solo, no es suficiente. A menudo necesita estar envuelto en una experiencia intuitiva centrada en el usuario e integrado en los flujos de trabajo, con el uso del pensamiento de diseño y con empleados de primera línea para estimular la adopción.

Un gran modelo de aprendizaje automático, por sí solo, no es suficiente. A menudo necesita envolverse en una experiencia intuitiva centrada en el usuario e integrado en los flujos de trabajo.

Los algoritmos de aprendizaje automático son propensos al rechazo por las mismas razones que ofrecen grandes resultados. Es decir, pueden generar información precisa pero contraintuitiva debido al gran número de variables y datos que utilizan. Van en contra del grano de la heurística tradicional. Desafían las formas en que se han hecho las cosas tradicionalmente. Y a menudo requieren que la gente abandone herramientas y métodos familiares.

Por lo tanto, es fundamental planificar e incorporar enfoques para alentar la adopción desde el primer día. Estos podrían incluir llevar a los usuarios objetivo al proceso de desarrollo de un modelo desde el principio, o al menos solicitar revisiones y aportaciones frecuentes en el camino. También podría incluir el diseño de una forma sencilla de entregar y consumir los conocimientos del modelo. Considere una organización que implementó con éxito modelos de análisis avanzados. La respuesta a la adopción en esta organización fue positiva porque los usuarios finales estaban entusiasmados con los conocimientos, pero aún más entusiasmados con la interfaz de usuario intuitiva. La interfaz consolidó fuentes dispares de datos, incluidas las fuentes en papel, en una solución front-end fácil de usar. Debido a que su trabajo se volvió menos tedioso, las partes interesadas estaban ansiosas por usar tanto el análisis como la herramienta.

Si bien es importante, la adopción es donde los equipos de análisis típicos luchan, ya sea internamente en agencias del sector público o en asociaciones externas con proveedores. La adopción adecuada requiere experiencia de extremo a extremo, desde la articulación de casos de uso hasta el desarrollo de modelos, el desarrollo de herramientas (entrega de información) y, en última instancia, la gestión del cambio y el despliegue operativo. La necesidad de estas habilidades y conocimientos multifuncionales hace que esta última milla a menudo sea la más desafiante.

A veces, en la prisa por emplear IA, es fácil ignorar las limitaciones y riesgos asociados con los algoritmos. La buena noticia es que estas limitaciones se pueden entender, gestionar y mitigar según sea necesario.