Mitigando vieses em sistemas de análise facial por meio da incorporação de diversidade de rótulos / Instituto Kunumi

Mitigando vieses em sistemas de análise facial por meio da incorporação de diversidade de rótulos

Kunumi

15 min

Mitigando vieses em sistemas de análise facial por meio da incorporação de diversidade de rótulos

Sistemas de reconhecimento facial também aprendem nossos preconceitos

A inteligência artificial já está no centro de decisões que moldam nossas vidas, do crédito que recebemos à forma como somos percebidos por sistemas de reconhecimento facial. Mas e quando esses sistemas reproduzem – ou até amplificam – nossos preconceitos sociais? Um dos terrenos mais espinhosos nesse debate é a análise facial automatizada, especialmente em tarefas subjetivas como avaliação de atratividade ou reconhecimento de expressões. Esse é o ponto de partida do estudo liderado por Camila Kolling, Victor Araujo, Adriano Veloso e Soraia Raupp Musse, que propõem uma nova maneira de treinar esses modelos para que sejam mais justos, sem sacrificar desempenho.

Eles partem de um problema conhecido, mas ainda pouco enfrentado de forma sistemática: a maioria dos modelos de IA treinados para analisar rostos é alimentada com rótulos humanos altamente subjetivos. A consequência é que essas anotações carregam os mesmos vieses presentes em quem rotula – e o modelo aprende isso. A inovação do trabalho está em sugerir um caminho que mistura dois mundos: juntar rótulos subjetivos, dados por humanos, com rótulos "objetivos", baseados em medidas geométricas do rosto. Em vez de tentar eliminar o viés da equação, a proposta é diversificar os rótulos.

Um espelho com mais de um reflexo

A proposta do estudo é elegante em sua simplicidade: e se, em vez de depender apenas do julgamento humano para rotular rostos, combinássemos isso com regras matemáticas sobre simetria facial, proporções áureas ou músculos ativados em uma expressão? Na prática, o artigo mostra que esse tipo de diversidade nos rótulos permite treinar modelos que são menos enviesados – por exemplo, que não classificam mulheres como mais sorridentes só porque têm batom – e ainda assim entregam bons resultados em tarefas como detectar sorrisos ou classificar pessoas como "atraentes".

Esse tipo de abordagem tem implicações profundas. Primeiro, porque rompe com a ideia de que só podemos mitigar viés atuando nos dados ou nos algoritmos. Aqui, os autores mostram que há um terceiro caminho: intervir nos próprios rótulos usados para treinar os modelos. Segundo, porque propõem uma forma prática de fazer isso, usando dados já disponíveis e técnicas de processamento geométrico acessíveis.

O impacto disso vai além da técnica. Ao questionar os próprios critérios usados para ensinar máquinas a julgar rostos humanos, o artigo nos convida a repensar as formas como produzimos verdade e autoridade com IA. Quem decide o que é um sorriso? Quem define o que é beleza?

Matemática, músculos e modelos

O método proposto envolve três etapas principais. Primeiro, os autores geram novas anotações para os dados, com base em características matemáticas do rosto (como simetria ou proporção áurea) e em ativação muscular (no caso das expressões faciais). Em seguida, treinam modelos separados com cada tipo de anotação: um modelo com rótulos humanos, outros com os rótulos objetivos. Por fim, combinam esses modelos em um ensemble, ou seja, uma votação ponderada entre eles para produzir uma predição final.

A intuição é clara: cada modelo enxerga o problema por um ângulo diferente. Ao combinar essas perspectivas, o sistema final deve ser mais robusto e menos enviesado. Essa diversidade de anotações funciona como uma forma de pluralismo computacional, onde diferentes noções de verdade coexistem e se equilibram.

Nos experimentos, os autores aplicam essa abordagem em duas tarefas desafiadoras: classificação de atratividade facial (usando o dataset CelebA) e reconhecimento de expressões faciais (usando os datasets ExpW e CFD). Em ambos os casos, os resultados mostram que os modelos treinados com rótulos diversos são significativamente mais justos, segundo métricas de equidade amplamente aceitas.

Testando beleza e sorriso com lentes diferentes

Beleza além do espelho

Para a tarefa de atratividade, os autores utilizam o CelebA, um dataset com mais de 200 mil imagens de celebridades, anotadas com diversos atributos faciais. Eles focam na classificação binária do atributo “attractive”, que já havia sido identificado como enviesado em estudos anteriores.

A primeira etapa foi gerar rótulos objetivos baseados em três critérios matemáticos: proporção áurea (ideal em 1.618), simetria facial (ideal em 0) e cânones neoclássicos (também idealizados como simétricos). Para cada métrica, eles definiram cinco faixas de tolerância e rotularam como "atraente" quem se encaixava nos critérios.

A diversidade entre homens e mulheres nesses rótulos é notável. Por exemplo, com o limiar 0.19 para a proporção áurea, 51% dos rostos foram rotulados como atraentes, com uma divisão de 33,4% homens e 66,6% mulheres. Já nos rótulos humanos do CelebA, a proporção era de 23,3% homens atraentes e 76,7% mulheres – evidenciando o viés.

Sorrisos sob outra ótica

Na tarefa de reconhecimento de expressões, o desafio era identificar se a pessoa estava feliz ou não, usando como base o Action Unit (AU), um sistema que mapeia os músculos faciais. A anotação objetiva foi feita com duas estratégias: uma que exige que todos os músculos esperados estejam ativados (ObjBase), e outra mais flexível, que compara o conjunto de músculos detectados com os típicos de cada emoção usando o algoritmo Longest Common Subsequence (ObjLCS).

Essas abordagens produzem distribuições muito diferentes. No método mais rígido (ObjBase), por exemplo, 25% das imagens foram rotuladas como felizes, com 64,8% de homens e 35,2% de mulheres. Já nas anotações humanas, 33,1% eram felizes, com 63,2% homens e 36,8% mulheres.

Essas diferenças nos rótulos têm impacto direto nos modelos treinados. Os modelos baseados nos rótulos objetivos (especialmente os LCS com limiar 0.3) apresentam desempenho competitivo e um ∆Disc (Calders-Verwer discrimination score) drasticamente menor que os modelos baseados em rótulos humanos.

Treinar separado, decidir junto

Uma vez treinados, os modelos foram combinados em ensembles. Os autores testaram milhares de combinações de pesos entre os modelos e analisaram quais delas conseguiam manter a acurácia alta e o viés baixo. Os resultados mostram que é possível obter modelos com acurácia de até 0.90 e ∆Disc de 0.006 (praticamente isento de viés), superando técnicas anteriores como AUC-FER, Uniform Confusion e Gradient Projection.

No caso da atratividade, o ensemble atingiu ∆EoO (Equality of Opportunity) de 0.05 com acurácia de 0.73, superando métodos como o Fairness GAN (com ∆EoO de 0.23 e acurácia de 0.73) e LSD (com ∆EoO de 0.20). E sem precisar gerar dados sintéticos, o que reduz complexidade e risco de ruído.

Esses resultados apontam para uma descoberta poderosa: combinar pontos de vista objetivos e subjetivos reduz viés mais do que qualquer abordagem isolada – e sem comprometer o desempenho do sistema.

Diversidade de rótulos como bússola ética

Mais do que propor um novo método técnico, o artigo nos convida a repensar como construímos nossos sistemas de IA. A decisão de incluir múltiplos tipos de anotação é também uma escolha ética: ela reconhece que nenhuma perspectiva sozinha é neutra ou suficiente. Ao incluir critérios geométricos junto aos julgamentos humanos, os autores constroem um sistema mais plural e menos propenso a repetir nossos preconceitos.

É importante destacar que os próprios autores reconhecem as limitações do método. Os rótulos objetivos são baseados em landmarks e medidas que nem sempre são confiáveis em poses laterais. Os dados usados também binarizam atributos como gênero e felicidade, o que não representa a diversidade real da experiência humana.

Mas ainda assim, a contribuição é valiosa. O trabalho mostra que, em vez de tentar "corrigir" o humano ou eliminar o viés por completo, podemos aprender a conviver com múltiplas perspectivas. A pluralidade não é um problema a ser resolvido, mas uma qualidade a ser cultivada.

Para quem quer entender como tornar sistemas de IA mais justos sem abrir mão de performance, a leitura completa do artigo é indispensável. Ele oferece não apenas um método, mas uma filosofia de projeto que valoriza a diversidade como parte central da inteligência.

Métricas de Avaliação em Machine Learning: Classificação

Kunumi

8 Min