A validação reproduz uma situação real de decisão: calcula o score usando apenas as informações disponíveis em determinado momento e observa o que aconteceu com a situação fiscal do município no período seguinte.

Assim, o teste não pergunta se o modelo consegue explicar um passado que já conhece. Ele verifica se notas mais baixas realmente antecedem uma concentração maior de sinais de pressão financeira.

Municípios avaliados

5.134

Observações temporais

17.248

AUC-ROC

0,808

A amostra reúne municípios das 27 unidades federativas. O evento observado é a persistência de obrigações liquidadas e não pagas em proporção relevante da receita do município.

O que é testado

O teste avalia se o score ordena corretamente municípios com níveis diferentes de pressão fiscal. Em termos práticos, verifica se as faixas de maior risco concentram mais eventos de obrigações acumuladas no período seguinte.

A leitura é feita no tempo: dados de um período produzem a nota, e o período posterior mostra o desfecho. Esse desenho reduz o risco de confundir explicação retrospectiva com capacidade de antecipação.

Como medimos o desempenho

A principal medida é a AUC-ROC, que mostra a capacidade do score de ordenar municípios com e sem o evento observado. Quanto mais próximo de 1, maior a separação entre esses dois grupos. Mas esse número isolado não é suficiente para avaliar a qualidade do resultado.

Também verificamos se a piora da nota acompanha o aumento da pressão fiscal, se os eventos se concentram nas faixas de maior risco e se o comportamento permanece consistente entre regiões. Por fim, repetimos o teste sem um dos indicadores mais influentes para entender quanto o desempenho depende de um único sinal.

Gradiente por Classe de Risco

Se as faixas representam diferenças reais, a frequência do evento deve crescer conforme o risco aumenta. O gráfico compara a classificação calculada em um período com o que foi observado no período seguinte.

Frequência do evento no período seguinte

Risco Baixo

0,5%

Risco Médio

2,4%

Risco Alto

12,6%

Crítico

63,5%

Desempenho por Região

O recorte regional mostra onde o modelo separa melhor os casos e onde enfrenta maior dificuldade. Diferenças entre regiões importam e não devem desaparecer atrás de uma única média nacional.

Região	Observações	Eventos observados	Frequência	AUC-ROC	Nota Média do Score
Sul	3.117	50	1,6%	0,861	70,8
Centro-Oeste	1.583	39	2,5%	0,815	66,0
Sudeste	5.167	340	6,6%	0,809	69,2
Norte	1.484	207	13,9%	0,806	60,2
Nordeste	5.897	1.039	17,6%	0,725	60,1

Quanto o resultado depende de um único indicador?

O histórico de obrigações acumuladas é um sinal importante e poderia, sozinho, explicar parte relevante do desempenho. Para medir essa dependência, a validação recalcula os resultados sem esse indicador.

O teste não substitui o modelo completo. Ele mostra se as demais dimensões — como liquidez e execução orçamentária — ainda preservam capacidade de diferenciar os níveis de risco.

Teste de sensibilidade: sem o histórico de obrigações acumuladas, a AUC-ROC foi de 0,763. A queda confirma a importância desse indicador, enquanto o desempenho restante mostra que a classificação não depende exclusivamente dele.

Validação é um processo contínuo

A validação não encerra o trabalho. Novos períodos fiscais, mudanças nas fontes e diferenças entre esferas exigem novos testes. A cada atualização relevante, o modelo volta a ser avaliado com separação temporal, cobertura documentada e análise dos casos em que erra.

Consulte a metodologia do score