A validação reproduz uma situação real de decisão: calcula o score usando apenas as informações disponíveis em determinado momento e observa o que aconteceu com a situação fiscal do município no período seguinte.
Assim, o teste não pergunta se o modelo consegue explicar um passado que já conhece. Ele verifica se notas mais baixas realmente antecedem uma concentração maior de sinais de pressão financeira.
A amostra reúne municípios das 27 unidades federativas. O evento observado é a persistência de obrigações liquidadas e não pagas em proporção relevante da receita do município.
O que é testado
O teste avalia se o score ordena corretamente municípios com níveis diferentes de pressão fiscal. Em termos práticos, verifica se as faixas de maior risco concentram mais eventos de obrigações acumuladas no período seguinte.
A leitura é feita no tempo: dados de um período produzem a nota, e o período posterior mostra o desfecho. Esse desenho reduz o risco de confundir explicação retrospectiva com capacidade de antecipação.
Como medimos o desempenho
A principal medida é a AUC-ROC, que mostra a capacidade do score de ordenar municípios com e sem o evento observado. Quanto mais próximo de 1, maior a separação entre esses dois grupos. Mas esse número isolado não é suficiente para avaliar a qualidade do resultado.
Também verificamos se a piora da nota acompanha o aumento da pressão fiscal, se os eventos se concentram nas faixas de maior risco e se o comportamento permanece consistente entre regiões. Por fim, repetimos o teste sem um dos indicadores mais influentes para entender quanto o desempenho depende de um único sinal.
Gradiente por Classe de Risco
Se as faixas representam diferenças reais, a frequência do evento deve crescer conforme o risco aumenta. O gráfico compara a classificação calculada em um período com o que foi observado no período seguinte.
Desempenho por Região
O recorte regional mostra onde o modelo separa melhor os casos e onde enfrenta maior dificuldade. Diferenças entre regiões importam e não devem desaparecer atrás de uma única média nacional.
| Região | Observações | Eventos observados | Frequência | AUC-ROC | Nota Média do Score |
|---|---|---|---|---|---|
| Sul | 3.117 | 50 | 1,6% | 0,861 | 70,8 |
| Centro-Oeste | 1.583 | 39 | 2,5% | 0,815 | 66,0 |
| Sudeste | 5.167 | 340 | 6,6% | 0,809 | 69,2 |
| Norte | 1.484 | 207 | 13,9% | 0,806 | 60,2 |
| Nordeste | 5.897 | 1.039 | 17,6% | 0,725 | 60,1 |
Quanto o resultado depende de um único indicador?
O histórico de obrigações acumuladas é um sinal importante e poderia, sozinho, explicar parte relevante do desempenho. Para medir essa dependência, a validação recalcula os resultados sem esse indicador.
O teste não substitui o modelo completo. Ele mostra se as demais dimensões — como liquidez e execução orçamentária — ainda preservam capacidade de diferenciar os níveis de risco.
Teste de sensibilidade: sem o histórico de obrigações acumuladas, a AUC-ROC foi de 0,763. A queda confirma a importância desse indicador, enquanto o desempenho restante mostra que a classificação não depende exclusivamente dele.
Validação é um processo contínuo
A validação não encerra o trabalho. Novos períodos fiscais, mudanças nas fontes e diferenças entre esferas exigem novos testes. A cada atualização relevante, o modelo volta a ser avaliado com separação temporal, cobertura documentada e análise dos casos em que erra.