Metodologia de Estimação

 

Introdução

 

Existem muitas definições de Estatística (ver Cordeiro(1998)), aqui produziremos mais uma. É a arte com, pretensões científicas, de mostrar quanto erramos ao tentar contar ou medir coisas. Contar aqui pode ser tomado como sinônimo de Estimar como utilizaremos o conceito no que se segue.

Neste trabalho tentamos estimar ou contar coisas, pessoas, fatos, etc. que já foram contados estimados por outros ou a partir de dados estimados por outros. No jargão que passamos aos alunos, estamos trabalhando com Dados Secundários e, além disto Agregados. Isto nos leva a refletir sobre o que significam nossas estimativas.

 É com esta preocupação que apresentamos abaixo o significado de algumas variáveis, a forma como elas são estimadas e, quando possível, quanto podemos confiar nelas.

 

 

Parâmetros e Conceitos

 

Todas os parâmetros estimados para os diversos aspectos abordados para a Cidade do Recife (Renda, Idade e Educação, cujo significado empírico é dado abaixo) são aqueles vistos em livros introdutórios de Estatística Descritiva (e.g. Cordeiro(1998)). Entretanto, para o caso da variável renda, estimamos o Coeficiente de Gini, cujo significado, apesar de ser conhecido bastante de perto pelos economista, não é comum na maioria dos textos.

O Coeficiente de Gini (GC) é uma medida de dispersão amplamente utilizada para representar a extensão da desigualdade na distribuição de renda nas suas várias formas (pessoal, regional, funcional, etc). Para uma análise mais apurada de GC sugerimos a leitura, entre outros, de Atkinson, A.B.(1975), Sen, A.(1988) e Sen, A.(1972) citados na Bibliografia.

GC é uma medida de dispersão de uma distribuição. Sua aplicação à distribuição de renda e seu maior uso em relação a outras medidas (Desvio Padrão, Coeficiente de Variação, etc) deve-se ao fato de que ele se baseia na Diferença Relativa da Média (), que compara o valor da variável levando em conta todos os seus pares  como mostra sua fórmula abaixo:

O Coeficiente de Gini GC pode ser estimado como:

onde , representa a Média Aritmética da variável.

Outra maneira de apresentar GC, a qual foi usada nos cálculos dos parâmetros apresentados é aquela mostrada em Sen(1972):

 

para .

 

GC também é comumente definido através da Curva de Lorenz (ver Sen(1972) e Atkinson(1975)). Ele é definido como a razão da diferença entre a linha de igualdade absoluta (diagonal do retângulo abaixo) e a Curva de Lorenz (área verde na figura) para a região triangular abaixo da diagonal.

 

 

Como é bastante intuitivo, pelo gráfico, GC varia entre 0 e 1. Quando é 0 a Curva de Lorenz se confunde com a diagonal e teríamos igualdade absoluta de rendas, e seria 1 quando apenas um individuo ou classe abocanhasse 100% da renda.

Existem muitas outras formas de apresentação e fórmulas para GC e várias interpretações de seus valores, para indicar o bem-estar das pessoas envolvidas. Além da bibliografia mínima indicada, pode-se obter outras informações na Internet em qualquer mecanismo de busca pesquisando as palavras Desiqualdade , Renda, Gini (em inglês, income, inequality, Gini).

 

Para estimativa com a fórmula acima necessitamos dos postos(rank) para cada observação Y. Para dados individuais isto é muito simples de conseguir, pois apenas devemos ordenar as informações calcular o posto de cada uma multiplicando-o pelo valor no posto em ordem inversa. Quando as informações são agregadas como as que dispomos devemos calcular o posto para cada classe, considerando que o ponto médio da classe represente todos os indivíduos, ou seja, no caso da renda, todos os indivíduos recebam o mesmo valor representado pelo ponto médio da classe. Qualquer afastamento desta hipótese pelos dados reais provocará divergência entre nossas estimativas e aquelas que pudessem se feitas a partir dos micro-dados, dos quais não dispomos.

 

A fórmula utilizada para calcular os postos para diversas classes no uso da fórmula acima é a seguinte:

onde,

 

A fórmula acima poderia ser reproduzida da seguinte maneira:

 

onde os Y’s representam agora os pontos médios de cada classe. Esta forma foi utilizada para os cálculos do Coeficiente de Gini em nosso trabalho.

 

Foram utilizados os programas Microsoft Excel e SPSS nas manipulações de variáveis e estimativas das estatísticas. O nosso programa (ainda na sua fase de avaliação) PlanUrban 2.0 estima o Coeficiente de Gini com outro algoritmo, a partir de dados não agregados.

 

Significado Empírico da Variáveis

 

Esta seção é importante para verificar o que estamos realmente fazendo. Quando falamos em renda, população ou educação de uma forma geral, basta lidarmos com um conceito, e como idéia ela pode se tornar quase perfeita. Quando passamos a verificar na realidade aquilo que pensamos o que significa, a tarefa não é das mais fáceis. Quando passamos a medir coisas temos que concordar com a definição de estatística dada acima e partir para usar o que aprendemos da melhor maneira possível com a certeza que a realidade nos permite. Com isto em mente, vamos ao que medimos ou foi medido por outros.

 

Renda

 

Quando falamos em Renda em nossa estimativas, ela se refere àquilo que IBGE chama de classes de rendimento das pessoas responsáveis pelos domicílios particulares permanentes na Cidade do Recife na época do Censo 2000. Estas classes são fornecidas em Salários Mínimos que foi tomado como R$ 151,00 (Cento e cinqüenta e um reais). Como podemos ver nas tabelas, as pessoas que se declararam sem rendimento foram incluídas nas estimativas. Um bom exercício para os estudantes seria reestimar as variáveis dando a estas pessoas, com renda zero, algum dinheiro (Bolsa Escola? Fome Zero?).

 

Idade

 

A variável idade se refere à população residente por grupo de idade obtida pelo Censo 2000 do IBGE. As estimativas sofrem das restrições citadas para variável renda quanto à agregação e acrescenta-se aqui o problema que pode ser gerado pela hipótese de adoção do último intervalo das classes de uma forma um pouco arbitrária. (Sem os micro dados esta é uma das saídas. Outra seria abandonar a classe).

Consideramos o ponto médio da última classe de 82 anos, isto é, supusemos que todos os indivíduos acima de 80 anos tem 82 anos. Se a média for muito maior do que isto, haverá problemas com as estimativas. Um bom exercício para o estudante seria modificar este valor e estimar os parâmetros outra vez.

 

Educação

 

Neste caso as informações referem-se aos responsáveis pelos domicílios permanentes quantos aos anos de estudo que estes tiveram pelo Censo 2000 do IBGE. Todas as restrições apontadas anteriormente aplicam-se a esta variável.

 

Finalmente

 

Para verificar o significado empírico mais preciso recomenda-se a puclicação do IBGE citada na bibliografia.

O trabalho terá continuidade brevemente com a publicação das estimativas para Micro-Regiões e Bairros. Aguardem!