Desenvolvimento e resultados

A Análise Fatorial por Componentes Principais (PCA) configura-se em técnica exploratória que lida com variáveis MÉTRICAS que possuem, entre si, consideráveis valores de correlação, a fim de se estabelecer nova(s) variável(is) que capture(m) o comportamento conjunto das variáveis originais. Essas variáveis têm o nome de Fator.

Logo, temos 2 condições para se usar o PCA:

  1. As variáveis devem ser métricas;
  1. Elas devem ter um alto grau de correlação entre si.

Pesquisadores da Universidade de Leeds, Inglaterra, realizaram uma meta-análise com 93 estudos sobre o impacto do transporte sobre empregos com título Does transport help people to gain employment? A systematic review and meta-analysis of the empirical evidence[1], encontraram 17 estudos que associaram acesso ao transporte público e probabilidade de empregabilidade.

A meta-regressão realizada no estudo encontrou forte correlação em possuir um automóvel e empregabilidade, especialmente for a dos EUA. O acesso mais próximo de estações de transporte público resultou em maiores vantagens competitivas para jovens e mulheres.

A tabela abaixo demonstra as variáveis por bairros da cidade do Rio de Janeiro obtidos no site DATA.RIO: rendas domiciliares por família e per capita obtida (Tabela 875 do IBGE), os estabelecimentos comerciais e empregos gerados pelas 5 principais atividades econômicas que geram mais empregos como comércio, serviços privados e serviços públicos (Tabela 2843 do IBGE):

BairroRegião AdministrativaRenda2024capitaRenda2024Massa salarial 2021CNPJ2016Empregos2016
AboliçãoMéier R$                  2.268,18 R$     6.511,61 R$                4.037.911,96  
AcariPavuna R$                     945,06 R$     2.970,25 R$                3.336.519,28  
Alto da Boa VistaTijuca R$                  5.044,05 R$   13.288,92 R$                4.509.415,39  
AnchietaAnchieta R$                  1.128,52 R$     3.451,24 R$              13.931.474,321881490
AndaraiVila Isabel R$                  3.878,05 R$   10.432,50 R$              20.091.529,51  
AnilJacarepaguá R$                  2.123,44 R$     6.308,21 R$                7.651.343,18  
BancariosIlha do Governador R$                  2.242,26 R$     6.594,79 R$                   613.403,30  
BanguBangu R$                  1.118,10 R$     3.473,78 R$              46.688.015,94189419262
Barra da TijucaBarra da Tijuca R$                  6.284,67 R$   17.600,10 R$            572.263.763,26  
BenficaSão Cristovão R$                  1.231,19 R$     3.729,85 R$              26.864.349,2860112073
Bento RibeiroMadureira R$                  1.453,91 R$     4.339,74 R$                4.604.070,312411740
BonsucessoRamos R$                  1.495,11 R$     4.450,52 R$              83.360.810,97143229791
BotafogoBotafogo R$                  6.373,24 R$   14.667,09 R$            584.513.879,16  
Bras de PinaPenha R$                  1.361,62 R$     4.245,07 R$                4.045.621,602291478
CachambiMéier R$                  2.268,18 R$     6.511,61 R$                6.604.794,35  
CacuiaIlha do Governador R$                  2.242,26 R$     6.594,79 R$                4.886.318,42  
CajuPortuária R$                     845,85 R$     2.597,67 R$              28.059.057,13  
CampinhoMadureira R$                  1.453,91 R$     4.339,74 R$                7.252.678,37  
Campo GrandeCampo Grande R$                  1.252,90 R$     3.948,69 R$            157.108.887,56403744483
CascaduraMadureira R$                  1.453,91 R$     4.339,74 R$              17.605.484,465935502
CateteBotafogo R$                  6.373,24 R$   14.667,09 R$              18.429.618,18  
CatumbiRio Comprido R$                  1.972,81 R$     5.895,91 R$                1.808.488,51  
CentroCentro R$                  2.572,35 R$     5.340,28 R$         3.007.140.816,6114492391986
Cidade de DeusCidade de Deus R$                     855,52 R$     2.733,85 R$                1.200.326,67  
Cidade UniversitariaIlha do Governador R$                  2.242,26 R$     6.594,79 R$            176.678.742,37  
Coelho NetoPavuna R$                     945,06 R$     2.970,25 R$              19.917.876,485739869
ColegioIrajá R$                  1.750,23 R$     5.133,82 R$                3.903.979,2497406
CopacabanaCopacabana R$                  6.046,06 R$   13.187,18 R$            117.559.121,32  
CordovilVigário Geral R$                  1.051,04 R$     3.354,07 R$              14.373.177,70  
CosmosCampo Grande R$                  1.252,90 R$     3.948,69 R$                3.903.979,241621221
CuricicaJacarepaguá R$                  2.123,44 R$     6.308,21 R$              55.333.839,80  
Del CastilhoInhaúma R$                  1.419,47 R$     4.235,99 R$              17.781.615,923245747
DeodoroRealengo R$                  1.419,47 R$     4.235,99 R$                3.045.935,2143301
EncantadoMéier R$                  2.268,18 R$     6.511,61 R$                1.812.120,62  
Engenho da RainhaInhaúma R$                  1.419,47 R$     4.235,99 R$                2.446.915,38  
Engenho de DentroMéier R$                  2.268,18 R$     6.511,61 R$              22.740.511,814735370
Engenho NovoMéier R$                  2.268,18 R$     6.511,61 R$              10.014.256,24  
EstacioRio Comprido R$                  1.972,81 R$     5.895,91 R$              15.726.952,90  
FlamengoBotafogo R$                  6.373,24 R$   14.667,09 R$              66.166.437,47  
Freguesia – JacarepaguaJacarepaguá R$                  2.123,44 R$     6.308,21 R$              47.642.071,44  
Freguesia – Ilha do GovernadorIlha do Governador R$                  2.242,26 R$     6.594,79 R$              10.450.307,38  
GaleaoIlha do Governador R$                  2.242,26 R$     6.594,79 R$              34.121.227,02  
GaveaLagoa R$                  9.513,25 R$   22.906,12 R$              73.562.690,49  
GloriaCentro R$                  2.572,35 R$     5.340,28 R$              73.546.244,72  
GrajauVila Isabel R$                  3.878,05 R$   10.432,50 R$                8.622.823,14  
GuadalupeAnchieta R$                  1.128,52 R$     3.451,24 R$                6.188.920,74  
GuaratibaGuaratiba R$                     923,06 R$     3.006,19 R$              20.530.561,13  
HigienopolisInhaúma R$                  1.419,47 R$     4.235,99 R$                6.795.499,14  
Honorio GurgelMadureira R$                  1.453,91 R$     4.339,74 R$                3.731.484,5641320
Humaita Botafogo R$                  6.373,24 R$   14.667,09 R$              22.054.424,993944499
InhaumaInhaúma R$                  1.419,47 R$     4.235,99 R$              76.797.292,10  
InhoaibaCampo Grande R$                  1.252,90 R$     3.948,69 R$                3.312.415,75130976
IpanemaLagoa R$                  9.513,25 R$   22.906,12 R$              83.199.203,12  
IrajaIrajá R$                  1.750,23 R$     5.133,82 R$              44.824.574,12  
ItanhangaBarra da Tijuca R$                  6.284,67 R$   17.600,10 R$                4.487.254,96  
JacareMéier R$                  2.268,18 R$     6.511,61 R$              13.085.017,57  
JacarepaguaJacarepaguá R$                  2.123,44 R$     6.308,21 R$            340.619.619,68  
Jardim BotanicoLagoa R$                  9.513,25 R$   22.906,12 R$              74.746.115,00  
Jardim CariocaIlha do Governador R$                  2.242,26 R$     6.594,79 R$                6.059.900,14  
Jardim GuanabaraIlha do Governador R$                  2.242,26 R$     6.594,79 R$              14.300.706,36  
Jardim SulacapRealengo R$                  1.419,47 R$     4.235,99 R$                4.925.312,25  
LagoaLagoa R$                  9.513,25 R$   22.906,12 R$            342.649.501,68  
LaranjeirasBotafogo R$                  6.373,24 R$   14.667,09 R$              57.113.319,84  
LeblonLagoa R$                  9.513,25 R$   22.906,12 R$              90.080.577,07  
Lins de VasconcelosMéier R$                  2.268,18 R$     6.511,61 R$              29.504.363,39  
MadureiraMadureira R$                  1.453,91 R$     4.339,74 R$            168.366.863,65195618893
Magalhaes BastosRealengo R$                  1.419,47 R$     4.235,99 R$                1.253.161,8972449
MangueiraSão Cristovão R$                  1.231,19 R$     3.729,85 R$                1.037.055,0028348
ManguinhosRamos R$                  1.495,11 R$     4.450,52 R$              96.497.067,1428911000
MaracanaVila Isabel R$                  3.878,05 R$   10.432,50 R$            223.253.515,187268764
Marechal HermesMadureira R$                  1.453,91 R$     4.339,74 R$              39.293.354,102532053
Maria da GracaInhaúma R$                  1.419,47 R$     4.235,99 R$                4.454.073,50  
MeierMéier R$                  2.268,18 R$     6.511,61 R$            196.668.148,59198113762
MoneroIlha do Governador R$                  2.242,26 R$     6.594,79 R$                2.601.730,85  
OlariaRamos R$                  1.495,11 R$     4.450,52 R$              21.608.035,505816467
Oswaldo CruzMadureira R$                  1.453,91 R$     4.339,74 R$                2.385.257,421531726
PacienciaSanta Cruz R$                     853,72 R$     2.783,35 R$                6.594.019,132792024
Padre MiguelBangu R$                  1.118,10 R$     3.473,78 R$                5.850.338,203152885
Parada de LucasVigário Geral R$                  1.051,04 R$     3.354,07 R$                9.073.114,761381564
PavunaPavuna R$                     945,06 R$     2.970,25 R$              70.253.138,03  
PechinchaJacarepaguá R$                  2.123,44 R$     6.308,21 R$              29.176.979,46  
Pedra de GuaratibaGuaratiba R$                     923,06 R$     3.006,19 R$                1.981.367,71  
PenhaPenha R$                  1.361,62 R$     4.245,07 R$            117.099.548,96  
Penha CircularPenha R$                  1.361,62 R$     4.245,07 R$              36.352.589,4477314516
PiedadeMéier R$                  2.268,18 R$     6.511,61 R$                7.081.916,993223961
PilaresMéier R$                  2.268,18 R$     6.511,61 R$              22.846.154,96  
PortuguesaIlha do Governador R$                  2.242,26 R$     6.594,79 R$                6.928.501,75  
Quintino BocaiuvaMadureira R$                  1.453,91 R$     4.339,74 R$              39.303.585,492238595
RamosRamos R$                  1.495,11 R$     4.450,52 R$            235.306.533,6180111621
RealengoRealengo R$                  1.419,47 R$     4.235,99 R$              36.292.856,708269915
Recreio dos BandeirantesBarra da Tijuca R$                  6.284,67 R$   17.600,10 R$              30.273.664,96  
RiachueloMéier R$                  2.268,18 R$     6.511,61 R$                6.066.144,141291220
RibeiraIlha do Governador R$                  2.242,26 R$     6.594,79 R$                7.610.023,76  
Rio CompridoRio Comprido R$                  1.972,81 R$     5.895,91 R$            635.678.983,42  
Rocha MirandaMadureira R$                  1.453,91 R$     4.339,74 R$                5.319.240,773332543
Santa CruzSanta Cruz R$                     853,72 R$     2.783,35 R$            127.351.397,03101315177
SantissimoCampo Grande R$                  1.252,90 R$     3.948,69 R$                2.546.880,02127811
Santo CristoPortuária R$                     845,85 R$     2.597,67 R$            265.376.117,02  
Sao ConradoLagoa R$                  9.513,25 R$   22.906,12 R$                8.292.270,68  
Sao CristovaoSão Cristóvão R$                  1.231,19 R$     3.729,85 R$            267.646.222,43127811
Senador CamaraBangu R$                  1.118,10 R$     3.473,78 R$                5.892.211,231942344
Senador VasconcelosCampo Grande R$                  1.252,90 R$     3.948,69 R$                2.482.454,421371058
SepetibaSanta Cruz R$                     853,72 R$     2.783,35 R$                2.558.707,85  
TanqueJacarepaguá R$                  2.123,44 R$     6.308,21 R$                8.701.230,23  
TaquaraJacarepaguá R$                  2.123,44 R$     6.308,21 R$              54.427.063,37  
TauaIlha do Governador R$                  2.242,26 R$     6.594,79 R$                2.634.399,71  
TijucaTijuca R$                  5.044,05 R$   13.288,92 R$            123.605.395,46  
Todos os SantosMéier R$                  2.268,18 R$     6.511,61 R$                3.931.092,93  
Tomas CoelhoInhaúma R$                  1.419,47 R$     4.235,99 R$                1.116.655,03  
TuriacuMadureira R$                  1.453,91 R$     4.339,74 R$                9.455.921,27  
UrcaBotafogo R$                  6.373,24 R$   14.667,09 R$                1.873.923,01  
Vargem GrandeBarra da Tijuca R$                  6.284,67 R$   17.600,10 R$                5.713.477,01  
Vaz LoboMadureira R$                  1.453,91 R$     4.339,74 R$                3.134.191,15  
Vicente de CarvalhoIrajá R$                  1.750,23 R$     5.133,82 R$                4.916.095,292402985
Vigario GeralVigário Geral R$                  1.051,04 R$     3.354,07 R$              50.336.087,762306952
Vila da PenhaIrajá R$                  1.750,23 R$     5.133,82 R$              14.472.436,97  
Vila IsabelVila Isabel R$                  3.878,05 R$   10.432,50 R$            271.909.105,27  
Vila ValqueireJacarepaguá R$                  2.123,44 R$     6.308,21 R$              15.168.040,28  
Vista AlegreIrajá R$                  1.750,23 R$     5.133,82 R$                3.757.322,10  
Praca da BandeiraTijuca R$                  5.044,05 R$   13.288,92 R$              17.094.193,35  
Praca SecaJacarepaguá R$                  2.123,44 R$     6.308,21 R$                5.655.016,03  

A Análise PCA é um método matemático usado para simplificar conjuntos de dados complexos. Ele encontra padrões identificando direções (chamadas de componentes principais) que capturam a maior variação nos dados.

Imagine que você tem uma tabela onde as linhas são genes e as colunas são amostras (uma típica matriz de dados RNA-seq). O PCA compacta esses dados de alta dimensão em menos variáveis Componentes Principais (PCs) para que possamos visualizar e compreender melhor os relacionamentos.

O resultado? Um gráfico PCA. Cada ponto representa uma amostra, e quanto mais próximos dois pontos estiverem, mais semelhantes serão seus perfis de expressão. Mas aqui está o problema: o gráfico PCA pode mudar com base em como você pré-processa seus dados.

Código Python para análise fatorial por Componentes Principais (PCA):

O código Python realiza as seguintes ações:

  1. Carrega dados:
  • Lê duas planilhas do arquivo Excel Supervia_PCA.xlsx: Posto_Empregos2021 e EstatSupervia.
  1. Seleciona colunas:
  • De Posto_Empregos2021: Renda2024, CNPJ2016, Soma de Empregos2016.
  • De EstatSupervia: colunas com “Média Mensal” no nome.
  1. Combina e limpa dados:
  • Concatena os dados selecionados em um DataFrame.
  • Remove linhas com valores ausentes.
  1. Padroniza e aplica PCA:
  • Padroniza os dados com StandardScaler.
  • Aplica Análise de Componentes Principais (PCA) usando sklearn.decomposition.PCA.
  1. Processa resultados:
  • Cria um DataFrame com os resultados do PCA (componentes principais, ex.: PC1, PC2).
  • Exibe a variância explicada por cada componente principal.
  • Cria um DataFrame com as cargas dos componentes (contribuição das variáveis originais).
  1. Salva resultados:
  • Exporta os resultados do PCA e as cargas para o arquivo Excel PCA_Results.xlsx em duas abas: PCA Results e PCA Loadings.

Resumo: O código carrega dados de empregos e estatísticas da Supervia, seleciona colunas relevantes, aplica PCA após padronização, exibe variâncias e cargas dos componentes, e salva os resultados em um arquivo Excel.

Variância explicada por componente principal:

PC1: 66.12%

PC2: 33.17%

PC3: 0.71%

Cargas dos Componentes Principais:

           Renda2024           CNPJ2016              Soma de Empregos2016

PC1   0.070718                0.705437                 0.705236

PC2   0.997488                -0.047148                -0.052863

PC3    -0.004041               0.707203                 -0.706999

  1. Carregamento dos Dados
    • Os dados são carregados de duas planilhas:
      • Posto_Empregos2021: Contém informações como renda, número de CNPJs e empregos.
      • EstatSupervia: Contém médias mensais relacionadas à Supervia.
    • Dados relevantes são selecionados, resultando em variáveis métricas (quantitativas e contínuas).
  2. Concatenação e Tratamento
    • As colunas selecionadas de ambas as tabelas são combinadas, formando um único DataFrame.
    • Linhas com valores ausentes (NaN) são removidas para evitar erros no cálculo.
  3. Padronização dos Dados
    • StandardScaler: Os dados são escalonados para média 0 e desvio padrão 1.
    • Padronizar é essencial na PCA porque variáveis com magnitudes diferentes poderiam influenciar mais os resultados.
  4. Aplicação da PCA
    • A PCA é aplicada ao conjunto de dados padronizados.
    • Os resultados incluem:
      • Componentes principais (PCs): Novas variáveis ortogonais que explicam a variância nos dados.
      • Variância explicada: Percentual de variância capturado por cada componente.
      • Cargas dos componentes: Contribuição de cada variável original em cada componente principal.
  5. Exportação dos Resultados
    • Os resultados são salvos em um arquivo Excel, contendo:
      • Resultados da PCA (valores de cada observação para os PCs).
      • Cargas dos componentes principais (relação entre variáveis originais e PCs).

Resultados e Interpretação

  1. Variância Explicada por Componente Principal
    • O código imprime a proporção da variância explicada por cada componente (ex.: PC1, PC2, etc.).
    • Se o PC1 explicar a maior parte da variância (ex.: > 50%), ele resume bem os dados originais.
    • A soma acumulada da variância explicada indica quantos componentes são necessários para capturar uma parcela significativa (ex.: 90%) da variância total.

Exemplo de interpretação:

yaml

Copiar código

Variância explicada por componente principal:

PC1: 62.5%

PC2: 18.3%

PC3: 10.1%

  1. PC1 captura 62,5% da variância, mostrando que ele sintetiza grande parte da informação.
  2. PC2 e PC3 explicam variâncias menores, mas ainda podem ser relevantes.

  1. Cargas dos Componentes Principais
    • As cargas indicam a contribuição de cada variável original em cada componente.
    • Valores altos (positivos ou negativos) mostram variáveis mais importantes para o respectivo PC.

Exemplo de saída das cargas:

markdown

Copiar código

Cargas dos Componentes Principais:

           Renda2024  CNPJ2016  Soma de Empregos2016  Média Mensal 1  …

PC1         0.65      0.72              0.18              0.10      …

PC2        -0.45      0.30             -0.78              0.12      …

PC3         0.12     -0.10              0.10              0.95      …

Interpretação:

  1. Para o PC1, variáveis como Renda2024 e CNPJ2016 têm altas cargas positivas, indicando forte contribuição.
  2. Para o PC2, a variável Soma de Empregos2016 contribui negativamente, enquanto outras têm menor influência.
  3. Para o PC3, Média Mensal 1 domina, sugerindo que captura aspectos independentes.

  1. Correlação entre as Variáveis
    • A PCA identifica correlações entre variáveis:
      • Variáveis que têm cargas semelhantes (e sinal igual) em um componente estão positivamente correlacionadas.
      • Variáveis com cargas de sinais opostos estão negativamente correlacionadas.
      • Componentes principais são ortogonais (não correlacionados entre si).

Exemplo de conclusão:

  1. Renda2024 e CNPJ2016 têm cargas altas e similares no PC1, indicando forte correlação positiva.
  2. Soma de Empregos2016 apresenta relação negativa no PC2, sugerindo que captura variabilidade distinta.

Conclusão

  1. São variáveis métricas?
    • Sim, as variáveis escolhidas (Renda2024, CNPJ2016, etc.) são quantitativas e contínuas, adequadas para PCA.
  2. Correlação entre variáveis?
    • Sim, a análise PCA indica correlação entre variáveis (representada pelas cargas nos componentes principais).
    • Variáveis com cargas altas e semelhantes em um componente principal estão correlacionadas.
  3. Redução de Dimensionalidade:
    • A PCA reduz a dimensionalidade, mantendo a maior parte da variância. Isso permite simplificar a análise sem perder muita informação.

Código Python para plotar um mapa de bairros com empregos que geram passageiros:

O código Python realiza as seguintes ações:

  1. Carrega dados:
  • Lê a planilha Posto_Empregos2021 do arquivo Excel Supervia_PCA.xlsx.
  • Carrega dados geográficos dos bairros do arquivo Limite_de_Bairros.geojson.
  1. Pré-processa dados de empregos:
  • Remove linhas com valores ausentes na coluna Soma de Empregos2016.
  • Converte Soma de Empregos2016 para numérico, tratando valores inválidos como NaN e removendo-os.
  1. Combina dados:
  • Une os dados geográficos dos bairros com os dados de empregos, combinando pela coluna nome (bairros) e Bairro (df_postos), usando um inner join.
  1. Cria o mapa:
  • Plota os bairros com uma escala de cores (turbo) baseada na coluna Soma de Empregos2016, com bordas pretas e transparência.
  • Adiciona um fundo de mapa (CartoDB.Positron) usando contextily.
  • Define título, rótulos de longitude e latitude, e ajusta o layout.
  1. Exibe o mapa:
  • Mostra o mapa gerado.

Resumo: O código carrega dados de empregos (2016) e geográficos de bairros, combina-os, e cria um mapa coroplético que visualiza a soma de empregos por bairro com uma escala de cores e fundo de mapa.

Conclusões:

É notável observar que os efeitos das mudanças do mercado de trabalho após a Pandemia de Covid-19 afetaram a utilização dos transportes coletivos nas grandes cidades do mundo, incluindo a região metropolitana do Rio de Janeiro. A queda da frequência de passageiros no Sistema ferroviário foi de 50% em relação aos níveis de utilização observados em 2016;

Os estudos acadêmicos indicam uma grande necessidade de melhor integração com os demais modais de transporte coletivos como ônibus e metrô;

Ao longo das décadas, as intervenções com dinheiro público dos gestores urbanos trouxeram maior conforto e segurança operacional nos trens urbanos da cidade do Rio de Janeiro, mas contribuíram para o déficit crescente nas contas do estado do Rio de Janeiro;

As médias observadas nos Ramais Belford Roxo e Vila Inhomirim indicam a necessidade de substituição do Modal de transporte para outro mais econômico e com um modelo de negócios atraente para a iniciativa privada;

A nossa proposta sobre a substituição dos trens e estações do Ramal Belford Roxo busca uma melhor segurança operacional, aumentar o número de passageiros atendidos, auxiliar na recuperação judicial da Concessionária de trens e uma alternativa viária para a ligação do Centro da cidade com regiões empobrecidas para promover sua revitalização;

Faz-se necessário um trabalho conjunto entre governo estadual, AGETRANSP e ANTT para avaliar alternativas e soluções de integração em diferentes modais de transporte na Região metropolitana do Rio de Janeiro.

Outra proposta que poderia ser estudada seria a duplicação da passagem férrea sobre a Avenida Francisco Bicalho para possibilitar maior fluxo de trens com segurança e menor tempo de viagens.


[1] Does transport help people to gain employment? A systematic review and meta-analysis of the empirical evidence – White Rose Research Online