Analizando Salarios de la EPH con R

 In Blogs

Este post fue publicado originalmente en Data Science Heroes por Pablo Seibelt

Introducción

El INDEC libera cada trimestre la base de datos de la Encuesta Permanente de Hogares, o EPH, la misma es una encuesta que se hace en hogares de todo el país y nos permite analizar estadísticamente a la población de nuestro pais. Desafortunadamente las encuestas realizadas entre 2007 y 2015 tienen muchos problemas metodologicos segun nos indican desde la pagina del INDEC, pero tenemos datos detallados desde 2016-2do trimestre en adelante.

Descargue los datos del tercer trimestre de 2018 (Es decir, Jul-Sep 2018) y arme un script en R para procesar los datos, investigando la fuente de datos vi que habia algunos datos que vienen de PDFs, la base de datos requiere bastante “masajeo” para analizarla, cree en base a los PDFs archivos CSV con los codigos de ocupaciones, y los c√≥digos de actividad del mercosur. Ambos archivos csv est√°n disponibles en el repositorio de este proyecto: https://github.com/sicarul/eph-salarios.

Algo importante a tener en cuenta es que el ritmo de la inflación desde que estos datos fueron capturados hace necesario leer los datos en forma relativa y no absoluta.

Aclaraciones de metodología

El análisis que hice se enfoca en el salario de la ocupación principal de las personas encuestadas, sin considerar el hogar al que forman parte, es decir, solo mire la base individuos. Seguro se pueden sacar otras cosas interesantes cruzando ambas tablas.

Para evitar analizar de la misma manera a alguien que trabaja 10 horas con alguien que trabaja 40 horas, voy a analizar el salario por hora, estimado en base a el salario mensual reportado y la cantidad de horas que trabajaron en la √ļltima semana, multiplicado por la cantidad de semanas promedio del a√Īo (30 / 7 =~ 4.28)

La edad

Analizando Salarios de la EPH con R

Usando la funci√≥n equal_freq de funModeling, separe a los individuos de por lo menos 18 a√Īos de edad, en 4 grupos de igual cantidad de miembros, de todas las personas con una ocupaci√≥n principal. Podemos ver c√≥mo a medida que pasa el tiempo, los salarios promedio por hora van aumentando, lo cual entiendo tiene que ver con los a√Īos de experiencia permitiendo acceder a cargos de mayor responsabilidad y paga.

En todos los casos en que vean estos gr√°ficos de cajas (box-plot) utilice la metodolog√≠a de los percentiles 2 y 98 para los “bigotes”. Esto significa que la l√≠nea negra dentro de la caja indica la mediana (el percentil 50), mientras que la caja en s√≠ delimita los cuartiles 2 y 3 (o percentiles 25 y 75), y los bigotes muestran como es el 2% inferior, y el 2% superior de la distribuci√≥n. Los datos han sido ponderados seg√ļn el valor PONDIIO incluido en la encuesta.

Analizando Salarios de la EPH con R

Si queremos analizar c√≥mo impacta el nivel de formalidad en los salarios, podemos ver algo muy interesante en los rangos de edad de 39 a√Īos en adelante; aquellos que entregan factura tienen un “techo” muchisimo mas alto que el resto, sin embargo su ingreso promedio es menor al resto.

También podemos ver que en todos los rangos etarios los mejores salarios promedio son de aquellos que reciben un recibo legal, es decir aquellos que están en blanco.

La edad y la ocupación

Analizando Salarios de la EPH con R

Se pueden hacer estos gr√°ficos con todas las ocupaciones, pero en este post decidi solo hacerlo para cuatro ocupaciones que elegi arbitrariamente, bajando el c√≥digo pueden ejecutarlo para todas las otras. Es llamativo como la edad modifica el salario de formas muy distintas seg√ļn la ocupaci√≥n.

Poniendo GPS al salario

Los mayores salarios del país se encuentran en el área de Ushuaia / Rio Grande, probablemente (Conjetura mia) por los beneficios impositivos que gozan los habitantes de esa zona. Por el otro lado, los peores salarios se encuentran en Santiago del estero.

Inactividad

Dentro de la EPH, hay una categor√≠a llamada “Inactividad”, separado de los desempleados, puede ser interesante entender c√≥mo se componen y comportan quienes est√°n clasificados en cada uno de los tipos de inactivos.

Analizando Salarios de la EPH con R

Podemos ver dentro de las categor√≠as de inactividad, cuantos de ellos buscaron trabajo en los √ļltimos 12 meses, seria util saber que significa el caso “Otros”, y no entiendo porque el bajo % de pensionados buscando trabajo (Obviamente no hablo de las ultimas dos categor√≠as de edad que deben ser en su mayor√≠a o totalidad jubilados).

Analizando Salarios de la EPH con R

Analizando los mismos datos por ubicación, hay algo llamativo acerca del porcentaje de gente buscando trabajo de los que están en inactividad, y es que el porcentaje es muy bajo tanto en Ushuaia como en Santiago del estero, los que ya vimos que son las areas de mayor y menor remuneración promedio del país.

En la ciudad el % también es bajo, sin embargo es más alto al mirar los partidos del gran buenos aires. Esto habría igual que tomarlo con pinzas ya que las muestras al desglosar tanto los datos son bastante chicas.

Cierre

Como mencione al principio, el código utilizado en R para analizar la EPH están en este proyecto de github: https://github.com/sicarul/eph-salarios.

Hay muchas cosas para analizar en este dataset, y ademas se puede ver la evolucion a traves del tiempo, espero que este código les sirva a otros que quieran analizar desde otras perspectivas al EPH. El código es de libre uso sin necesidad de citar fuentes.

Es la primera vez que analizo un dataset de encuestas del INDEC, así que cualquier error que vean en mi análisis les agradezco que me lo comenten para corregirlo, muchas gracias por leer!

Recommended Posts

Start typing and press Enter to search