Comparación de técnicas de estimación basadas en machine learning para predecir costos en los planes de adquisiciones de las entidades públicas del Perú
Resumen
Las Entidades Públicas, cada año tienen la obligación de estimar los presupuestos
(en adelante costos), que permitirán la atención de las necesidades de bienes y
servicios que deben estar consignados en los planes de adquisiciones. Para tal fin,
el Ministerio de Economía y Finanzas (en adelante MEF) tiene la difícil tarea de
revisar, evaluar, aprobar y asignar los recursos que estime conveniente, respecto
de las propuestas presentadas por cada entidad pública. La problemática
presentada, nos lleva a la necesidad de identificar una técnica de aprendizaje
automático (Machine Learning), que permita facilitar el proceso de predicción de los
costos, con la finalidad de financiar los planes de adquisiciones de las diversas
Entidades Públicas del Perú, asimismo, a fin de resolver el problema expuesto, se
determinó el siguiente método de trabajo, iniciando con la identificación del dataset
de las contrataciones públicas, obtenido del portal web de datos abiertos de la
Organismo Supervisor de Contrataciones Estatales – OSCE, en segundo lugar se
procedió con la revisión de la literatura de artículos científicos que se relacionen
con la presente investigación para identificar los algoritmos más utilizados y los
resultados obtenidos para su implementación, en tercer lugar se priorizo la
implementación de los siguientes algoritmos de Regresión: a) Lineal Múltiple, b)
Arból de decisión, c) Bosque de aleatorio y d) Xgboots; y en cuarto lugar se llevaron
a cabo las pruebas del desempeño de las técnicas implementadas, obteniéndose
los siguientes resultados: en primer lugar, el modelo Regresión Lineal Múltiple con
los siguientes índices de error MAE=4.03E+06, MAPE=0.30.MSE=4.04E+13,
RMSE=6.36E+06 y un R2 = 0.79587, en segundo lugar, Random Forest con índices
de MAE=5.43E+06, MAPE=0.33, MSE=6.20E+12, RMSE=7.88E+06 y un R2 =
0.68666, en tercer lugar, XGboost con índices de MAE=5.97E+06, MAPE=0.34,
MSE=7.59E+13, RMSE=8.71E+06 y R2 = 0.61649 y en cuarto lugar, Árbol de
Decisiones con índices de MAE=6.16E+06, MAPE=0.40, MSE=1.03E+14,
RMSE=1.03E+14 y R2 = 0.53162, concluyéndose que el mejor desempeño lo
obtuvo el algoritmo de regresión lineal múltiple.
Materias
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: