Implementación de un método de clasificación de minería de datos para detectar páginas web de tipo phishing
Fecha
2020Autor(es)
Maguiña Maza, Jean Carlos
Soto Calderón, José Luis
Metadatos
Mostrar el registro completo del ítemResumen
En Latinoamérica, el uso de plataformas virtuales no tenía mayor relevancia que
los canales tradicionales. Sin embargo, con la problemática mundial respecto al
COVID-19, y el confinamiento, que casi la mayoría de países adoptaron, el canal
virtual tuvo un incremento exponencial nunca antes visto, y con ello también la
ciberdelincuencia. En la actualidad, una de las estafas online más utilizada es el
Phishing, páginas idénticas que se construyen para engañar al usuario, y obtener
información personal sensible, suplantarlos y robar su dinero o extorsionarlos. Por
consiguiente, desde hace un buen tiempo, se vienen desarrollando herramientas
para poder combatir el Phishing, mismas que parten por reconocer patrones que
logren caracterizar la página web como fraudulenta. Sin embargo, así como
evolucionan las técnicas anti-phishing, también evolucionan las técnicas de
suplantación. Por lo que los métodos de detección pierden vigencia, y ya no
detectan correctamente. Es por ello, que el presente trabajo implementa un método
de detección de páginas web utilizando minería de datos, con base en un análisis
teórico de la literatura y la selección de los 3 mejores métodos con una excelente
precisión. Así como también, la selección de los 32 atributos más utilizados en los
10 mejores métodos de clasificación de páginas web de tipo Phishing. El resultado
muestra cifras muy positivas, que además se han puesto a prueba con las 3 mejores
técnicas de la actualidad que son AdaBoost, SVM y XGBoost, los mismos que han
logrado una precisión de 94%, 95% y 99% respectivamente. Además, el consumo
de recursos de los 3 clasificadores mencionados fue en CPU: AdaBoost 43.17%,
SVM 15.5% y XGBoost 21.71%. Con respecto a la RAM: AdaBoost consumió
409MB, SVM 17.64MB y XGBoost 4MB. En tal sentido, XGBoost ha tenido un
desempeño sobresaliente en su técnica, por formar grupos de datos bien definidos
usando técnicas de dimensionamiento y con clasificadores simples, y además con
un eficiente uso de recursos computacionales.
Materias
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: