Abstract:
El phishing es un tipo de ataque cibernético cuyo objetivo es engañar a los usuarios, generalmente a través de páginas webs aparentemente benignas. Actualmente, una de las formas más comunes de detectar estas páginas de phishing es mediante el análisis de su contenido. Esto implica analizar el texto de las páginas web y posteriormente examinar ese contenido con algoritmos de Deep Learning (DL). Según el estado del arte, el texto se introduce de forma secuencial en los algoritmos de DL, es decir, sin considerar el orden o el significado de las palabras. Este método, por lo tanto, ignora la riqueza semántica inherente a las relaciones entre las palabras. La innovación de este estudio propone un modelo que emplea el Procesamiento de Lenguaje Natural (NLP) y algoritmos Transformer de DL para detectar ataques de phishing basándose en el texto extraído de páginas webs sospechosas. En este trabajo, se utiliza la Metodología de Descubrimiento de Conocimiento en Bases de Datos (KDD) para realizar un análisis comparativo de cuatro modelos basados en la arquitectura Transformer, junto con NLP, para identificar ataques de phishing a partir del texto contenido en dichos ataques.