32 │
Volumen 13, Número 32, Enero-Abril 2020, pp. 27 - 40
En el paper (Aksu, Turgut, Üstebay, & Aydin, 2019),
se hace un estudio comparativo para la detección de
sitios de Phishing, entre varias técnicas tradicionales
de Machine Learning y la técnica Stacked Autoencoder
de Deep Learning. Como resultado, la técnica de DL
alcanzó la mejor tasa en la detección con una exactitud
del 80%, independientemente de la cantidad de datos
ingresados para entrenamiento. Antes de ser analizadas,
las URLs son traducidas al código ASCII. Además, hace
una determinación del porcentaje de incidencia de cada
característica en una página Phishing.
Un enfoque para detectar si una página es de falsa
o no, por medio de un mecanismo de Deep Learning
no supervisado, es el que se usa en (Zhao, Wang, Ma,
& Cheng, 2019). En este trabajo, los investigadores
usan gated recurrent neural networks (GRUs), la cual
es una variante de RNN. Una ventaja de este trabajo,
es que puede además identicar qué tipo de ataque
sobre URLs se está tratando de ejecutar. Es decir, en
puede clasicar esa URL en Legitima, SQL Injection,
XSS Attack, Sensitive File Attack, Directory Traversal,
u otro tipo de ataque.
En (Jiang et al., 2018), los autores proponen un
sistema de detección de URLs maliciosas, usando un
esquema de CNN basado en nivel de carácter. Luego de
usar este esquema, se realiza una comparación con otros
esquemas, sobre 1000 URLs, y se obtiene que: usando
un esquema de selección de características (Feature
Selection), se encontraron 282 fallos; usando CNN a
nivel de palabras, 158 fallos, mientras que, usando CNN
a nivel de caracteres, se detectaron 40 fallos.
En (Spaulding & Mohaisen, 2018), se propone
una solución que combate tanto a Phishing como a
ataques de DNS tal como DDoS. Así, se propone un
sistema llamado D-FENS el cual identica nombres de
dominio maliciosos en tiempo real. Este sistema corre
dentro de un servidor DNS. En lugar de identicar
características para ser aprovechadas en un sistema de
Machine Learning tradicional, se opta por un enfoque
de Deep Learning que aprende las características
automáticamente de los datos de entrada.
Todos los métodos seleccionados en esta sección,
dedicada sobre todo a la solución mediante la aplicación
de aprendizaje profundo son importantes, sin embargo,
se pueden revisar estos y más métodos especializados
en esta área, en el artículo realizado por (Benavides,
Fuertes, Sanchez, & Sanchez, 2019).
C. Métodos de detección no tradicionales
Un método poco común, es en el que se aplica la
detección directamente sobre el tráco en un DNS.
En (Pereira, Coleman, Yu, DeCock, & Nascimento,
2018), se combate principalmente las direcciones
URLs fraudulentas, generadas por medio de Domain
Generation Algorithms (DGAs), para esto, se propone
la utilización de una herramienta denominada
WordGraph, con la que se pueden generar diccionarios
similares a los utilizados por los DGAs.
En los métodos propuestos en el paper (Rao &
Pais, 2018), no se evalúa ninguno de los métodos de
Machine Learning tradicionales, pero si se realiza un
estudio comparativo exhaustivo de la exactitud de estos
métodos. Sin embargo, incluimos este artículo, porque
explica a detalle las diferentes características que
pueden ser extraídas de un sitio engañoso.
Por medio de DeepSeq (Sur, 2018), se trata de
obtener el DNA o el perl característicos de las personas
que comúnmente son propensos a ser Phishers. Para
esto, en base a los logs obtenidos, se compara los datos
intrínsecos de las personas (Edad, Sexo, Ocupación,
etc), versus los datos de los sitios que se visitan
(negocios, arte, social media, etc). Finalmente, luego de
realizar un análisis por medio de DNN, se obtiene un
perl tipo DNA.
En el trabajo propuesto en (Vrbančič, Fister, &
Podgorelec, 2018), los investigadores proponen el
método TDLBA o TDLHBA (Tuning Deep Learning
using Bat/Hybrid Bat Algorithm). Este método
combina los enfoques de inteligencia de enjambre para
la conguración de los parámetros de las redes de Deep
Learning. La principal ventaja del método según los
autores, es la facilidad del uso con varias topologías
Feed Forward Neural Netwoks y diferentes conjuntos
de datos.
Un último método poco tradicional estudiado,
para detectar ataques de Phishing, es el utilizado en
(Rodríguez, Benavides, Torres, Flores, & Fuertes, 2018),
en el cual los autores proponen la utilización de un
modelo de conanza, a través del robo de la información
almacenada en las cookies de los navegadores web. Esta
información es recolectada y posteriormente enseñada
a los mismos usuarios, para mostrarles lo vulnerables
que pueden ser al permitir que se almacene información
sensible de ellos en las cookies.