El futuro del aprendizaje automático en la ciberseguridad
El aprendizaje automático ya es moneda corriente hoy en día en casi todos los sectores de las TI. Aunque se ha utilizado normalmente para dar sentido al big data —concretamente, para hacer predicciones y mejorar el rendimiento y los procesos—, también ha demostrado ser muy útil en otros ámbitos, como el de la ciberseguridad. En este artículo se explican las razones por las que el aprendizaje automático ha cobrado tanto protagonismo en el ámbito de la ciberseguridad, se abordan algunos de los problemas que rodean a esta aplicación concreta de la tecnología y se describe todo lo que nos puede deparar el futuro en este campo.
Por qué el aprendizaje automático se ha vuelto esencial para la ciberseguridad
La necesidad del aprendizaje automático tiene que ver con la complejidad. Actualmente, las organizaciones cada vez tienen más dispositivos del Internet de las cosas (IdC) que en ocasiones no están gestionados por el departamento informático o escapan a su control. Los entornos híbridos y de varias nubes están a la orden del día, y no todos los datos y aplicaciones se ejecutan de forma local. La mayoría de los usuarios ya no se encuentran en la oficina porque el teletrabajo está ampliamente aceptado.
No hace mucho tiempo, las empresas confiaban en la detección de malware basada en firmas, en las reglas estáticas de los cortafuegos para el tráfico de red y en las listas de control de acceso (ACL, por sus siglas en inglés) para definir las políticas de seguridad. En un mundo con más dispositivos que nunca y repartidos en un sinfín de ubicaciones, los antiguos métodos de detección de riesgos de seguridad no están a la altura del volumen, el alcance y la complejidad del panorama actual.
El aprendizaje automático consiste en entrenar modelos para que aprendan automáticamente a partir de grandes cantidades de datos. Gracias a este proceso, los sistemas pueden identificar tendencias, detectar anomalías, hacer recomendaciones y, en última instancia, ejecutar acciones. Para superar todos los obstáculos relacionados con la seguridad, las organizaciones necesitan recurrir al aprendizaje automático. Solo con esta tecnología pueden tomar las medidas necesarias en materia de ciberseguridad: ampliar las soluciones de seguridad, y detectar los ataques desconocidos y también los más sofisticados, como el malware polimórfico. Los programas maliciosos avanzados pueden cambiar de forma para eludir la detección, y con un sistema tradicional basado en firmas es muy difícil detectar este tipo de ataques. El aprendizaje automático está revelándose como la mejor solución para combatirlos.
Retos específicos que plantea el aprendizaje automático aplicado a la ciberseguridad
El aprendizaje automático es bien conocido y se ha implementado ampliamente en muchos ámbitos. Entre los más habituales cabe citar el reconocimiento de imágenes y el procesamiento del lenguaje natural, que ayuda a entender lo que dice un humano o un texto.
La ciberseguridad presenta diferencias en algunos aspectos con respecto a otros casos de uso del aprendizaje automático, puesto que el aprendizaje automático aplicado a la ciberseguridad tiene sus propios retos y requisitos. A continuación analizaremos tres retos especialmente asociados a la aplicación del aprendizaje automático a la ciberseguridad y otros tres que son habituales en otros ámbitos pero se agravan en el caso de la ciberseguridad.
Tres retos propios de la aplicación del aprendizaje automático a la ciberseguridad
Reto 1: necesidad de una precisión mucho mayor. Por ejemplo, si a la hora de procesar imágenes el sistema confunde un perro con un gato, no nos gustará, pero tampoco es un error que podamos considerar de vida o muerte. Si un sistema de aprendizaje automático confunde un paquete de datos fraudulento con uno legítimo, y esto deriva en un ataque contra un hospital, sus equipos e instrumentos médicos, este sí sería un error de consecuencias graves.
Cada día, grandes volúmenes de paquetes de datos atraviesan los cortafuegos de las organizaciones. Solo con que el aprendizaje automático clasifique erróneamente el 0,1 % de los datos, podríamos llegar a bloquear una enorme cantidad de tráfico, lo que podría afectar gravemente al negocio. En las primeras etapas del aprendizaje automático, a algunas organizaciones les preocupaba la posibilidad de que los modelos no fueran tan precisos como los investigadores de seguridad humanos, lo que tiene su lógica. Además de tiempo, se necesita una ingente cantidad de datos para entrenar un modelo de aprendizaje automático y conseguir el mismo nivel de precisión que el que logra un humano altamente cualificado. El problema es que los humanos no se pueden redimensionar y se encuentran entre los recursos más escasos de las TI en la actualidad. Por eso recurrimos al aprendizaje automático: para redimensionar con eficacia las soluciones de ciberseguridad. Además, el aprendizaje automático puede ayudarnos a detectar ataques desconocidos que son difíciles de reconocer para un humano, ya que esta tecnología crea comportamientos de referencia y detecta cualquier anomalía.
Reto 2: el acceso a una gran cantidad de datos de entrenamiento, especialmente de datos etiquetados. El aprendizaje automático requiere una gran cantidad de datos para aumentar la precisión de los modelos y predicciones. Obtener muestras de malware es mucho más difícil que adquirir datos a través del procesamiento de imágenes y el procesamiento del lenguaje natural. No existen datos suficientes sobre ataques, y muchos datos sobre riesgos de seguridad son confidenciales y no se hacen públicos por cuestiones de privacidad.
Reto 3: la verdad fundamental. A diferencia de lo que ocurre con las imágenes, en ciberseguridad la verdad fundamental no siempre está disponible ni es fija. La ciberseguridad es dinámica y cambia constantemente. Ninguna base de datos de malware puede pretender abarcar todo el malware del mundo y a cada momento se generan nuevas amenazas. ¿Con qué verdad fundamental debemos compararnos para determinar nuestra precisión?
Tres retos del aprendizaje automático que son especialmente graves en el ámbito de la ciberseguridad
Hay otras dificultades asociadas al aprendizaje automático que son habituales en todos los sectores, pero que en ciberseguridad cobran especial gravedad.
Reto 1: explicabilidad de los modelos de aprendizaje automático. Tener un conocimiento exhaustivo de los resultados del aprendizaje automático es crucial para saber cómo proceder.
Reto 2: escasez de profesionales. Para aplicar con eficacia el aprendizaje automático en un determinado campo, debemos combinar la experiencia en aprendizaje automático con el conocimiento de ese campo en particular. Si ya escasean los profesionales con experiencia en aprendizaje automático o en seguridad por separado, no hablemos ya de los expertos especializados en ambas áreas. Ahí es donde nos damos cuenta de que es fundamental que los científicos de datos del aprendizaje automático colaboren con los investigadores de seguridad, aunque no hablen el mismo idioma, utilicen metodologías diferentes y tengan formas de pensar y enfoques distintos. Es muy importante que aprendan a trabajar juntos. La colaboración entre ambos grupos es la clave para aplicar con éxito el aprendizaje automático a la ciberseguridad.
Reto 3: seguridad del aprendizaje automático. Teniendo en cuenta lo importante que es la ciberseguridad para un negocio, es esencial que nuestra forma de aplicar el aprendizaje automático en este ámbito sea segura en sí misma. Este aspecto se ha investigado en el ámbito académico y nos satisface constatar laevolución del sector para proteger los modelos y datos del aprendizaje automático, así como contribuir a ella. Palo Alto Networks impulsa la innovación y hace todo lo posible para garantizar la seguridad de nuestro aprendizaje automático.
El objetivo de este es hacer que la seguridad sea más eficiente y escalable para ahorrar en mano de obra y prevenir ataques desconocidos. Controlar miles de millones de dispositivos a mano solo con intervención humana es complicado, pero con el aprendizaje automático se puede hacer fácilmente. Ese es el tipo de escalabilidad que realmente necesitan las organizaciones para protegerse del creciente número de amenazas. El aprendizaje automático también es vital para detectar ataques desconocidos en muchas infraestructuras esenciales. No podemos permitirnos ni un solo ataque que pueda poner en riesgo vidas humanas.
El aprendizaje automático es clave en el futuro de la ciberseguridad
El aprendizaje automático es un gran complemento para las soluciones modernas de ciberseguridad por varios motivos. Por separado, tanto el aprendizaje automático como la ciberseguridad son aspectos valiosos, pero combinarlos es determinante para definir una estrategia de seguridad eficaz en un mundo en que las amenazas cambian constantemente.
Identificación de dispositivos y creación de perfiles: las redes empresariales cada vez tienen más dispositivos conectados permanentemente y no es fácil para el departamento informático controlarlos todos. El aprendizaje automático ayuda a identificar los dispositivos presentes en la red y a crear perfiles basados en su tipología. Cada perfil determina las diferentes características y comportamientos de un determinado dispositivo.
Detección automatizada de anomalías: identificar rápidamente los comportamientos maliciosos conocidos mediante el aprendizaje automático contribuye en gran medida a garantizar la seguridad. Tras crear perfiles de los dispositivos y conocer las actividades habituales, el aprendizaje automático sabe qué es normal y qué no.
Detección de ataques de día cero: con la seguridad tradicional, una mala acción tiene que producirse al menos una vez para que sea identificada como tal. Así es como funciona la antigua detección de malware basada en firmas. El aprendizaje automático puede identificar eficazmente formas de malware y ataques hasta ese momento desconocidos para proteger las organizaciones de posibles ataques de día cero.
Información útil a gran escala: con los datos y las aplicaciones diseminados en muchas ubicaciones distintas, no es humanamente posible identificar las tendencias analizando un número ingente de dispositivos. El aprendizaje automático puede llegar donde los humanos no pueden, obteniendo información útil a gran escala por medio de la automatización.
Políticas recomendadas: la creación de políticas de seguridad suele ser un arduo proceso manual no exento de dificultades. Sabiendo los dispositivos con los que contamos y cuál es su comportamiento normal, el aprendizaje automático puede recomendarnos políticas para los dispositivos de seguridad, incluidos los cortafuegos. En lugar de tener que consultar manualmente diferentes listas de control de acceso discrepantes para distintos dispositivos y segmentos de la red, el aprendizaje automático puede hacer recomendaciones específicas que funcionan de forma automatizada
Con cada vez más dispositivos y amenazas en Internet, y con unos recursos humanos de seguridad escasos, solo el aprendizaje automático puede analizar situaciones complicadas a gran escala y ayudar a las organizaciones a hacer frente a los retos que plantea la ciberseguridad en los próximos años.