Modelo de seguridad de plataforma Big Data
Se trata de la definición e implementación de un modelo global para una de las principales Instituciones Financieras españolas, que garantice la seguridad de acceso a los datos según las normativas que apliquen en cada área de las diferentes entidades del grupo, de una manera homogénea en todo el grupo empresarial. Esto implica la identificación de datos sensibles y diagnosticar su ubicación física, tratando de limitar su acceso sólo a aquellas personas consideradas como necesarias y como tal con privilegios de acceso a los mismos..
Con el propósito de la definición de los criterios de acceso adecuados se determinan las siguientes tipologías de datos:
- Claves personales que únicamente deben ser conocidas por el usuario
- Datos que permiten o habilitan el fraude por sí solos
- Datos sensibles por la naturaleza de poder producir impacto en la intimidad de la persona, y en sus derechos fundamentales, es necesaria una mayor protección
- Datos que permiten identificar de forma unívoca a una persona o entidad jurídica fuera de la Entidad
- Información que identifica al empleado en la organización
- Datos de uso interno, que en general son considerado como los otros ámbitos de datos no recogidos en los anteriores
Para dar cobertura a los criterios establecidos, se han determinado diferentes niveles de seguridad para:
- Objetos sin campos identificativos personales (sólo uso interno)
- Objetos con campos identificativos personales tratados (tokenizados)
- Objetos con campos identificativos personales sin tratar (en claro)
- Objetos de acceso restringido.
Disponibilizados para facilitar la implementación individual por área del proyectos las siguientes herramientas: etiquetador automático de campos existentes y de alta de nuevos basado en redes neuronales recursivas, clasificador de tablas del HDFS, compactador de ficheros físicos en las tablas, tokenización basada en los esquemas de información facilitados y un catálogo de entidades como repositorio común en el que se enlazan nombres de tablas con su ruta dentro del HDFS.
CASOS DE ÉXITO