El futuro de la analítica es un tema de debate que ha recibido más atención en los últimos meses. Esto se debe a la idea, respaldada en toda Europa, de que Google Analytics infringe la legislación GDPR. Países como Francia, Italia, Austria y, últimamente también, Finlandia y Noruega han declarado públicamente que Google Analytics es ilegal.
En su declaración, la autoridad francesa de protección de datos (CNIL) mencionó una lista de opciones que cumplen la normativa de privacidad para que las organizaciones las evalúen. Una de ellas es la implementación de Google Analytics en el servidor. La CNIL es una de las autoridades de privacidad más respetadas de Europa, por lo que su sugerencia atrajo la atención de las comunidades de privacidad y marketing, y llevó a algunos a creer que la implementación de Google Analytics en el servidor es una solución a prueba de balas para los problemas legales de Analytics con las transferencias de datos.
Sin embargo, la implementación del lado del servidor no está exenta de inconvenientes. En este blog, lo analizaremos en profundidad e intentaremos responder a dos preguntas:
¿Cumple la implementación del lado del servidor de Google Analytics con el GDPR? ¿Vale la pena implementarlo?
- ¿Qué es el seguimiento del lado del cliente y del lado del servidor?
- ¿Cuáles son las ventajas y desventajas del seguimiento del lado del servidor?
- ¿Es el lado del servidor la solución a los problemas legales de Google Analytics?
- ¿Qué datos deben anonimizarse?
- ¿Cómo funciona Google Analytics en el lado del servidor?
- ¿Garantiza realmente el cumplimiento la implementación de Google Analytics en el servidor?
- ¿Cuáles son las implicaciones para la privacidad de la analítica del lado del servidor?
- ¿Es necesaria la implementación en el servidor con alternativas respetuosas con la privacidad?
- Conclusiones
Entremos en materia.
¿Qué es el seguimiento del lado del cliente y del lado del servidor?
El seguimiento del lado del cliente y el seguimiento del lado del servidor son formas diferentes de recopilar y procesar datos sobre el comportamiento de los usuarios.
El seguimiento del lado del cliente (o etiquetado del lado del cliente) recopila información mediante secuencias de comandos que se ejecutan en el navegador del usuario, como cookies o píxeles. Por otro lado, el seguimiento del lado del servidor (o etiquetado del lado del servidor) recoge los datos del servidor registrando y analizando las solicitudes. Esto permite recopilar los datos sin interactuar con el dispositivo del usuario.
En el caso de Google Analytics, el seguimiento del lado del servidor es un poco diferente. Google Analytics sigue interactuando con el navegador del usuario escribiendo y leyendo cookies. Sin embargo, los datos que recopilan se envían al servidor en lugar de a Google. El administrador del servidor puede decidir qué datos se envían a Google y cómo. Así, el servidor actúa esencialmente como un proxy de los datos.
¿Cuáles son las ventajas y desventajas del seguimiento del lado del servidor?
El seguimiento del lado del servidor le ofrece un mayor control sobre la información que se envía a su proveedor de análisis, ya sea Google u otra empresa. Puede decidir si desea enviar datos personales y si desea anonimizarlos, seudonimizarlos o enviarlos de forma transparente.
La implementación en el servidor tiene otras ventajas. Su sitio se cargará un poco más rápido porque el navegador no necesita cargar el script de análisis. Esto mejora la experiencia del usuario y puede ayudar a la clasificación en los motores de búsqueda. Además, el software de bloqueo de anuncios no afecta negativamente a sus análisis porque ya no dependen de la interacción con la configuración del navegador del usuario (aunque las cookies de Google Analytics y otros servicios de análisis basados en cookies pueden seguir bloqueados).
El principal inconveniente de las configuraciones del lado del servidor es su engorrosa implementación. Hay que encontrar un servidor, si no se tiene ya, y mantenerlo a salvo de ciberamenazas. Tienes que configurar una interfaz de usuario para que los datos del registro del servidor sean legibles y encontrar una manera de filtrar el ruido de forma fiable, lo cual no es trivial. También hay que actualizar manualmente el código cada vez que se actualiza el software de análisis.
Además, necesita acceso completo al registro del servidor, algo que muchos proveedores de servidores no ofrecen. Esto reduce sus opciones si tiene la intención de confiar en un proveedor (que es la opción más asequible para muchas empresas).
En definitiva, configurar Google Analytics en el servidor le costará mucho más que suscribirse a un servicio de análisis web de pago que cumpla con el GDPR. De hecho, la propia CNIL señala que renunciar a Google Analytics puede ser una opción más práctica, debido a los costes de una configuración del lado del servidor.
Por último, cabe señalar que las cookies siguen requiriendo el consentimiento del usuario, incluso para el etiquetado del lado del servidor. Esto incluye Google Analytics y cualquier otro servicio de análisis basado en cookies.
Profundicemos un poco más.
¿Es el lado del servidor la solución a los problemas legales de Google Analytics?
Cualquier implementación de Google Analytics del lado del cliente envía datos personales a Estados Unidos. Este es el núcleo de los problemas legales de Google Analytics con las transferencias de datos (que ya tratamos en profundidad en otro blog).
La implementación del lado del servidor ofrece al administrador del servidor un control total sobre el procesamiento de datos y le permite decidir qué datos personales se envían a Google y cuáles no. En teoría, podría configurar Google Analytics del lado del servidor e impedir que Google acceda a los datos personales de los visitantes, lo que haría que Google Analytics cumpliera la normativa.
Pero, ¿cómo funciona esto en la práctica? ¿Qué datos no debe transmitir a Google para que Google Analytics cumpla el GDPR? ¿Y cuál es el coste en términos de rendimiento?
Los fundadores, Sergey Brin y Larry Page, escondidos detrás de internet
¿Qué datos deben anonimizarse?
Google Analytics envía dos categorías de datos personales a Estados Unidos: Direcciones IP y cookies. Las IP no son un gran problema porque Google Analytics no las necesita realmente; de hecho, Google Analytics 4 no las recopila y sólo las utiliza para la comunicación. Puede implementar Google Analytics en el servidor sin reenviar la IP del usuario a Google, con poco o ningún impacto en la precisión de los datos de Google Analytics.
Las cookies son otra historia. Las cookies de Google Analytics incluyen un identificador único denominado ID de cliente. Al igual que las IP, los ID de cliente son datos personales según el GDPR. Sin embargo, los identificadores deben enviarse de alguna manera porque Google Analytics se construye en torno a ellos.
Los identificadores únicos tampocopueden anonimizarse, al menos no en un sentido estricto de la palabra. Las cookies de Google Analytics funcionan porque son únicas, y eliminar su parte única (el ID de cliente) las hace perfectamente inútiles. Lo mejor que se puede hacer es convertirlas en hash, pero cada hash tiene que ser único para que sirva de algo, así que lo único que se hace es sustituir un identificador único por otro.
Como protección adicional, la CNIL sugiere cambiar periódicamente los hash. La autoridad considera que la rotación de los hash es una forma de seudonimización, algo que no llega a ser una anonimización propiamente dicha, pero que ofrece cierta protección a los datos. De hecho, el Consejo Europeo de Protección de Datos (la institución donde se sientan todas las autoridades europeas de protección de datos) menciona la seudonimización fuerte como una posible salvaguarda para las transferencias de datos. Pero hay que pagar un precio.
¿Cómo funciona Google Analytics en el lado del servidor?
Depende. Google Analytics basa su información en datos detallados sobre la actividad en línea de los visitantes del sitio web. Cuantos más datos se le proporcionen, mejor será su rendimiento. Si le proporcionas todos los datos que recopilaría en el lado del cliente, funcionará tan bien como una configuración en el lado del cliente (y posiblemente un poco mejor, ya que los bloqueadores de anuncios serán un problema menor). Por otra parte, esto hace que la implementación del lado del servidor sea tan invasiva como la del lado del cliente, lo que anula el propósito de implementar Google Analytics del lado del servidor en primer lugar. Por otro lado, ocultar algunos datos por motivos de privacidad afectará negativamente al rendimiento de la herramienta.
Los ID de cliente que hemos mencionado anteriormente permiten a Google realizar un seguimiento de los visitantes vinculando varios eventos, sesiones y páginas vistas a la misma persona. Por ejemplo, si accede al mismo sitio web dos veces, Google Analytics leerá su ID de cliente y sólo le contará una vez como visitante único.
Lamentablemente, Google Analytics no puede vincular las métricas a un visitante individual después de que se vuelva a leer su ID. Esto tiene un impacto significativo en la precisión y el nivel de detalle de los datos de Google Analytics. Por ejemplo, después de rotar los hash, los usuarios que vuelvan recibirán un nuevo hash y Google Analytics los volverá a contar como visitantes únicos, por lo que la métrica de visitantes únicos se esfumará.
¿Garantiza realmente el cumplimiento la implementación de Google Analytics en el servidor?
Supongamos que se decide. Se toma la molestia de implementar Google Analytics en el servidor. Sigue las sugerencias de la CNIL al pie de la letra: la única información personal que transmite su servidor son los ID de cliente con hash, y esos hash se rotan con frecuencia. ¿Cumple las normas de transferencia de datos del GDPR?
Puede que sí.
Como ya hemos explicado, los hashes rotados son datos seudonimizados. La seudonimización es buena porque hace improbable la identificación de los datos personales (es decir: dificulta averiguar a quién pertenecen los datos). Esta técnica la utilizan a veces los competidores de Google Analytics para preservar la privacidad; por ejemplo, Fathom y Plausible lo hacen (en Simple Analytics no necesitamos hash porque no almacenamos IP en absoluto).
Sin embargo, si una entidad controla muchos datos, podría agruparlos para identificar los datos seudonimizados. Es una técnica llamada fingerprinting.
Por ejemplo, si eres activo en Reddit, tu nombre de usuario de Reddit es probablemente un seudónimo ingenioso. Sin embargo, si publicas suficiente información sobre tu edad, trabajo, lugar de nacimiento, etc., con el tiempo será posible que otros usuarios de Reddit averigüen quién eres. (Sí, este ejemplo es demasiado simple, pero ya me entiendes).
Elentrecruzamiento de bases de datos es lo mismo, pero a mayor escala: alguien reúne grandes bases de datos y, con un poco de magia negra de la IA, a veces se pueden reidentificar datos seudónimos.
Entonces, ¿hasta qué punto están seguros los datos personales de tus visitantes una vez que los has hecho hash y los has reenviado a Google?
Pues bien, Google controla algunas de las mayores bases de datos de datos personales existentes. Puede confiar en unos conocimientos técnicos excepcionales y en la tecnología más avanzada. También tiene un fuerte incentivo para cruzar bases de datos porque la publicidad es su principal fuente de ingresos, y la elaboración de perfiles es donde está el verdadero dinero.
Aunque un visitante no sea identificable sólo por su hash actualizado, Google podría combinar estos datos con otros recogidos en otros lugares, por ejemplo, a través de la cuenta de Google del visitante, de las API de Google o de los rastreadores de publicidad de los dispositivos Android(AAID). Esto es probablemente suficiente para que muchos visitantes sean identificables. Esto, a su vez, significa que los hashes podrían seguir siendo datos personales según el GDPR aunque el servidor los rotule.
Para que quede claro: no estamos afirmando que Google reidentifique datos seudonimizados y anonimizados. Google dice que no lo hace. En nuestra opinión, el historial de privacidad de la empresa sugiere cierta cautela.
Tampoco afirmamos que los hash rotatorios sean datos personales en el caso que hemos descrito. Son los tribunales y las autoridades quienes deben determinarlo. Después de todo, en sus decisiones contra Google Analytics, algunas autoridades de protección de datos (incluida la propia CNIL) reconocieron que la cuestión de la identificación cruzada era relevante en los casos. Esta es una buena razón para ser cautelosos.
En resumen: no está claro si una implementación de Google Analytics en el servidor garantiza el cumplimiento de las normas del GDPR sobre transferencia de datos, incluso suponiendo que se tomen todas las precauciones posibles.
¿Cuáles son las implicaciones para la privacidad de la analítica del lado del servidor?
La analítica del lado del servidor tiene interesantes implicaciones para la privacidad. Sobre el papel, tiene el potencial de ser más respetuoso con la privacidad, ya que le permite decidir exactamente qué datos desea recopilar y si desea compartirlos.
Sin embargo, la recopilación de datos podría ser menos transparente. La analítica del lado del servidor le permite trabajar con datos personales directamente desde el registro de su servidor. Sus usuarios no tienen ni idea de que esto está ocurriendo porque no pueden abrir la configuración de su navegador y comprobar sus cookies.
En resumen, la transparencia es clave para una correcta implementación del seguimiento del lado del servidor. Los usuarios tienen derecho a ser informados de qué datos personales se procesan para la analítica web y sobre qué base legal. Aplicar la analítica de servidor de forma transparente y conforme a la normativa depende de usted.
La analítica de servidor también tiene implicaciones para el consentimiento. Como ya hemos explicado, las cookies de Google Analytics requieren consentimiento incluso cuando el software se implementa en el servidor. Lo mismo ocurre con cualquier software de análisis web que utilice cookies: todas las cookies no esenciales requieren consentimiento en virtud de la Directiva sobre la privacidad y las comunicaciones electrónicas, tanto si los análisis se implementan del lado del cliente como del lado del servidor.
El etiquetado del lado del servidor también permite recopilar otros datos sin interactuar con el navegador del usuario. Pero esto no significa que no necesite consentimiento.
Las cosas se ponen un poco complejas aquí, pero como regla general, si los datos que recopila le permiten identificar a un usuario entre todos sus visitantes, entonces sólo debe recopilar esos datos con consentimiento, ya que es muy probable que se requiera el consentimiento. Este es el caso incluso si no utiliza realmente estas métricas para identificar a los usuarios: el mero hecho de que le permitan hacerlo los convierte en datos personales y, con toda probabilidad, hace que el consentimiento sea obligatorio.
Por otra parte, puede recopilar algunas métricas sin consentimiento, siempre que no le permitan identificar a un usuario, aunque estén vinculadas a otras métricas. Por ejemplo, no hay nada malo en recoger interacciones de su servidor y utilizarlas para análisis, siempre que estos datos no le permitan seguir a los usuarios.
En resumen: si los datos le permiten realizar un seguimiento, vaya sobre seguro y pida consentimiento.
¿Es necesaria la implementación en el servidor con alternativas respetuosas con la privacidad?
Depende del servicio. En el caso de Google Analytics, la implementación del lado del servidor aborda cuestiones legales relacionadas con las normas de transferencia de datos. Si una alternativa respetuosa con la privacidad no envía datos personales a EE.UU., entonces no es necesaria una implementación del lado del servidor para cumplir con las normas de transferencia de datos.
Sin embargo, el análisis del lado del servidor ofrece otras ventajas para el cumplimiento de la normativa. Por ejemplo, puede permitirle redactar las direcciones IP antes de reenviarlas. Si está considerando una alternativa a Google Analytics, debe examinar detenidamente su documentación legal y considerar las posibles ventajas de la implementación del lado del servidor para ese servicio específico.
En el caso concreto de Simple Analytics, la implementación en el servidor no es necesaria, ya que no recopilamos ningún dato personal de sus visitantes ni los reenviamos fuera de la UE.
Conclusiones
En resumen:
- El envío de ID de cliente a Google de forma transparente o el uso de hashes estáticos equivalen en la práctica a la implementación de Google Analytics en el lado del cliente y no hacen que Google Analytics cumpla las normas de transferencia de datos;
- No enviar ID de cliente en absoluto hace que Google Analytics sea completamente inútil;
- rotar los hash paraliza el rendimiento de Google Analytics y sigue sin garantizar al 100% el cumplimiento de las normas de transferencia de datos, ya que el usuario podría seguir siendo identificable;
- Todas estas opciones son engorrosas de implementar.
En definitiva, la implementación de Google Analytics en el servidor no parece una solución viable. Resulta demasiado cara de implantar para las pequeñas empresas, hace que la herramienta funcione peor que la competencia y no garantiza plenamente que las transferencias de datos cumplan al 100% la normativa GDPR.
El quid de la cuestión es que Google Analytics no es una herramienta respetuosa con la privacidad. Está diseñada para recopilar información detallada mediante un seguimiento agresivo de los visitantes. Tratar de implementar Google Analytics de forma que respete la privacidad va en contra de su propio diseño. Por eso, hacerlo supone mucho trabajo y da malos resultados.
Obviamente, estamos sesgados hacia nuestra propia solución, pero cambiar a un servicio respetuoso con la privacidad es más fácil, más barato y conduce a un mejor rendimiento que la implementación de Google Analytics en el lado del servidor. En Simple Analytics, creemos en un Internet independiente que sea amigable con los visitantes del sitio web. Nos aseguramos de que los propietarios de sitios web puedan obtener la información que necesitan sin infringir la ley. Si está de acuerdo con esto, ¡pruébenos!