Synthetic data: dados falsos e questões reais

Por Daniel Becker e Ludmilla Campos*

01/05/2023 | 04h30

Ninguém suporta mais ouvir sobre a importância dos dados pessoais para a economia. Mas e se o recurso mais valioso da atualidade, verdadeira matéria-prima para as roldanas da tecnologia e da inovação, pudesse ser produzido com baixo custo financeiro e regulatório? Isso já é possível por meio dos dados sintéticos – conceito datado de 1993, mas que apenas ganhou tangibilidade nos últimos anos.

Os dados sintéticos nada mais são do que dados artificiais, ou seja, informações com estrutura e propriedade idênticas a dados reais, mas com componentes fictícios. Essa categoria de dado é comumente gerada por meio de técnicas aplicadas por inteligências artificiais que, a partir de uma pequena amostra de dados reais, e, por meio de simulações, modelagem estatística etc., espelham o comportamento dos dados originais.

Amazon, Google e American Express são algumas empresas que utilizam os dados sintéticos em suas rotinas administrativas e criativas. A tão conhecida Alexa utiliza-se de datasets sintéticos para desenvolvimento do seu sistema de compreensão de linguagem natural: a partir de uma base fictícia de informações idiomáticas, a ferramenta da Amazon é capaz de treinar novos idiomas dispensando quaisquer interações com seres humanos.

Noutro exemplo, talvez mais palpável, é possível utilizar dados sintéticos para ajustar mecanismos de recomendação de produtos que possam ter sido descalibrados diante do lançamento de novas tecnologias e a obsolescência de produtos previamente comercializados. Essa dinâmica foi adotada na mudança de consumo de fones de ouvido com fio para as suas versões sem fio: quando os usuários modificaram seu padrão de uso de fones, todos os dados históricos relacionados aos fones com fio perderam o seu valor e os mecanismos de recomendação de produtos, que dependiam dos dados antigos para treinamento, tornaram-se desatualizados. Para recalcular o seu funcionamento, as empresas passaram a substituir estes dados históricos por dados sintéticos para treinar seus algoritmos sobre essa mudança de padrão de consumo.

Os dados sintéticos prometem transformar a economia nos próximos anos já que, ao replicar dados pessoais, com baixos custos de transação, desafogam uma demanda de indústrias famintas por essa matéria prima.

Os dados sintéticos ou “dados falsos” têm a capacidade de contornar problemas de escassez e de falta de diversidade informacional enfrentada, especialmente, nos treinamentos e condicionamentos de algoritmos de aprendizado de máquinas (machine learning). Ademais, são de produção barata e rápida: em comparação, enquanto uma imagem real pode valer até 6 dólares, uma imagem artificial é comercializada por cerca de 6 centavos.

Além disso, sob a perspectiva legal, os dados sintéticos trazem um alívio no que se refere à proteção de dados e privacidade, pois podem ser produzidos com base em um dataset inicial mínimo, o que garante um tratamento quase irrisório de dados reais e, consequentemente, permite a criação de soluções tecnológicas com baixo ou inexistente risco regulatório.

Finalmente, a possibilidade de produção de dados torna os setores da economia digital ainda mais competitivos ao democratizar o acesso a dados, historicamente concentrado nas big techs, e a evolução de pequenos e novos players.

Dados sintéticos, contudo, não apresentam apenas vantagens. Justamente por serem manufaturados e não, essencialmente, reais, esses conjuntos de informações encontram limitações para sua usabilidade. Se não refletirem a realidade, podem acarretar numa inteligência artificial mal condicionada e pouco eficaz ou, mesmo, gerar distorções dentro do modelo de aprendizagem.

Com novas tecnologias, novas inflexões emergem, e aqui não seria diferente, ainda mais em se tratando de uma temática tão nova. A sintetização de dados é de fato individualizada ou, a depender do cenário, pode ser lida como anonimização ou pseudonimização? E, afinal, os dados sintéticos são mesmo dados “falsos” e contornam a aplicabilidade da legislação protetiva?

Em primeiro lugar, há de se registrar que se os dados sintéticos forem genuinamente manufaturados, isto é, forem gerados do zero, fugindo dos datasets reais de molde e das rotinas de desidentificação, não podem, claro, ser classificados como dados pessoais – já que não guardam qualquer tipo de vínculo com pessoas naturais e, tampouco, podem ser instrumentalizados para identificar quem quer que seja – e, por isso, fogem do escopo regulatório de privacidade.

Para compreender toda a extensão do conceito de synthetic data, contudo, é crucial compreender o que é anonimização e pseudonimização. Tais conceitos ainda pendentes de regulamentação pela Autoridade Nacional de Proteção de Dados (ANPD), tangenciam o tópico abordado neste artigo e estão em foco em debates travados por autoridades europeias, que, por vezes, até mesmo divergem quanto à sua definição.

Para o UK Information Commissioner’s Office (ICO), anonimização é a forma por meio da qual se transforma determinado dado pessoal em informação anônima, de modo a retirar a primeira do escopo da lei de proteção de dados. Para a autoridade britânica, o risco de reidentificação após o procedimento de anonimização não é anulado, mas deve ser remoto o suficiente para garantir a segurança dos dados primitivos. Já a pseudonimizaçao, à luz do GDPR e das Guidelines ICO, compreende o tratamento de dados de tal maneira que não mais seja possível atribuí-los a um titular, a não ser valendo-se de informações adicionais – destacadas dos dados in natura e armazenadas em apartado. A autoridade dinamarquesa (Datatilsynet) adota os mesmos conceitos e orientações do ICO. Em contrapartida, a Commission Nationale Informatique & Libertés da França (CNIL), por sua vez, diverge ao compreender a anonimização como uma prática absoluta, excluindo integralmente da equação o risco residual de reidentificação dos dados.

Nesse jogo de posicionamentos, o panorama brasileiro aproxima-se dos entendimentos exarados pelo ICO e pela Datatilsynet. Sob a ótica adotada pelo legislador nacional, a pseudonimização seria o protocolo responsável pela produção de dados pessoais que, apenas com o tratamento de informações complementares, podem tornar a ser vinculados a um titular (LGPD, art. 13, §4°); por sua vez, a anonimização, num conceito mais flexível, vincular-se-ia à ideia de implementação de técnicas capazes não de desidentificar em absoluto um dado, mas de minorar a probabilidade de risco de sua reidentificação a níveis considerados razoáveis e eficazes (LGPD, art. 5°, III).

À luz de tais entendimentos, se produzidos a partir de um dataset real e não de modelos pré-existentes condicionados, dados sintéticos podem ser considerados tanto produto de anonimização quanto de pseudonimização, a depender da qualidade do procedimento de sintetização a que são submetidos. Se sintetizado de maneira adequada, o dataset perde sua identificabilidade passando a ser, portanto, anonimizado, e fuge, assim, das normas voltadas à proteção de dados dos indivíduos. Se os dados sintéticos, contudo, forem gerados a partir da transformação de cada identificador de modo que cada traço dos dados sintéticos corresponda a uma particularidade dos dados originários, as características primárias seriam substancialmente mantidas no conjunto de dados sintéticos e, por conseguinte, seriam abrangidas pela definição de dados pseudonimizado.

Assim, até que se esteja diante de um cenário definitivo tanto internacional quanto nacional – no Brasil, a pauta da pseudonimização e da anonimização deve ser endereçada ainda em 2023 -, com um detalhamento, teórico e prático, do que é e de como se alcançam os dados sintéticos, cumulado à definição do que é anonimização, pseudonimização, suas diferenças e como plenamente implementá-las, algumas cautelas são vitais como (i) a sopesagem da natureza dos dados, o contexto do tratamento, o propósito do tratamento e, ainda, a evolução das tecnologias aplicáveis na sintetização, desidentificação e na reidentificação de dados, que afetam diretamente as análises de risco; (ii) a instalação de uma rotina de gerenciamento dos dados que forem submetidos a tratamentos de sintetização – por meio de anonimização ou pseudonimização – de modo a acompanhar a evolução dos métodos de reidentificação, prevenindo-se eventuais falhas e violações futuras decorrentes da defasagem das tecnologias de desidentificação previamente implementadas, e, finalmente, (iii) em atuação preventiva, a elaboração de relatório de impacto (DPIA) para as operações de pseudonimização e de anonimização, conforme recomendação do ICO.

*Daniel Becker, sócio das áreas de Contencioso e Arbitragem, Proteção de Dados e Regulatório de Novas Tecnologias do BBL Advogados. Diretor de novas tecnologias no Centro Brasileiro de Mediação e Arbitragem (CBMA). Membro das Comissões de 5G e Assuntos Legislativos da OAB/RJ

*Ludmilla Campos, advogada da área de Proteção de Dados e Regulatório de Novas Tecnologias no BBL | Becker Bruzzi Lameirão Advogados. Graduada em Direito pela UERJ. Pesquisadora no Núcleo de Estudos e Pesquisa em Direito Internacional da UERJ (NEPEDI) e One Trust Certified Privacy Professional