Data Sense - um sistema informático de identificação, categorização e criação de relações entre dados sensíveis

Luís Marques, responsável técnico do projeto

 

“Devido à aposta muito significativa que o COMPETE 2020 faz continuamente no crescimento e no desenvolvimento de uma economia baseada no conhecimento e na inovação, o apoio desta entidade permitiu-nos um foco total no I&D, quer do ponto de vista tecnológico (nas áreas de inteligência artifical, aprendizagem automática e ciência de dados), quer do ponto de vista de desenvolvimento humano.

Este apoio permitiu-nos potenciar o desenho e criação de um produto de base tecnológica avançada, não só com capacidade de resolução de problemas concretos relacionados com a gestão e processamento de dados sensíveis e pessoais com que as empresas e os governos se deparam no dia-a-dia, mas também com capacidade de internacionalização e abragência de novos mercados.”

 

O Data Sense visa criar um sistema informático que permita a identificação, categorização e criação de relações entre dados considerados sensíveis, de forma a possibilitar às organizações o seu entendimento e a poderem conhecer, de modo imediato, o conteúdo de dados que armazenam e processam.

 

Enquadramento

No contexto da sociedade atual totalmente virada para a informação e para a comunicação de dados gerados a partir de inúmeras fontes e entidades e que geram, múltiplos documentos com diversas origens e finalidades, é normal que uma grande parte destes documentos contenham informação confidencial e/ou sensível. É também natural, que com o passar do tempo, as organizações arquivem um vasto número de documentos, levando a uma perda do controle sobre o conteúdo dos mesmos.

No passado, nos documentos cujo acesso era suposto ser público, eram identificados, manualmente, os dados de natureza sensível que eram relativos a entidades ou indivíduos. Recentemente, foram implementadas ferramentas que auxiliam o processo de identificação de alguns dados sensíveis em especial informação documental estruturada como e-mails, moradas, números de telefone ou cartões de crédito, deixando, no entanto, por identificar, outros dados sensíveis de cariz textual e não estruturado como nomes, informação médica, registos criminais ou preferências religiosas ficando ao cuidado da expertise humana a sua respetiva identificação.

Acresce ainda que o armazenamento da informação pode ser feito de forma estruturada, mantendo uma base de dados que permita identificar dados sensíveis, ou de forma não estruturada, em que a informação sensível está dispersa em documentos de difícil interpretação digital.

O atual processo manual ou semi-automático de preservação documental sofre de vários problemas que afetam especialmente o tratamento da informação confidencial ou sensível, tais como a identificação de dados sensíveis em documentos requerer intervenção humana que é cara e com propensão à geração de erros e a identificação de dados sensíveis em documentos em larga escala não permitir uma abordagem que dependa da expertise humana para a sua identificação e relação.

Nos últimos anos, a criação, processamento e análise de grandes volumetrias de dados, passou a ser uma prática nas organizações de forma a explorar essa informação para fins comerciais e para vantagens competitivas. O problema é que, com essa criação e armazenamento de dados actuais, surgiram novos desafios. Um deles é o de gestão dos dados sensíveis, que podem incluir desde a simples morada ou número de cartão do cidadão, até registos biométricos e médicos guardados nos arquivos das empresas.

Essa gestão de dados sensíveis irá tornar-se cada vez mais uma prioridade para a sociedade, desde logo por imposição legal europeia, mas também por imposição da sociedade civil que pretende ver clarificada a forma como os seus dados são tratados e processados e torná-los sua propriedade em vez de propriedade das organizações.

 

O Projeto

Face a estes desafios, urge às organizações e empresas europeias cumprir os requisitos legais e respeitar a propriedades dos dados sensíveis que, à luz dos novos regulamentos, passarão a ser propriedade dos cidadãos europeus. Neste entendimento, a solução Data Sense será uma ferramenta que, para além de representar um avanço tecnológico muito relevante em relação do estado da arte, dará uma resposta eficiente a estes novos desafios essenciais para todos os países abrangidos pela nova regulamentação, sendo que a única mudança para aplicação do software em cada país adicional será a necessidade de ajuste da língua, já que o conceito e os pilares tecnológicos onde assenta serão sempre os mesmos para qualquer país da União Europeia.

O Data Sense será um software, altamente exportável, que permitirá dar capacidade às organizações de identificar e entender os dados sensíveis que estão na sua posse em informação textual não estruturada (documentos digitais), de forma a cumprir os desígnios legais, de conformidade e de segurança.

Permitirá a identificação, classificação, categorização e relação dos dados sensíveis (Personal Data) presentes em informação não estruturada em larga escala de forma a permitir às entidades e/ou organizações o seu entendimento sem pôr em causa questões de segurança ou confidencialidade e permitirá, às empresas que se foquem nos seus clientes, entender melhor o perfil dos mesmos a partir de informações recolhidas dos dados sensíveis consentidos ou através dos algoritmos de procura de dados.

O projeto Data Sense assentará em 3 camadas essenciais utilizando o potencial atual das tecnologias PLN (Processamento de Linguagem Natural) e os avanços na área de machine learning [Extração da Informação (NER), Desambiguação e Co-referenciação (ARE) e Aprendizagem Automática e Feedback]. Será também caracterizado pela capacidade de aprender com o feedback humano de forma automática, corrigindo e melhorando iterativamente o modelo de Inteligência Artificial que o suporta.

 

O Apoio do COMPETE 2020

Promovido Link Consulting, S.A., o projeto conta com o apoio do COMPETE 2020 no âmbito do Sistemas de Incentivos à Investigação e Desenvolvimento Tecnológico, envolvendo um investimento elegível de 713 mil euros o que resultou num incentivo FEDER de cerce de 404 mil euros.

26/02/2020 , Por Miguel Freitas
Portugal 2020
COMPETE 2020
Europa