AI Risks: i rischi dell’intelligenza artificiale per la protezione dei dati nell’utilizzo delle tecnologie NER ed OCR

Luglio 22, 2024

CONDIVIDI SUI SOCIAL

Fonte: JuraNews

L’EDPB ha presentato il progetto “AI Possible Risks & Mitigations Named Entity Recognition” al fine di fornire uno strumento a supporto dei titolari del trattamento dei dati che utilizzano l’intelligenza artificiale nello svolgimento della valutazione dei rischi per la protezione dei dati

Nell’ambito del programma “Support Pool of Experts” (SPE) sviluppato dell’EDPB per aiutare le Autorità di protezione dei dati (DPA) ad aumentare la loro capacità di far rispettare la normativa in materia, il Comitato europeo per la protezione dei dati (European Data Protection Board) ha presentato il progetto “AI Possible Risks & Mitigations Named Entity Recognition”.

Il progetto AI Risks comprende due diversi moduli:

AI Possible Risks & Mitigations Named Entity Recognition (NER) – Riconoscimento di entità nominate: viene utilizzato per identificare entità denominate come nomi, organizzazioni e posizioni all’interno di un documento e classificarle in categorie predefinite.
AI Possible Risks & Mitigations Optical Character Recognition (OCR) – Riconoscimento ottico dei caratteri: utilizzato per convertire immagini o documenti scansionati contenenti testo in testo leggibile.

Il riconoscimento delle entità denominate (Named Entity Recognition – NER) è una tecnica di estrazione delle informazioni impiegata nell’elaborazione del linguaggio naturale (NLP).

NER viene utilizzato per identificare entità denominate come nomi, organizzazioni e luoghi all’interno di un documento e classificarle in categorie predefinite.

NER svolge un ruolo fondamentale nei sistemi NLP, come i chatbot e i motori di ricerca. La sua applicazione si estende a campi diversi come la sanità, la finanza, le risorse umane, l’assistenza ai clienti, l’istruzione superiore e i social media, dove NER può aiutare ad estrarre informazioni preziose da diverse fonti testuali.

La tecnologia di Named Entity Recognition (NER) si basa su tre metodi principali: lessico, regole e machine learning. Gli approcci basati sul lessico utilizzano un elenco predefinito di termini per identificare le entità nel testo, ma possono avere difficoltà con nuove entità o con situazioni di ambiguità. I sistemi basati su regole contengono regole manuali o automatiche per individuare le entità in base a modelli specifici. I metodi basati sull’apprendimento automatico supervisionato possono automaticamente identificare e classificare le entità nel testo imparando dai dati annotati. Questi metodi richiedono una grande quantità di dati di addestramento annotati. Le tecniche moderne di NER si basano principalmente sull’apprendimento automatico, poiché possono adattarsi e generalizzarsi a vari contesti e domini. Alcuni sistemi NER combinano più metodi per migliorare le prestazioni e l’accuratezza. L’apprendimento automatico non supervisionato, come i Large Language Models, può essere un’alternativa per ridurre il tempo di elaborazione del testo.

I fattori di rischio associati all’uso di tecnologie di estrazione dei dati come NER possono essere identificati e valutati per comprendere i potenziali rischi. Ad esempio, l’elaborazione di grandi volumi di dati e l’utilizzo di dati sanitari sono da considerare fattori di rischio ad alto livello. Riconoscere questi fattori di rischio può aiutare ad individuare i rischi correlati e la gravità associata. Ad esempio, un rischio ad alto livello potrebbe essere la violazione della privacy dei pazienti a causa di una violazione dei dati. I fattori di rischio elencati nel documento derivano dall’analisi di strumenti legali come il GDPR, l’EUDPR, la Carta dell’UE e altre linee guida sulla protezione dei dati. L’individuazione dei fattori di rischio può fornire una guida per identificare i potenziali rischi legati alla protezione dei dati nelle tecnologie di estrazione dei dati come NER.

Proprio perché lo sviluppo di tecnologie di estrazione dei dati può comportare rischi per la protezione dei dati e la privacy, è importante implementare un processo iterativo per l’identificazione di questi rischi. Lo sviluppo di un sistema di estrazione di entità nominate (NER) richiede l’addestramento di modelli di apprendimento automatico su ampi set di dati annotati. Questi dati includono documenti di testo o corpora annotati con entità nominate etichettate, che indicano i confini e i tipi di entità nel testo. Durante il processo di sviluppo, è importante utilizzare un set di dati di convalida separato per valutare il modello e un set di dati di test rappresentativo per valutare le prestazioni finali del sistema. Gli sviluppatori di sistemi NER provvedono a curare o raccogliere i propri set di dati, che possono includere dati pubblici, proprietari o provenienti da fonti diverse. È fondamentale garantire che i dati utilizzati siano accurati e rappresentativi degli scenari reali per valutare correttamente l’accuratezza e l’affidabilità del sistema.

L’OCR, acronimo di Optical Character Recognition, è una tecnologia utilizzata per convertire immagini o documenti scansionati contenenti testo in testo leggibile dalla macchina. Questa tecnologia permette l’estrazione del testo da documenti cartacei o fonti digitali. Le tecniche di estrazione dati come l’OCR utilizzano metodi basati su regole e algoritmi di pattern matching per identificare e convertire i caratteri in testo leggibile. Il processo di estrazione dati tramite OCR comprende tre fasi principali: rilevamento, localizzazione e segmentazione. Nel rilevamento e nella localizzazione, gli algoritmi identificano e localizzano il testo all’interno di un’immagine. Gli algoritmi di localizzazione individuano le regioni di confine attorno al testo per definirne la posizione. La fase di segmentazione converte il testo localizzato in un formato binario adatto all’elaborazione OCR, in cui i caratteri sono distinti dallo sfondo.

I sistemi OCR, che sono ampiamente utilizzati per la scansione dei documenti, funzionano meglio quando i documenti hanno una struttura simile o posizionamento degli elementi coerente. I sistemi OCR basati su modelli offrono una maggiore precisione, ma richiedono un’adeguata corrispondenza tra i documenti e i modelli. Tuttavia, i moderni sistemi OCR utilizzano anche algoritmi di apprendimento automatico, come il Deep Learning, per migliorare l’accuratezza e consentire il riconoscimento dei caratteri anche in documenti con strutture diverse. Questo approccio, chiamato “Elaborazione intelligente dei documenti” (IDP), estrae non solo il testo ma anche la struttura, le relazioni e altre informazioni dai documenti. Spesso, questi sistemi OCR sono disponibili come servizi cloud e offrono modelli pre-addestrati o la possibilità di addestrare i propri modelli. L’integrazione tramite API è la preferita dai clienti per la sua facilità e velocità.

Anche l’utilizzo di tecnologie di estrazione dei dati come l’OCR può comportare rischi per la protezione dei dati e, quindi ,anche in questo caso è fondamentale l’individuazione dei fattori di rischio al fine di valutarne e limitarne l’impatto.

Il progetto in esame è stato completato dall’esperto esterno Isabel Barbera nel settembre 2023. Per entrambe le tecnologie, l’esperto esterno ha identificato specifici rischi per la protezione dei dati posti dall’approvvigionamento, dallo sviluppo e dall’uso della tecnologia specifica.

Il progetto presentato dall’EDPB mira ad essere uno strumento a supporto dei titolari del trattamento dei dati che utilizzano l’intelligenza artificiale per gli scopi indicati al fine di eseguire una valutazione dei rischi per la protezione dei dati.