Microsoft Purview: Optical Character Recognition (OCR)

L’analisi OCR (Optical Character Recognition) consente a Microsoft Purview di analizzare le immagini alla ricerca di informazioni riservate. L’analisi OCR è una funzionalità facoltativa e deve essere abilita a livello di Tenant.

Una volta abilitata, si selezionano le posizioni in cui si desidera analizzare le immagini. L’analisi di queste ultime è disponibile per i seguenti Workload / Servizi:

  • Exchange
  • SharePoint
  • OneDrive
  • Teams
  • Windows
  • macOS

Dopo aver configurato le impostazioni dei record e la gestione dei rischi Insider (IRM) vengono applicati alle immagini e al contenuto basato su testo, ad esempio, supponiamo di aver configurato il contenuto DLP contenente informazioni riservate e incluso ad esempio un SIT (Sensitive Information Tipe) per numeri di carte di credito, in questo caso specifico Microsoft Purview analizza questo SIT nelle immagini e nel testo all’interno delle “posizioni” scelte.

Quale è la procedura per implementare questa funzionalità?

Vi riassumo in forma tabellare i macro steps da eseguire, che andremo comunque a dettagliare in questo articolo

Fase Cosa serve
Creare una sottoscrizione di Azure, se necessario Se l’organizzazione non dispone già di una sottoscrizione con pagamento in base al consumo di Azure per il tenant, è necessario che l’amministratore ne crei una per l’utilizzo di questa funzionalità.
Stimare gli addebiti per l’analisi OCR Usare lo strumento di stima dei costi OCR per stimare gli addebiti previsti per i casi d’uso specifici.
Configurare la fatturazione con pagamento in base al consumo per abilitare OCR. L’amministratore globale o di SharePoint deve seguire le istruzioni riportate in Configurare Microsoft Syntex fatturazione in Azure per aggiungere una sottoscrizione per OCR.
Configurare le impostazioni di analisi OCR L’amministratore di Conformità del tenant deve configurare le impostazioni necessario per consentire l’analisi OCR.

Quali sono i prerequisiti necessari per abilitare la funzionalità?

Vi riporto i prerequisiti necessari per l’utilizzo di questa funzionalità di Microsoft Purview:

  • Subscription Azure a Consumo
  • Abilitare funzionalità di OCR all’interno del portale di Microsoft Purview
  • Avere a disposizione uno dei seguenti ruoli:
    • Compliance administrator
    • Compliance data administrator
    • Global administrator
    • Information Protection
    • Information Protection Admin

Sono supportate le seguenti “Locations” e “Soluzioni”:

Location Soluzioni Supportate
Exchange Data loss prevention

Information protection: Auto-labeling policies

Records management: Autoapply retention label policies1

SharePoint sites Data loss prevention

Insider risk management2

Records management: Autoapply retention label policies1

OneDrive accounts Data loss prevention

Records management: Autoapply retention label policies1

Teams chat and channel messages Data loss prevention

Insider risk management2

Devices Data loss prevention

Insider risk management2

1 Supporto di Keywords e Sensitive Information Types

2 Considera Sensitive Information Types e Trainable Classifiers presenti nelle immagini per Risk Scoring

Vi riporto inoltre anche i tipi di file supportati

Locations File Types Supportati
Exchange JPEG, JPG, PNG, BMP, TIFF, and PDFs (scanned). Embedded images in DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z, and hybrid PDFs (containing searchable text and images) with a limit of 20 embedded images scanned per file.
SharePoint and OneDrive BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, ERF, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDFs (scanned and hybrid containing searchable text and images) Embedded images in DOCX, PPTX, XLSX
Teams, Windows, and macOS endpoint JPEG, JPG, PNG, BMP, TIFF, and PDF (image only)

Ci sono anche dei requisiti per le immagini, come ad esempio “File Sizes” e “Image Resolution”:

  • File Sizes: I file immagine non devono essere più grandi di 20 MB per Exchange e Microsoft Teams, invece per SharePoint, OneDrive, Windows e macOS, la dimensione massima del file immagini sale a 50 MB
  • Image Resolution: la risoluzione dell’immagine deve essere di almeno 50 x50 pixel e non superiore a 16.000 x 16.000 pixel

Inoltre, OCR al momento è disponibile per 150 Lingue come da documentazione ufficiale Language support – Azure Vision in Foundry Tools – Foundry Tools | Microsoft Learn

Quali strumenti ho a disposizione per darvi evidenza della funzionalità?

Per darvi evidenza di questa funzionalità io avrò a disposizione un account con ruoli di Global Admin all’interno del tenant con licenza Microsoft 365 E5

Figura 1: Utente utilizzato per attivare la funzionalità con il ruolo di Global Administrator

Figura 2: Licenze a disposizione all’interno del Tenant demo

Figura 3: Subscription Azure a consumo per attivare la funzionalità di OCR presente all’interno del tenant

Ora accediamo al portale di Microsoft Purview

Figura 4: Configurazione OCR in Microsoft Purview, il sistema ci avvisa che verrà avviato un test di stima dei costi

Figura 5: Viene richiesto in quale “posizione” eseguire la stima, nel mio caso ho lasciato selezionato all per avere una stima più ampia

Figura 6: I risultati saranno disponibili all’interno del portale tra minimo Ore

Dopo circa 24 ore “l’investigazione” termina e il portale vi restituisce la stima dei costi che andrete a sostenere, nel mio caso vengono trovate solo 7 immagini.

Figura 7: Stima dei costi se attivassimo OCR in Microsoft Purview

Intanto che la scansione, che ci permette di stimare i costi “gira” , poi per abilitare la funzionalità in produzione si rende necessario creare “Microsoft Syntex billing”, vediamo insieme come fare rechiamoci all’interno del portale Microsoft 365 Admin Center

Figura 8: Abilitazione del servizio di Pay-as-you-go

Figura 9: Abilitazione fatturazione Pay-as-you-go

Figura 10: Selezionare la Subscription, il resource Group e la Region in cui inserire Microsoft Syntex

Figura 11: Attività completata correttamente

Figura 12: Ora la fatturazione Pay-as-you-go è correttamente configurata

Figura 13: Ora selezioniamo in quali servizi voler utilizzare OCR

Figura 14: Nel mio caso seleziono tutti i siti di SharePoint e OneDrive, ma voi potete selezionare quelli a cui applicare questa funzionalità

Ritorniamo quindi all’interno del portale di Microsoft Purview

Figura 15: Attiviamo la componente OCR che prima non potevamo fare non avendo ancora configurato Microsoft Syntex

Figura 16: Salvataggio della configurazione

Ora il sistema di Microsoft Purview sarà in grado di “leggere” il contenuto ad esempio di file immagine, per questo motivo all’interno del mio OneDrive ho un file .png che contiene dati sensibili

NB: Specifico che i dati riportati nella schermata sono puramente di Demo e Inventati ogni riferimento a persone reali è pura casualità

Figura 17: File png che contiene dati sensibili

Figura 18: File Word che contiene l’immagine con dati sensibili

Ora possiamo procedere a creare un’etichetta di riservatezza con una Policy di Autolabeling (necessaria E5 per la funzionalità di Auto Label o licenza che ne permetta l’uso) che ci permetta di testare la funzionalità di OCR, , rechiamoci quindi all’interno del portale di Microsoft Purview

Figura 19: Sezione di Information Protection del portale di Microsoft Purview

Figura 20: Scegliamo di creare una nuova Label

Figura 21: Scegliamo un nome,display name e descrizione per utenti e admin che siano parlanti per una corretta identificazione futura della policy

Figura 22: Scegliamo di applicare l’etichetta ai File e proseguiamo con la configurazione

Figura 23: Nel mio caso scelgo di applicare un Waterkarks e un Footers al documento, ma potete anche scegliere di “Controllare l’accesso” questo varia in base alla vostra esigenza

Figura 24: Scegliamo di applicare Footer e scegliamo il colore l’allineamento e la dimensione del testo

Figura 25: Scegliamo di applicare anche un Watermark e salviamo

Figura 26: Per autolabel preferisco applicarla con una policy separata quindi proseguiamo con la configurazione

Figura 27: Proseguiamo con la configurazione

Figura 28: Overview della configurazione e creazione della Label

Figura 29: Procediamo a creare la policy di applicazione in un secondo momento

Ora siamo pronti per creare la policy di Auto Label, che ci permetterà di applicare l’etichetta ai documenti presenti in OneDrive in modo automatico quando viene eseguito il match del contenuto che nel mio caso sono le seguenti informazioni:

  • Italy Driver’s License Number
  • Italy Fiscal Code
  • Italy Passport Number
  • Italy Physical Addresses
  • Italy Value Added Tax Number

Figura 30: Procediamo a creare una policy di Auto-Labeling

Figura 31: Scegliamo di procedere con delle categorie Custom per permetterci di scegliere i parametri in modo granulare

Figura 32: Scegliamo un nome ed una descrizione che siano parlanti per la policy

Figura 33: Selezioniamo quale Label vogliamo applicare con questa policy, nel mio caso quella scelta in precedenza

Figura 34: Scegliamo di applicarla a tutte le Admin Units

Figura 35: Applichiamola a tutti i OneDrive dei nostri utenti, eventualmente è possibile limitarla solo ad alcuni account

Figura 36: Scegliamo “Common Rules” e proseguiamo

Figura 37: Scegliamo di creare una nuova regola

Figura 38: Scegliamo un nome ed un’eventuale descrizione e configuriamo le condizioni per cui la regola applica etichetta, la confidence configuratela in modo opportuno per evitare applicazioni della regola errata

Figura 39: Proseguiamo con la configurazione

Figura 40: Configuriamo la policy in modalità Simulation e scegliamo di abilitarla dopo 7 giorni se non viene modificata

Figura 41: Creiamo la Policy di Auto-Labeling

Ora dovemmo attendere che la Policy esegua l’etichettatura dei documenti, possiamo tenere traccia di questo cliccando sulla policy stessa e ci viene fornito un report

Figura 42: File che hanno eseguito il match della regola

Figura 43: Forziamo la Policy in modalità Enforced

Nel mio caso dopo circa 20 minuti l’etichetta era correttamente applicata ai File

Figura 44: File Etichettato nel modo coretto dopo l’applicazione della policy, il contenuto del file Word è un’immagine con i dati sensibili

Conclusioni

Come abbiamo potuto osservare, l’abilitazione di questa funzionalità dal portale Microsoft Purview consente di estendere in modo significativo le capacità di Data Protection, includendo anche tipologie di file che in precedenza non era possibile “censire” o analizzare in modo strutturato.

Grazie all’integrazione delle tecnologie OCR (Optical Character Recognition), oggi è possibile individuare contenuti sensibili anche all’interno di documenti non nativamente testuali, come immagini o PDF scansionati. Questo permette di applicare in modo coerente etichette di classificazione e ulteriori controlli di sicurezza, garantendo una protezione più completa e uniforme dei dati.

L’estensione di queste funzionalità amplia concretamente il perimetro di compliance e data protection all’interno delle organizzazioni, riducendo i rischi di esposizione delle informazioni e rafforzando la governance dei dati. In un contesto normativo e di sicurezza sempre più stringente, strumenti come Microsoft Purview rappresentano quindi un elemento chiave per una strategia di protezione dei dati moderna, efficace e realmente trasversale.