Un sistema di data capture deve permettere le seguenti funzionalità:
- Acquisizione delle immagini: che può essere eseguita da scanner (scansioni immagini in file elettronici) o possono essere importati file gia esistenti. E' convenzione organizzare le immagini in batches i quali permettono una migliore organizzazione ed elaborazione delle stesse (fasi di estrazione dei dati, validazione dei dati).
I formati preferiti sono se bianco nero (TIFF Group4 o Fax) che permette di ottenere immagini di piccole dimensioni senza perdita di inforamazione (algoritmi lossless).
- Classificazione documenti: La classificazione classifica il documento all'interno delle classi di documenti definite. Vi sono diverse tecniche di classificazione:
- per layout del documento
- per particolari loghi
- per keywords trovate all'interno del documento
- semantica del testo contenuto nel documento (vengono applicate nei casi di mailroom automation).
-Estrazione dati: Una volta classificata l'immagini si possono applicare le regole di estrazione predefinite.
Come abbiamo già detto possiamo effettuare OCR, ICR, OMR e BARCODE recognition.
Per l'ocr l'estrazione puo avvenire in tre modalità a seconda della tipologia di estrazione. Avremo quindi:
- Documenti Strutturati: dove il layout e' fisso e so quindi le posizioni geometriche da dove estrarre i dati;
- Documenti Semi Strutturati: Il layout non e' definito ma so quello che sto cercando. Vengono utilizzate regular expressions per l'estrazione e dei dati;
- Documenti non strutturati: Il layout non e' definito e non so quello che cerco. Vengono utilizzati strumenti di Patten Matching.
La validazione dei dati permette ad un operatore umano la visualizzazione, e la revisione dei dati estratti.
Rilascio dei dati:
I dati estratti devono essere poi rilasciati nei sistemi informativi aziendali per fare in modo di poter sfruttare le informazioni estratte. Vengono rilasciate le informazioni estratte e opzionalmente le immagini (a volte e' effettuata anche una conversione del formato, molto gettonato il PDF FULL TEXT o PDF Ricercabile).
A questo punto i sistemi di data capture prevedono moduli che permettono la scrittura delle informazioni in file (txt, csv), databases, sistemi ERP, sistemi di ECM.
Controllo qualità (quality control):
A controllo di tutti le fasi si possono impostare step di controllo della qualità.
Nessun commento:
Posta un commento