Lettori fissi

domenica 26 ottobre 2008

FUNZIONALITA' DI UN SISTEMA DI DATA CAPTURE

Per capire di cosa consta un sistema di data capture bisogna chiarire prima quali sono le operazioni che deve eseguire.
Un sistema di data capture deve permettere le seguenti funzionalità:

- Acquisizione delle immagini: che può essere eseguita da scanner (scansioni immagini in file elettronici) o possono essere importati file gia esistenti. E' convenzione organizzare le immagini in batches i quali permettono una migliore organizzazione ed elaborazione delle stesse (fasi di estrazione dei dati, validazione dei dati).
I formati preferiti sono se bianco nero (TIFF Group4 o Fax) che permette di ottenere immagini di piccole dimensioni senza perdita di inforamazione (algoritmi lossless).

- Classificazione documenti: La classificazione classifica il documento all'interno delle classi di documenti definite. Vi sono diverse tecniche di classificazione:
  • per layout del documento
  • per particolari loghi
  • per keywords trovate all'interno del documento
  • semantica del testo contenuto nel documento (vengono applicate nei casi di mailroom automation).

-Estrazione dati: Una volta classificata l'immagini si possono applicare le regole di estrazione predefinite.
Come abbiamo già detto possiamo effettuare OCR, ICR, OMR e BARCODE recognition.

Per l'ocr l'estrazione puo avvenire in tre modalità a seconda della tipologia di estrazione. Avremo quindi:
  • Documenti Strutturati: dove il layout e' fisso e so quindi le posizioni geometriche da dove estrarre i dati;
  • Documenti Semi Strutturati: Il layout non e' definito ma so quello che sto cercando. Vengono utilizzate regular expressions per l'estrazione e dei dati;
  • Documenti non strutturati: Il layout non e' definito e non so quello che cerco. Vengono utilizzati strumenti di Patten Matching.
Validazione dei Dati:
La validazione dei dati permette ad un operatore umano la visualizzazione, e la revisione dei dati estratti.

Rilascio dei dati:
I dati estratti devono essere poi rilasciati nei sistemi informativi aziendali per fare in modo di poter sfruttare le informazioni estratte. Vengono rilasciate le informazioni estratte e opzionalmente le immagini (a volte e' effettuata anche una conversione del formato, molto gettonato il PDF FULL TEXT o PDF Ricercabile).
A questo punto i sistemi di data capture prevedono moduli che permettono la scrittura delle informazioni in file (txt, csv), databases, sistemi ERP, sistemi di ECM.

Controllo qualità (quality control):

A controllo di tutti le fasi si possono impostare step di controllo della qualità.

Nessun commento: