Lettori fissi

domenica 2 novembre 2008

Acquisizione Documenti

Acquisizione Documenti

Questo e' il primo step in un sistema di data capture e consiste nell'organizzazione delle immagini/file da mandare ai successivi engine di classificazione ed estrazione OCR dei dati.

Abbiamo due possibilita' per l'acquisizione delle immagini:
- Scansione diretta con scanner o import di file.

SCANSIONE DIRETTA
Per la scansione diretta da scanner devono essere fatte diverse valutazioni in base alle caratteristiche hardware e software.I driver utilizzati per le scansioni possono essere:

- ISIS: e' un driver professionale sviluppato dalla Captiva Software ora parte di EMC Corporation. Da' la possibilita' di pilotare tutte le features che gli scanner offrono.

- TWAIN: E' una tipologia di driver che si trova nei prodotti consumer e si sta facendo sempre piu' largo anche negli scanner professionali. Mancano ancora alcune funzionalita' di pilotaggio degli scanner (endorser/imprinter, etc..).

- Drivers PROPRIETARI: Per gli scanner di tipo ad-hoc vi sono tipologie di drivers proprietari a corredo degli scanners.

Per la parte hardware occorre accertarsi di:
- Velocità di scansione misurata in pagine per minuto ppm, 200dpi bianco e nero (che è lo standard per fare OCR).
- DPI delle immagini acquisite.
- Capacità caricatore Fogli.
- Capacità di filtraggio dei colori:
Le immagini acquisite possono essere filtrate in fase di scansione. Un esempio sono le ricette mediche dove il colore pantone (rosso) che vediamo puo' essere filtrato per garantire livelli di OCR ed estrazione dati piu' elevati. Da questo filtro l'immagine sarà quindi ripulita dello sfondo rosso che serve solo per scrivere nella giusta posizione geometrica.
- Stampantina Endorser: I documenti possono essere sottoposti ad endorsment, che prevede la stampa su uno o entrambi lati del documento di una stringa alfanumerica (solitamente la parte numerica e' un numero progressivo).
Si possono avere acquisizioni ottiche di tipo pre endorser o post endorser, a seconda che si voglia vedere la stampa sul documento in formato elettronico.

Le immagini sono solitamente organizzate in Batches, questo per garantire una migliore gestione, separazione durante il flusso di elaborazione e lavorazione effettuta dagli operatori di data entry (fase di reject reentry).


IMPORT DA FILE

Oltre alla scansione si puo' fare riferimento a folder condivise da dove importare le immagini e introdurle nel processo di elaborazione ed estrazione dei dati.
In questa fase occorre accertarsi della qualità delle immagini nonche del formato del file.
I formati possono essere lossless e lossy. I lossless che sono formati senza perdita di qualità sono ad esempio i TIFF e PNG. I lossy che sono formati con perdità di qualità sono ad esempio i comuni JPEG.
A seconda che le immagini siano state salvate in uno di questi due formati avremo perdita o meno della qualità originaria.

Nessun commento: