Cómo separar los documentos en un proceso de digitalización

Escáner de la Konica Minolta bizhub 20En todo proyecto de digitalización, un paso clave es la separación de los documentos, cómo vamos a determinar cuándo comienza un documento y cuándo termina y comienza el siguiente. En una carga manual es sencillo introducir los documentos uno a uno, pero en un  gran proyecto donde se cargan los documentos de manera masiva en grandes lotes la cosa se complica. Los métodos que podemos utilizar son los siguientes: Separación fija por número de páginas: Aplicable cuando todos los documentos tienen el mismo número de páginas. Es un método muy sencillo que se configura en el dispositivo de digitalización. El dispositivo cuenta y asigna a todos los documentos el mismo número de páginas. Separación por hoja en blanco:  El software detecta la página en blanco dando por finalizado un documento y abriendo el siguiente. Es una forma básica de separación pero requiere mucha mano de obra para preparar la documentación y un control riguroso para evitar provocar un caos en la documentación, sobre todo si se trabaja en modo dúplex donde pueden existir páginas en blanco en el reverso de las hojas. Separación por código de barras: Probablemente el método más generalizado de separación sea a través de un separador de código de barras. El código de barras puede estar incluido en el propio documento en el momento de su generación, o bien colocarle una pegatina que contenga el código de barras como paso previo a la digitalización. Evidentemente el software de digitalización debe incorporar un lector de códigos de barras e, incluso, para dotarle de mayor flexibilidad a la hora de ejecutar los trabajos, debería soportar diferentes métodos avanzados de identificación, como separar cuando cambia el código, separar cuando exista un determinado número de códigos de barras en una misma página, separar por tipo de código de barras, etc. Separación por Patch Code: Los Patch Code son patrones formados por barras paralelas alternando espacios con líneas negras, similares a un código de barras común. Fueron creados originalmente por Kodak para marcar ciertos parámetros durante el procesamiento de documentos. Cada tipo de Patch Code marca un evento diferente; así puede indicar saltos de página, cambios de sección o cambio de escaneo de una cara a dúplex. El más común es el que nos ocupa, que es el Patch T Code, empleado para separar documentos. Separación por reconocimiento óptico de caracteres (OCR): El OCR es el proceso de identificar en imágenes digitalizadas el texto contenido en ellas para después almacenarlo en forma de datos. Las técnicas de separación basadas en OCR se basan en encontrar palabras clave que identifican que estamos ante la primera página o la última de un documento. Se necesita una serie de requisitos para conseguir un resultado satisfactorio, como puede ser digitalizar con una resolución determinada, identificar claramente las mejores palabras clave como separadores, etc. Es un método eficaz que no requiere trabajo previo de preparación de los documentos ya que no hay que insertar páginas en blanco, hacer lotes con el mismo número de páginas o insertar códigos de barras. Por el contrario, el software que realiza este proceso es más complejo y por tanto de mayor precio. Debido a su sofisticación, este tipo de software se emplea, además de para separación, para poder identificar no sólo cuando comienza o termina un documento, sino también qué tipo de documento se ha procesado y poder darle un tratamiento personalizado, convirtiendo nuestro sistema de digitalización en un mailroom virtual, una pequeña estafeta de correos digital que permite clasificar y redirigir cada documento hacia un destino diferente. Lo que sí hay que tener en cuenta es que cada método será el idóneo según el tipo de documento a digitalizar y el volumen de documentos a procesar, y requerirá de un pequeño estudio antes de proceder a emplear un método u otro.

Otras entradas interesantes:

«
»

Enviar un comentario a
“Cómo separar los documentos en un proceso de digitalización”