Estamos en la era digital, pero siguen siendo pocas las facturas que se reciben en formatos electrónicos estructurados ( XML, EDIFACT, etc), cuyos datos se pueden mapear directamente a un ERP. De hecho, un alto porcentaje de empresas continúan basando su trabajo en documentos en papel, que más tarde deben ser transformados a formato digital, y esto se traduce en una inversión importante de recursos para procesar documentos. Si este es el caso de tu empresa, este post es para ti.
El proceso de extracción de los datos de un documento, conocido como reconocimiento óptico de caracteres u OCR (Optical Character Recognition) es una tecnología que conocemos bien en Brait. Llevamos muchos años haciendo proyectos de automatización de los procesos de cuentas a pagar, donde las tecnologías de OCR son de aplicación habitual.
OpenText ha desarrollado su propia tecnología OCR, que incorpora a su herramienta Business Center Capture for SAP Solutions. Algunas de las ventajas que ofrece, cuando utilizamos el BCC para procesar facturas de proveedores, son las siguientes:
- El OCR es capaz de determinar de qué proceso se trata: Abono, Factura, Anticipo, otros…
- Diferencia entre el importe bruto y neto y calcula el porcentaje de impuestos.
- Es capaz de identificar el número de pedido en una factura y relacionarlo con el que se ha creado en SAP. De esta manera, en VIM se podrá comprobar la entrada de mercancías y cotejarlo con la factura detectando si se ha producido cualquier tipo de discrepancia en precios o cantidades.
- Detección de duplicados: compara los datos extraídos de los documentos de manera automática.
Las últimas soluciones que ha desarrollado Opentext, compatibles sólo con las últimas versiones de Business Center y VIM, son:
- Intelligent Capture for SAP Solutions (IC4SAP) solución on premise de reconocimiento de documentos a través de un OCR muy potente.
- Core capture for SAP Solutions (CC4SAP) se trata del mismo OCR pero en su solución en cloud a modo de SaaS.
Ambas soluciones cuentan con machine learning, lo que aumenta la tasa de reconocimiento con cada ejecución y lleva a un proceso totalmente automatizado. Además, al estar completamente integrados con SAP, se administran y configuran desde el propio SAP.
A través de las soluciones de OpenText, podremos conseguir un procesamiento de la documentación totalmente automatizado:
- Captura a través de prácticamente cualquier canal, por ejemplo: escáneres, faxes, móviles, buzones de correo, integración a través de API, SOAP o REST.
- Procesamiento de clasificación de los documentos para extraer metadatos
- Preparación de documentos
- Documentación electrónica: no requiere mejora de la calidad.
- Documentos de imagen, es posible mejorar la calidad de la extracción basada en filtros de mejora de imagen
- Clasificación de los documentos en función de la naturaleza del documento
- Documentos estructurados, aquellos cuyos datos siempre se sitúan en la misma ubicación. Por ejemplo, formularios o cuestionarios. Se trabaja con plantillas gráficas.
- Documentos semiestructurados se trabaja por palabras clave y con el aprendizaje PAL (sistema de aprendizaje automático) con capacidad de crear nuevas plantillas específicas en función de los datos que se está encontrando (Intelligent Capture)
- Documentos no estructurados: clasificación por palabras clave o test matching, se coge un grupo de párrafos con el que realizar comparaciones para clasificar los documentos.
- Extracción de metadatos
- Extracción zonal. Se define un área en la que el OCR busca datos y se utiliza en los documentos estructurados.
- Free form: es el modo de extracción utilizado en los documentos semiestructurados o no estructurados. Esta extracción está basada en las expresiones regulares.
- Entrega. Prepara los resultados para el sistema de destino. Distintos exportadores:
- Correo electrónico
- Content Server
- Documentum
- Share point
- Otros
- También se puede extender con un módulo a medida
Puede que te interese otra solución
En el mercado existen otras alternativas para extraer los datos de los PDFs que son indexables: Cloudtrade, y ahora también Tradeshift, extraen los datos del PDF si este se generó desde un programa (es decir, no viene de un escaneo). Extraer datos a partir de PDFs indexables evita errores de “interpretación” de caracteres: evita que el software se equivoque entre 1 y l, o I (i mayúscula) y l (letra ele). Aunque esta manera de extraer datos es una solución de la que hablaremos en otro post.
Si buscas una herramientas de estas características, o si quieres más información sobre estas u otras alternativas, no dudes en ponerte en contacto con nosotros. Estaremos encantados de ayudarte.