В ПАСОСС-Електронни документи обект на OCR са документи (обикновено разходни фактури), които са получени на хартия и трябва да бъдат добавени в дигиталната архивна папка. В системата се съхраняват сканираното копие на оригинала и няколко негови важни реквизита, по които той се идентифицира бързо и лесно в базата данни. Процесът на описване на документа по определени полета се нарича индексация, а полетата, по които се индексира, се наричат ключови. За фактурата и дебитно/кредитно известие в ПАСОСС-Електронни документи ключовите полета са: номер на документа, дата на документа, фирма издател, ИН, ИН по ДДС, вид на документа, обща сума, сума без ДДС, ДДС сума, вид плащане. Всяка фактура се описва по тези ключови полета в отделен ред в таблица, като така тя е лесно откриваема и носи най-важните информация за последващи потребителски справки и финансови отчети. Програмата е обучена да индексира автоматично фактурите на често срещани и популярни доставчици (мобилни оператори, интернет, ЕРП, популярни вериги магазини и други), но обучението продължава постоянно, според нуждите на всеки потребител. Така с времето, броят на автоматично индексираните фактури расте.
Степента на автоматично разпознаване зависи и от качеството на сканираното изображение, а то е пряко свързано с вида на оригиналния документ и настройките на системата при сканирането. Работата е по-лесна и крайният резултат е по-добър, когато хартиеният оригинал:
- е четим и контрастен, написан с машинни букви;
- няма картинки, цветни фонови подложки или водни знаци под разпознавания
- текст или бележки на ръка върху него;
- големината на буквите е с размер 10 или повече пиксела;
- няма наличие на „шум” при отпечатването, замъглени букви или изкривени редове;
- не е зацапан или омачкан от прегъване.
Най-често срещаните проблеми са с документи, на които като воден знак през целия лист е отпечатан текст „оригинал“, лого, реклама или положените подписи на доставчика и получателя са масивни и върху разпознавания текст.
Няколко полезни препоръки за сканиране на документ за OCR
Безспорно, най-доброто изображение за OCR е черни букви на бял фон, но този късмет не се среща често. Разделителната способност (скала на сивото) на скенера пряко влияе върху качеството на изходния файл. Това не означава, че изборът на по-висока резолюция винаги води до по-качествено копие. Когато оригиналът е блед и неконтрастен, желанието да се извлече по-четимо изображение чрез висока стойност на разделителната способност при сканирането, може да доведе до включване в изходния файл на точки, петна, следи от прегъване и други дефекти по хартията, които по-късно при обработката да се разпознават като символи и да затрудняват индексирането.
Установяването на оптимална разделителна способност, според техническите характеристики на скенера и вида на оригинала, става с усъвършенстване опитността на потребителя. Повечето фактури успешно се разчитат при резолюция (разделителната способност, скала на сивото) 300 dpi и допълнителни настройки не са необходими.
Добре е фактурите от един доставчик, особено когато те са значителен брой или регулярни (мобилен телефон, гориво, наем, електроенергия, парно…), да се сканират всеки път при еднакви условия (на една и съща системна конфигурация). Това помага за обучението на състемата и постоянно подобрява степента на разпознаването, като съвсем реалистично е тя бързо да достигне 100%.
Изображение на оригинален документ може да бъде качено в ПАСОСС – еФактуриране > Разходни фактури само във формат PDF. Добре е той да бъде създаден още при сканирането. Така ще се избегнат ненужна компресия, която влошава качеството на картинката, затруднява автоматичното разпознаване на текст и налага допълнителна обработка на изходния файл. За скенери, които не записват в PDF формат, може да се ползва програма Free scan to PDF (безплатна) или подобна.