Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
16.01.2004
Автоматизация ввода форм: шаг за шагом

Автоматизация ввода форм: шаг за шагом

Когда требуется автоматизация?

Обстоятельства, в которых возникает потребность в автоматизированном вводе форм, могут быть самими различными. Опишем несколько характерных случаев.

  • Обработка форм не является для компании профильной. Например, это производственная или торговая компания. Как правило, в структуре компании даже отсутствует подразделение, специализирующееся на вводе форм. Обработка входящих документов (например, заявок на поставку продукции) в таком случае осуществляется силами секретарей приёмной. Пока объём поступающих форм исчисляется единицами или десятками, особых проблем не возникает. Но когда количество заявок превышает сотню в день, руководству приходится нанимать дополнительных сотрудников. В противном случае в приёмной возникают очереди, да и сами сотрудники вынуждены отвлекаться от общения с клиентами, выполнять несвойственные им задачи.

Решение – автоматизация ввода входящих данных при помощи системы автоматизированного ввода форм, ABBYY FormReader Desktop Edition. Она может быть размещена на одном рабочем месте, практически не требует расширения штата и дополнительного обслуживания.

  • Обработка анкет – один из основных бизнес-процессов в компании. Пример - маркетинговое агентство, реализующее сбор и обработку данных. Задача обработки характеризуется прежде всего большим объёмом поступающей информации. Агентство может нуждаться в обработке до 10 тыс. страниц в день и даже больше, причём ввод данных здесь – часть основного технологического процесса. И требования к системе, выбираемой для автоматизации ввода, имеют свои особенности.

    Во-первых, объём поступающей информации зависит от пожеланий заказчика того или иного маркетингового исследования. Понятно, что этот объём может сильно изменяться в зависимости от условий проведения очередного исследования. Поэтому особенно важно обеспечить хорошую масштабируемость - возможность быстрого расширения системы автоматизированного ввода данных.

    Во-вторых, в силу специфики деятельности агентства, вложение средств в автоматизацию обработки данных представляет собой вложение в основные средства производства. Поэтому для технико-экономического обоснования вложений необходимо, чтобы возврат на инвестиции (ROI) во внедрение системы был заранее известен и имел приемлемое значение.

    В-третьих, анкеты могут существенно меняться от проекта к проекту. Поэтому маркетинговому агентству неплохо бы иметь в распоряжении простое средство для рисования новых форм.

Такая система автоматизированного ввода форм, как ABBYY FormReader Enterprise Edition, удовлетворяет всем этим условиям. Масштабирование системы может осуществляться неограниченно - как простым увеличением количества станций, так и за счёт организации распределённой обработки данных.

  • Перевод архива в электронный вид. Чаще всего эта задача возникает единовременно. Однако объём подлежащей оцифровке информации при этом весьма велик – в «бумажном» виде архив обычно занимает несколько комнат, целиком заставленных стеллажами. В то же время владельцы архива обычно не располагают финансовыми и организационными возможностями для найма дополнительных сотрудников.

    В данном случае не столь важно время, которое может потребоваться для организации автоматизированной системы ввода данных. Самое главное – простота решения. Оптимальным считается вариант, который может быть реализован без привлечения большого количества людей и серьёзных вложений. В частности, таким вариантом является организация одного рабочего места оператора на базе системы автоматизированного ввода форм ABBYY FormReader.

Для такого случая у компании ABBYY есть специальная система лицензирования FormReader - так называемая модель Page Count. Эта схема лицензирования предполагает, что пользователь приобретает возможность ввода ограниченного объема страниц. Выполнив заданный объём работ, система переходит в заблокированное, не пригодное для использования состояние. Когда нужно один раз ввести известное количество страниц, такой подход оказывается наиболее удобным и оправдывается с финансовой точки зрения.

Возможно, на вашем предприятии существует похожая ситуация, ставятся аналогичные задачи. Но как приступить к решению? С чего начать? Что предпринять в сложных ситуациях?

Подготовка бланка формы

Работа начинается с подготовки бланка, который будут заполнять опрашиваемые. Очень важно создать форму, удобную как для заполнения, так и для обработки. Ошибки, допущенные при разработке бланка формы, могут катастрофически понизить эффективность всего процесса. Поэтому на всех стадиях подготовки следует строго придерживаться рекомендаций, которые исходят от поставщика системы автоматизированного ввода.
Изготовление бланка формы состоит из трёх основных стадий: разработка логической структуры, разработка её дизайна и рисование бланка формы. Рассмотрим все эти стадии подробнее.

Разработка логической структуры формы.

Чем лучше продумана структура, тем проще в дальнейшем будет заполнять и обрабатывать форму. Определите, какие именно данные понадобится вводить, составьте и согласуйте со всеми заинтересованными лицами список информационных полей.

Затем следует определить такие важные параметры, как формат и количество листов формы. Обратите внимание: смена формата впоследствии может привести к необходимости вносить существенные изменения как в бланки формы, так и в настройки системы! Именно поэтому советуем сразу рисовать все эскизы на листах выбранного формата, чтобы не столкнуться с нехваткой места для элементов формы.

Идентифицирующее поле для многостраничных форм (ID field). Если выяснилось, что нужна многостраничная форма, сразу продумайте, каким образом избежать путаницы – как между страницами, так и между формами? Обычно в таких случаях каждую страницу снабжают специальным идентифицирующим полем. Данные, внесенные в это поле, должны быть одинаковы на всех страницах формы. Какое именно поле для этого выбрать, зависит от предметной области. Например, это может быть ИНН физического лица, номер страховой карточки, БИК банка, номер карточки социального страхования, учетный номер клиента, шифр проекта и т.д.

Простые и составные поля. Продумывая компоновку формы, старайтесь составлять поля как можно проще. Дело в том, что количество ошибок заполнения и ошибок распознавания на простых полях оказывается куда меньше. Чем точнее можно задать множество слов (или символов), которые могут встретиться в данном поле, тем выше будет качество распознавания. Весьма желательно разделять на несколько составляющих такие поля, как ФИО, дата, телефон (код города + номер), адрес (страна + город + улица + ...).

Свободное место на форме всегда в дефиците, поэтому если известна максимальная длина поля, то под это поле надо отводить ровно необходимое число позиций. Это поможет «дисциплинировать» заполняющего, а сам процесс заполнения сделать для него более удобным. Примеры текстовых полей с известным числом позиций: ИНН, почтовый индекс, почтовое сокращение для штата в США, номер телефона для локально распространяемых анкет, знаки стандартизации, сокращенное название валюты.

Длина полей. Длина слов в таких полях, как «название улицы», «фамилия» или «e-mail» может быть весьма произвольной, поэтому для них количество знакомест следует выбирать с запасом. Если есть большая вероятность того, что длины одной строки будет недостаточно, отведите под это поле 2 или более строки. Система позволяет объединить их в одно поле прямо в процессе распознавания, так что на качестве это не отразится.

Разделители. Желательно сделать форму такой, чтобы заполняющий вносил в неё только значимую информацию. Например, в поле «дата» желательно сразу расставить символы-разделители (точки, тире или наклонные черты). Пусть заполняющий впишет только цифры – это заметно повысит точность распознавания. Другие примеры: можно сразу проставить на форме дефис для SSN или ГОСТ, первые 3 цифры года.

Метки (checkmarks). В тех случаях, когда заранее известны все возможные варианты ответа, вместо текстовых полей лучше использовать метки. Алгоритмы OMR (Optical Mark Recognition), позволяют определять наличие рукописных отметок с очень высокой вероятностью (около 100%), что гораздо выше показателей для распознавания рукопечатного текста. Поэтому при первой возможности старайтесь заменять текстовые поля метками или группами меток. Например, вместо текстового поля «семейное положение», в которое заполняющий сможет вписать произвольное слово («женат», «замужем», «разведен», «холост» и т.д.), рекомендуется создать группу из 3-х меток («не состою в браке», «состою в браке», «разведен (а)»).

Подписи и фотографии. Если необходимо разместить на форме такие поля, как «подпись», «печать», «фотография», «отпечатки пальцев», постарайтесь отвести для них достаточно места. Тогда количество помарок при заполнении будет меньше, а качество распознавания – выше. Обратите внимание: когда ставят печать или приклеивают фотографию, на обратной стороне листа зачастую проступают пятна; поэтому необходимо убедиться в том, что это не помешает обработке информации с противоположной стороны формы.

Выбор типа формы и разработка дизайна

Отделение содержимого полей от разметки – одна из главных проблем распознавания текста. И то, насколько успешно она решается, во многом зависит от правильного выбора типа формы. Внесенная в поля информация должна быть корректно отделена от прочих элементов: границ полей, фона, служебных и пояснительных надписей. Напомним, что наиболее удобными с данной точки зрения являются так называемые цветные фоновые формы (drop-out forms). Фон дисциплинирует заполняющего, поскольку задаёт границы полей и отдельные знакоместа, а на результат распознавания не влияет, так как отсеивается при сканировании. Простой критерий выбора может быть сформулирован так: используйте серые фоновые формы во всех проектах, где невозможна типографская печать цветных фоновых форм.

Занимаясь разработкой дизайна, непременно обратите внимание на правильный выбор и расстановку реперных и идентификационных элементов формы, тогда автоматический ввод данных будет максимально эффективен.

Что такое реперы? Для точного наложения шаблона система должна иметь возможность «опереться» на некие элементы. Их принято называть реперными блоками, или реперами. Благодаря им программа сможет отследить линейные искажения и сдвиги изображения, а также определить расположение полей. Такие элементы принято называть также «якорями» (anchors). Примеры реперных полей: черные квадраты, углы, кресты, не исчезающие при сканировании надписи, линии. Специалисты компании ABBYY рекомендуют размещать 3 или 4 черных квадрата в углах листа – их наличие позволяет программе наиболее эффективно накладывать шаблон формы. Это дает возможность вводить в едином потоке формы, напечатанные на разных принтерах и формы, переданные по факсу.

Что такое идентификатор? Это элемент, сохраняющийся на изображении формы после сканирования и служащий для определения шаблона, который применяется по отношению к форме. В случае одновременной обработки нескольких форм в одном потоке необходимо на каждой странице формы предусмотреть уникальный элемент, отличающий её от других. В качестве идентификаторов рекомендуется использовать штрих-код, название формы или дополнительный к четырем – пятый черный квадрат.

Рисование бланка формы

Как правило, когда уже продумана логическая структура формы и нужно переходить к разработке дизайна – возникает закономерный вопрос: какие программные инструменты лучше всего использовать? Мы предлагаем краткий обзор соответствующих программ.

Если в штате организации есть дизайнер, умеющий работать с CorelDRAW или Adobe Illustrator, лучше всего прибегнуть к его услугам. Эти средства наиболее удобны, ну у них есть своя специфика использования: оба графических пакета – «тяжёлые», профессиональные инструменты, к тому же весьма недешёвые. Работа с ними может оказаться непосильной для непрофессионала, а освоение всех возможностей этих программ займёт много времени.

Пакет Microsoft Visio более распространён и менее сложен. Хотя он предназначен для рисования графиков и схем, с его помощью можно при желании делать неплохие формы. Проще всего использовать для этого так называемые галереи трафаретов - такую галерею, содержащую элементы форм: квадраты, поля для ввода и т.д., можно получить, например, в компании ABBYY. Так можно создавать весьма профессиональные серые фоновые формы, которые печатать на лазерном принтере.

В самом крайнем случае – если нет ничего более подходящего – можно создавать несложные формы и при помощи общеизвестного текстового редактора Microsoft Word 2000. Поскольку система предназначена для других целей, рисование формы при помощи текстового процессора является не самым легким и приятным процессом…

Впрочем, есть способ намного удобнее. Программа FormDesigner из комплекта поставки ABBYY FormReader специально создана для рисования форм. Этот простой и удобный инструмент позволит быстро и безошибочно изготовить форму любой сложности.

Формы содержат определенные типовые элементы: название бланка, черные квадраты, текстовые поля, состоящие из названия и ячеек для ввода, метки и т.д. Удобно, когда все эти элементы заранее нарисованы, а их параметрами, такими как размеры или вид рамки, легко управлять, задавая нужные значения в свойствах. Программа FormDesigner позволяет создавать и редактировать формы в соответствии с принципами WYSIWYG. Всё, что требуется от дизайнера – просто переносить при помощи мыши стандартные элементы из галереи на бланк формы. Это даёт возможность приступить к работе, не тратя время на поиски специальных графических примитивов. Когда работа над формой завершена, создается файл *.xfd, в котором хранится автоматически созданная разметка шаблона формы. В дальнейшем при настройке программы на работу с этой формой достаточно лишь импортировать готовый xfd-файл, указать нужные атрибуты уже размеченных полей, задать правила проверок, и скорректировать, если нужно, набор реперных блоков.

Когда бланк готов, нужно настроить систему на работу с полученной формой.

Настройка системы на форму

Смысл этих действий – «объяснить» системе, как именно следует воспринимать те или иные элементы формы, в каких областях искать поля для ввода данных, какие использовать «подсказки» при распознавании. Это не менее важный этап, чем предыдущий.

Изготовление шаблона формы. Здесь мы опишем полную, пошаговую последовательность изготовления шаблона.

  1. Процесс изготовления шаблона начинается с получения изображения незаполненной формы. Чаще всего для этого просто сканируют готовую форму; впрочем, FormReader допускает и использование ранее полученного изображения.
  2. Следующий этап – определение реперов и идентификаторов. Сами по себе эти блоки могут быть выделены на изображении автоматически либо вручную. Идентификационные блоки иногда могут представлять собой статический текст либо штрих-код, для которого нужно задать значение.
  3. Проверка наложения шаблона – совершенно необходимый шаг. Удостоверившись, что созданные реперы и идентификаторы позволяют точно совместить нужный шаблон с изображением формы, переходите к следующей стадии.
  4. Геометрическая разметка полей для распознавания. Создать распознаваемый блок можно буквально одним движением мышки. Если импортировать сделанный в FormDesigner файл *.xfd, то шаблон уже будет содержать выделенные блоки.
  5. Затем следует описать свойства созданных полей, такие как "имя блока", "тип данных", "тип текста", "тип разметки" и т.д. Для того чтобы оптимизировать задание опций блоков, рекомендуем сначала проанализировать шаблон и определить параметры, общие для большинства блоков, которые определить как параметры по умолчанию.
  6. Необходимо определить правила проверки. Правила - это некоторые условия, накладываемые на данные в полях и автоматически проверяемые программой. С помощью правил можно проверить формат распознанных данных и привести их к стандартному виду (например, правило проверки и нормализации даты), проверить информацию по базам данных и спискам допустимых значений, можно проверить корректность соотношения данных нескольких блоков (например, проверить соответствие суммы числами сумме прописью).
  7. Задание нужных параметров опций в разделах «Распознавание» и «Верификация» также может существенно повлиять на качество распознавания.
  8. Если данные предполагается сохранять в базу данных, используя для этого ODBC соединение, настройка такого экспорта также должна быть проведена в редакторе шаблона формы.

До того как начать потоковый ввод необходимо определиться также с выбором сканирующего устройства.

Выбор сканера

От параметров выбранного сканера будет зависеть и скорость, и качество обработки данных. Следует сразу отметить, что при большом количестве форм (свыше 100 ежедневно) обычный планшетный сканер неприменим. Эти устройства, широко распространённые в офисах и неплохо справляющиеся с оцифровкой фотографий и обычной документации, для потокового ввода непригодны: у них невысокое быстродействие и относительно небольшой ресурс. Только представьте, во что превратится стекло планшетного аппарата после сканирования тысячи страниц!

Для полноценного, быстрого и качественного ввода большого количества форм нужен специальный аппарат. На что нужно обратить внимание при выборе сканера? Основные критерии выбора сканера для автоматизированного ввода форм таковы:

  • Формат. Чаще всего для ввода форм используются устройства, способные сканировать листы формата А3, А4 и А5.
  • Оптическое разрешение. Для ввода форм требуется разрешение 200–300 dpi (dots per inch – точек на дюйм) и все сканеры поддерживают такие режимы. Сканирование с более высоким разрешением приводит к непременному замедлению, а скорость сканирования может быть одним из самых критичных параметров при потоковом вводе форм.
  • Двустороннее сканирование. Для многих проектов необходимо применять сканеры, которые могут осуществлять как одностороннее, так и двустороннее сканирование в черно-белом или цветном режимах. Последний режим необходимо использовать, например, при очистке изображения от цветных печатей и сохранении цветных фотографий с анкет.
  • Наличие устройства для автоматической подачи бумаги – автоподатчика (ADF, Automatic Document Feeder). Это устройство, позволяющее загружать формы в сканер пачками, обычно по 25, 50 или 100 документов, необходимо практически в любом случае, иначе работа оператора ввода будет на 90% состоять из манипуляций с бумагой и сканером.
  • Производительность. Часто скорость работы всей системы автоматизированного ввода зависит именно от быстродействия выбранного сканера. Выделяют три основных категории офисных документных сканеров: низко-, средне- и высокопроизводительные. Аппараты первой категории способны обрабатывать от 500 до 2.000 страниц в день, второй – от 5.000 до 10.000, третьей – до 60.000 и больше страниц в день.
  • Контроль двойного захвата листа. Захват протяжным механизмом сканера более чем одного листа бумаги может привести к тому, что какая-то форма вообще не будет обработана. Для предотвращения подобной ситуации во многих сканерах реализованы системы контроля: при помощи взвешивания захваченной бумаги, замера толщины бумаги или контроля светового потока, проходящего через сканируемую бумагу.
    Однако эти способы неприменимы, если поток форм неоднороден, т. е. если вводятся формы различных видов (на разных форматах бумаги, разного цвета, плотности и т.д.). Поэтому наибольшее распространение получают системы контроля на базе ультразвуковых датчиков, которые следят за тем, чтобы отраженный сигнал приходил не более чем от одной поверхности, то есть от одного листа бумаги.
  • Наличие специальных возможностей. Некоторые аппараты оборудованы вспомогательными устройствами, которые могут оказаться очень полезными. Среди них:
    • принтер для надпечатки на одной из сторон отсканированного документа (endorser) специального индекса для идентификации документа в дальнейшем;
    • аппаратный модуль для улучшения качества получаемого изображения;
    • аппаратный модуль компрессии изображений;
    • цветные лампы подсветки для удаления определенного цвета с так называемых «фоновых» (drop-out) форм, обычно красного, реже – синего или зелёного;
    • кеширование изображений с использованием собственной памяти сканера, что также повышает быстродействие системы.
Подготовка персонала

Для работы с ABBYY FormReader практически не требуется специально обученного персонала. Обычно привлекаются операторы, которые проводят собственно потоковый ввод форм, и администратор комплекса, который занимается настройками и выполняет контрольные функции.

  • Существуют две разновидности операторской работы:
    • Если все операции выполняются на одном компьютере, в обязанности оператора входит загрузка форм в сканер, контроль над процессом сканирования и распознавания, и верификация данных.
    • При использовании ABBYY FormReader Enterprise Edition операторов несколько. Каждый из них выполняет только одну функцию - сканирование, проверка сборки многостраничных документов, верификация, экспорт данных.
  • Администратор комплекса по вводу форм выполняет настройку системы. В тех случаях, когда готовится к запуску комплекс на базе версии Enterprise Edition, от администратора требуется не только подготовить шаблоны форм, но также развернуть систему, распределить роли операторов, задать описания многостраничных документов и т.д. Затем, в процессе работы комплекса в его обязанности будет входить мониторинг информационных потоков.

Обучение операторов и администратора занимает от нескольких часов до двух-трех дней, состоящих из практической работы, – за это время приобретаются все необходимые навыки.

Программа обучения администратора:

  1. администрирование оборота форм в компании;
  2. создание новых форм;
  3. подготовка шаблонов форм;
  4. инсталляция продуктов ABBYY, в том числе сетевых;
  5. настройка опций сканирования, распознавания, верификации;
  6. администрирование ролей пользователей системы;
  7. настройка правил проверки и сборки многостраничных документов;
  8. мониторинг работ и формирование отчётов в системе.
Цикл обработки данных

Для того чтобы дать представление об особенностях работы системы автоматизированного ввода форм ABBYY FormReader, опишем в общих чертах цикл обработки данных.

  1. Открытие пакета. Пакетом называется множество однотипных документов, каждый из которых к концу обработки представлен как изображение и как набор упорядоченных, готовых к экспорту данных (значений полей). Открытие пакета (нового или созданного ранее) подразумевает приведение системы в состояние готовности к работе. Выполняется оператором либо автоматически.
  2. Добавление в пакет изображений. Изображения подлежащих обработке форм можно добавлять в пакет одним из трёх способов:
    - сканированием бумажных форм;
    - добавлением в пакет изображений из созданных ранее графических файлов;
    - «перетаскиванием» (drag-and-drop) значка файла используя MS Internet Explorer.
  3. Распознавание. Этот процесс выполняется автоматически и представляет собой перевод имеющегося на изображении текста в электронный вид. Сначала выполняется автоматическое наложение шаблона, после чего на изображении выделяются блоки, предназначенные для распознавания. Затем изображение каждого блока распознаётся, то есть преобразуется в собственно текст.
  4. Проверка результатов. После распознавания всех изображений пакета часть страниц может содержать неуверенно распознанные символы. Такие страницы поступают на ручную проверку (верификацию). Во время верификации оператор либо подтверждает правильность символов, либо исправляет те из них, которые были распознаны неверно. Аналогично исправляются ошибки, обнаруженные правилами контроля. Система помечает страницы, на которых правила не выполняются корректно, специальными флагами ошибки или предупреждения.
  5. Экспорт. Выполняется оператором по нажатию кнопки «Экспортировать». Представляет собой запись полученных при обработке пакета данных в файл указанного формата, либо в базу данных.

Как видно, участие оператора в процессе ввода данных минимально. А главное – у оператора практически нет свободы выбора (одного из источника ошибок) – система проводит оператора по всем стадиям от сканирования до экспорта. Наряду с прочими преимуществами, автоматизированный ввод данных из форм позволяет добиться более высокого, чем при ручном ввода, качества данных. Это достигается за счет применения специальных средств, о чем рассказано ниже.

Рассмотрим схему работы системы потокового ввода форм ABBYY FormReader 6.0 Enterprise Edition.

  • Система имеет один входной и один выходной поток данных.
  • Каждый оператор выполняет только одну операцию, например, следит за сканированием и регистрацией пакетов.
  • Операторы работают по конвейерному принципу.
  • Если каких-либо операторов недостает, например операторов верификации, их количество можно увеличить.
  • В системе осуществляется централизованное хранение данных и параметров настройки.
  • Защита комплекса происходит централизованно, с помощью электронного ключа, установленного на сервере.
Поделиться:




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
21.06.2019
TESSA 3.3 – новые горизонты СЭД
Компания Syntellect объявила о выпуске официального релиза СЭД TESSA версии 3.3.
В новой версии платформы расширены возможности легкого клиента, обеспечена поддержка разных часовых зон и внесено более сотни других улучшений.

28.03.2019
Финансы уйдут в электронный документооборот
На рассмотрение государственной думы РФ вынесен законопроект о введении электронного документооборота в российских организациях. При создании электронных копии бумажных документов, оригиналы нужно будет хранить всего год.

28.03.2019
В ожидании цифрового прорыва
Как выбраться из «колеи», в которой, согласно институциональной теории, движется, увязнув всеми колесами, Россия? Ответ на этот вопрос эксперты ищут не первый год. Вряд ли есть одно решение, но, возможно, в этом стране помогут технологии: отечественная математическая школа всегда высоко ценилась во всем мире, да и IT-отрасль в России развита сильнее прочих. Во всяком случае, именно на их развитие делают ставку власти: от направления «Цифровые технологии» нацпроекта «Цифровая экономика» они ждут настоящего прорыва. Впрочем, его успех, по мнению экспертов, будет зависеть от синхронизации процесса цифровой трансформации во всех российских регионах.