Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
16.01.2004
Формы. Виды и области применения

Формы. Виды и области применения

Что такое форма и где их применяют?

Формой называется документ, имеющий фиксированную структуру и предназначенный для сбора определённой информации. Основные признаки формы – наличие чётко обособленных полей, пояснительных надписей, а также ряда служебных элементов, о которых мы поговорим дальше. В обиходе формы часто называют бланками.

Формы применяются повсюду, где необходимо опросить большое количество людей. Очень активно пользуются формами государственные учреждения, собирающие анкетные или иные данные, например, Министерство РФ по налогам и сборам или Пенсионный фонд РФ. В первом случае в виде заполняемых от руки форм выполнены налоговые декларации, во втором – анкеты пенсионного обеспечения.

Столь же часто формы находят применение в бизнесе. Страховые компании получают разнообразные виды документов-форм от своих клиентов: заявление на получение полиса, заявление на возмещение ущерба и т.д. Маркетинговые агентства вынуждены постоянно обрабатывать большое количество опросных листов. Образовательные учреждения проводят контроль за качеством знаний при помощи тестов. Весьма распространена процедура сбора данных при помощи форм в банковском деле - клиентами заполняются заявления на получение кредитной карты или на заявки на экспресс-кредитование. А есть еще торговые заказы, отправляемые по почте, рекламные купоны на участие в розыгрыше призов, формы медицинского обследования, квитанции об оплате коммунальных услуг... Список поистине неисчерпаем!

Примеры  машиночитаемых форм

При заполнении формы вся значимая информация заносится в поля – особым образом разграфлённые ячейки. Именно эта информация подлежит дальнейшей обработке. Формы, в которых определение положений полей и отделение данных от разметки может быть выполнено автоматически, программными средствами, называют машиночитаемыми. Вообще говоря, практически любая форма может быть приведена к виду машиночитаемой.

Форма может быть заполнена одним из следующих способов:

  • От руки. Такой способ заполнения называется рукопечатным. При рукопечатном заполнении все символы пишутся раздельно, каждый символ занимает одно знакоместо.
  • На пишущей машинке, матричном принтере или типографским способом.
  • Комбинированно, несколькими из вышеперечисленных способов.
Как устроена форма?

При заполнении формы люди зачастую бывают невнимательны и неаккуратны. Во избежание ошибок формы составляют таким образом, чтобы сделать процесс заполнения интуитивно понятным. Для этого используют специальные элементы, позволяющие ясно указывать заполняющему, какую информацию, куда и как следует вносить. Рассмотрим виды специальных элементов:

  • Информационные поля (entry fields). Предназначены они для внесения собственно данных. Существует три вида информационных полей. 
    • Текстовые поля. Каждое из них представляет собой группу знакомест, обычно с пояснительной надписью. Основное назначение знакомест – побудить заполняющего написать символы раздельно. 
    • Метки, или пункты (checkboxes, checkmarks). Метка выглядит как одиночный замкнутый контур (квадрат, круг, многоугольник), снабжённый пояснительной надписью. Информация в такое поле вносится путём простановки условного знака («галочки», креста) внутри контура, либо путём полного закрашивания. 
    • Группы меток. Так называются несколько меток, расположенных рядом и объединённых по смыслу. Снабжаются пояснительной надписью возле каждой метки, а также общей пояснительной надписью, раскрывающей смысл вопроса. Как правило, метки внутри одной группы соответствуют взаимоисключающим вариантам ответа.
  • Сервисные поля. В них располагаются реперные блоки (anchor points, reference points, definition blocks), используемые при распознавании. С их помощью программа определяет правильную ориентацию формы и выравнивает искажения при оцифровке изображения. Иногда сервисные поля служат для идентификации бланка при одновременной обработке нескольких различных форм. В качестве реперных блоков на формах для ввода с помощью ABBYY FormReader могут выступать следующие элементы: 
    • сплошные квадраты чёрного цвета, углы и кресты.
    • сплошные линии, как горизонтальные, так и вертикальные. 
    • статический текст, то есть любая пояснительная надпись.
 

  • Идентификационные поля (ID fields). Эти элементы предназначены для автоматической идентификации самого бланка формы. Реперный блок типа «квадрат», «угол» или «крест» обычно также может использоваться как идентифицирующий элемент. Но, как правило, для целей идентификации используют номер, нанесенный на форму в процессе изготовления бланка, само название формы или штрих-код. 
  • Области для размещения графических изображений. Используются для размещения графических (нераспознаваемых) объектов. В качестве примеров подобных объектов можно назвать блок введения подтверждающей записи, печать или штамп. При помощи FormReader можно помещать находящиеся в таких областях изображения в ODBC-совместимую базу данных в формате TIF, BMP, JPG, PCX, WMF. 
  • Декоративные, необязательные элементы. Логотипы, колонтитулы и прочие элементы стилизации. При автоматизированном вводе информации зачастую используются для идентификации форм - анализируя текст в логотипе, программа может определить, от какой компании поступил данный документ (например, счет).
Виды форм и способы их разметки

Выделяют два основных типа форм: структурированные и гибкие формы. К структурированным относят формы, поля которых не меняют от формы к форме размеры и взаимное расположение. Как найти данные на такой форме? Надо нарисовать её подобие – шаблон – который можно накладывать на поступающие изображения заполненных форм.  Таким образом поля для распознавания как бы вырезаются с изображения. После чего буквы и цифры в этих полях распознаются.

Машиночитаемыми формами называются такие, на которых определение положений полей и отделение данных от разметки может быть выполнено при помощи программы. Кроме требования соответствия всех бланков образцу, форма должна быть такой, чтобы на изображении, полученном в результате сканирования сохранялись реперные и идентификационные элементы. В то же время большинство форм, находящихся в обороте не являются машиночитаемыми. И решение в большинстве случаев заключается в разработке и изготовлении новой, структурированной формы, отвечающей требованиям машиночитаемости.

По способу разметки формы разделяют на три основных типа.

  •  Цветная форма. Все информационные поля на такой форме выполнены в виде белых прямоугольников на цветном поле. Чаще всего фон имеет серый, розово-оранжевый или зелёный оттенок. Цвет и насыщенность фона рекомендуется подбирать таким образом, чтобы можно было легко удалить его на этапе сканирования (drop-out colors). В идеальном случае после сканирования с формы должны исчезать все элементы, за исключением реперов и заполненных полей.

Для подобной обработки используют либо специальные сканеры с цветной (красной или зелёной) лампой, либо особым образом выбранные настройки цветокоррекции в драйверах обычных сканеров. Наилучшее качество распознавания обеспечивается именно при использовании цветных форм.

 

  •  Растровая форма. Информационные поля выглядят как белые прямоугольники на сером фоне. Фон состоит из растровых линий, состоящих из точек, которые расположены на одинаковом расстоянии друг от друга.

После сканирования точки фона остаются на изображении. Однако технологии распознавания ABBYY позволяют удалять как «мусор», отфильтровывать такие точки без потерь информации из заполненных полей.

Существует также обособленная разновидность растровой формы, где фон отсутствует. Границы информационных полей на таких формах обозначаются растровыми линиями, состоящими из отдельных точек.

 
  •  Чёрно-белая линейчатая форма. Границы информационных полей на такой форме задаются обычными линиями, которые не исчезают при сканировании. Возможны следующие виды разметки линейчатой формы: 
    • текст по линии,
    • текст в рамке,
    • буквы в изолированных рамках,
    • буквы в рамках,
    • текст в «гребенке»,
    • текст в рамке с «гребенкой».

Задача отделения содержания полей от их разметки для такой формы решается модулем распознавания. Для этого в атрибутах поля необходимо указать тип разметки и количество ячеек. Используя эту информацию, система, найдёт вертикальные и горизонтальные полоски в разметке и удалит эти черные линии, стараясь не повредить символы. Поскольку на форме может оказаться «мусор», также имеющий вид прямых линий, система «запомнит» все линии разметки, а прочие будет удалять. Также отслеживаются точки соприкосновения элементов распознаваемого символа и «мусорных» линий. После очистки изображения производится распознавание символов.

 

Ввод форм (form processing)

Что такое form processing?

Ввод форм (form processing) – это перевод данных, содержащихся в информационных полях заполненных форм в электронный вид. Он состоит из двух основных этапов:

  • получение (захват) данных из формы (data capture);
  • оцифровка и сохранение изображения исходной формы.

Как правило, процесс считается завершённым, когда все заполненные формы обработаны, а все данные введены, проверены и импортированы в формат используемой электронной базы данных. При этом обычно требуется не только обеспечить высокое качество данных, но и минимизировать трудозатраты.

Существуют два основных метода ввода форм: вручную и с использованием средств автоматизации. В этой главе мы подробно рассмотрим особенности, преимущества и недостатки каждого из этих методов.

Ввод форм вручную

Многие используют этот подход до сих пор, хотя он не оптимален, как с точки зрения надежности, так и с точки зрения трудозатрат. Почему? Судите сами… Оценим, что понадобится сделать для подготовки к вводу форм ручным методом.

  • Организовать рабочие места операторов ввода.  Именно эта статья расходов оказывается самой весомой в затратной части бюджета. Средняя производительность труда квалифицированного оператора – до 200 насыщенных буквенными данными бланков в день. Требуется оснащение всех рабочих мест компьютерами, подключёнными к локальной сети, по одному компьютеру на место.
  • Организовать рабочие места сортировщиков и контролёров входного потока. В задачу контролёра, в частности, входит проверка комплектации многостраничных документов и общий надзор за процессом сортировки. Количество мест рассчитывают исходя из ожидаемых объёмов работы и средней производительности труда: до 1000 форм в день для сортировщика и до 300 форм в день для контролёра. 
  • Нельзя забывать также о рабочих местах контролёров выходного потока. В задачу этих сотрудников входит проверка качества данных, поступающих в электронном виде от операторов ввода, а также исправление ошибок, допущенных операторами.
  • Кроме того, требуется привлечение руководителя группы, осуществляющего общий контроль и управление сотрудниками.

Оценим единовременные и регулярные затраты на отдел, который в состоянии вводить данные из 1000 форм в день. Для обеспечения такой производительности понадобится нанять пятерых операторов ввода, одного контролёра, а также одного руководителя отдела. Понятно, что не обойтись без аренды помещения площадью около 50 кв.м. Для оснащения рабочих мест понадобятся соответственно семь столов, семь стульев, семь компьютеров с мониторами, а также вспомогательная техника (сетевое оборудование, источники бесперебойного питания). 

 Статья расходов

 Сумма расхода, US$

 Количество

 Итого, US$

  Компьютер

 500

 7

 3500

  Комплект мебели

 500

 7

 3500

  Сетевое и прочее оборудование

 -

-

 500

     

 7500

Таблица 1. Единовременные затраты  при ручном вводе 1000 страниц в день.

Итак, размер разовых затрат – 7500 долларов США. Теперь оценим объём ежемесячных затрат. Допустим, арендная плата составляет 20 долларов в месяц за квадратный метр. Затраты на операторов и контролёров положим равными 300 долларам в месяц, начальника отдела – 500 долларам.

 Статья расходов

 Сумма расхода, US$

 Количество

 Итого, US$

  Затраты на оператора

 300

 6

 1800

  Управление группой

 500

 1

 500

  Аренда офиса

 20

50

 1000

     

 3300

Таблица 2. Ежемесячные расходы при ручном вводе 1000 страниц в день.

Заметим, что при этом не учитывались расходы на электроэнергию, телефонную связь, уборку помещений, затраты на резервный штат и т.д. В итоге даже при весьма скромной оценке затрат получаем сумму порядка 3300 долларов в месяц.

Издержки ручного ввода

Как следует из расчетов, приведенных выше, единовременные и ежемесячные затраты на ручной ввод, например, 1000 страниц в день составляют существенную сумму.

Итак, первый вывод, который мы можем сделать: ручной ввод – это недёшево.

К сожалению, на этом проблемы, обычно сопутствующие ручному вводу не заканчиваются. Как видим, требуется привлечение большого количества новых сотрудников, а также добавление дополнительного уровня управления. Очевидно, что подобную рабочую группу практически невозможно организовать в сжатые сроки. В самом деле, попробуйте быстро найти 8-10 человек, согласных на ваши условия. Зачислите их в штат, закупите технику и мебель. И не забудьте, что люди могут заболеть или даже совсем уволиться – не всякому подойдет такая утомительная работа. А представьте, что клиент, заказывающий обработку форм, желает получить результат уже завтра (в крайнем случае – послезавтра), станет понятно, что проблема цены – не единственная. Как за 2 дня набрать и усадить за работу 10 человек?

Это второй вывод о системе ручного ввода: систему ручного ввода нельзя организовать быстро.

Заметим, что вне зависимости от количества сотрудников, производительность труда вашей рабочей группы не может быть увеличена оперативно, а сама группа оказывается практически не масштабируемой. Например, привлечение нескольких дополнительных операторов ввода бессмысленно, если не обеспечить их рабочими местами. Для организации этих мест надо арендовать дополнительную площадь. А есть ли она у арендодателя? Для контроля вводимой новыми операторами информации следует нанять дополнительных контролёров (им тоже нужны рабочие места)… И так далее. Словом, любое расширение состава группы требует затрат времени и средств, сравнимых с начальными затратами на организацию всей структуры.

Третий вывод: систему ручного ввода нельзя быстро масштабировать.

Существуют и другие проблемы. Наиболее существенны и практически неустранимы те из них, которые обусловлены человеческим фактором. Ручной ввод данных –  занятие утомительное: попробуйте набрать в текстовом редакторе текст хотя бы одной газетной статьи. Поэтому даже опытные операторы допускают опечатки; причём к концу рабочего дня количество ошибок заметно возрастает. Часть из них устраняется контролёрами выходного потока, однако контролёры также подвержены усталости, поэтому качество данных в итоге существенно ухудшается. Известно, что у профессиональных операторов ручного ввода зрение неизбежно ухудшается; уже через пару месяцев могут начаться непредвиденные сложности с персоналом.

Результаты очевидны – качество данных при ручном вводе оказывается низким. Человек, тем более уставший человек, не способен многие часы подряд тщательно и скрупулёзно выверять символ за символом. А значит, готовьтесь к проблемам с заказчиком: будет странно, если ему понравится кишащая ошибками база данных – плод труда вашего отдела.

Таким образом, делаем четвёртый и пятый выводы: людям не нравится такой труд. А вам не нравится качество их работы.

Да, ручной ввод форм не является , мягко говоря, оптимальным вариантом. Особенно это верно для учреждений, проводящих сбор данных при помощи форм постоянно, а не периодически.

Автоматизация ввода форм

Альтернативный метод заключается в применении системы автоматизированного ввода данных. Рассмотрим особенности и основные стадии обработки форм с применением технологии ABBYY FormReader. Автоматизированный ввод данных с бумажных форм состоит из следующих этапов:

  • пачку заполненных форм сканируют при помощи скоростного сканера (обычно применяют аппараты с производительностью не менее 10 страниц в минуту); 
  • подавляющее большинство символов распознается системой автоматизированного ввода данных; 
  • символы, относительно которых сложилось несколько гипотез, автоматически передаются для проверки оператору системы ввода, 
  • подтвержденную информацию экспортируют в базу данных.

Заметим, что на всех стадиях обработки требуется участие только одного человека – оператора ввода. Все операции, кроме укладки пачки форм в приёмный лоток сканера и проверки неуверенно распознанных символов, выполняются автоматически.

Рабочее место оператора ввода должно быть оборудовано сканером и одним компьютером, подключённым к локальной сети. Такое место может быть организовано в течение одного дня и не требует выделения больших дополнительных площадей. Входная сортировка поступающих бланков вручную, а также ручная проверка комплектации многостраничных форм при этом не требуется, поскольку система автоматизированного ввода способна самостоятельно идентифицировать формы и применять наложение нужного шаблона распознавания.

Производительность труда одного оператора, использующего ABBYY FormReader 6.0 Desktop Edition, составляет  от 1000 до 3000 страниц в день в зависимости от сложности форм. Давайте рассчитаем разовые и ежемесячные затраты при использовании такой системы на одном рабочем месте из расчета тех же 1000 страниц в день.

 Статья расходов

 Сумма расхода, US$

 Количество

 Итого, US$

  Компьютер

 500

 1

 500

  Сканер

 1500

 1

 1500

  Комплект мебели

500

1

 500

  Лицензия ПО

 1600

 1

 1600

  Внедрение ПО

 800

 1

 800

     

 4900

Таблица 3. Единовременные затраты  при автоматизированном вводе 1000 страниц в день.

 Статья расходов

 Сумма расхода, US$

 Количество

 Итого, US$

  Затраты на основного оператора

 500

 1

 500

  Затраты на резервного оператора 

 300

 1

 300

  Аренда офиса

 20

10 кв.м.

 200

  Тех. обслуживание сканера (в расчете на месяц)

 -

 -

 20

     

 1020

Таблица 4. Ежемесячные расходы при автоматизированном вводе 1000 страниц в день.

А теперь давайте сравним полученные результаты.

 

 Ручной ввод, US $

 Ввод с FormReader, US $

  Экономия, US $ 

  Разовые затраты 

7500 

 4900

2600

  Ежемесячные затраты

3300

 1020

 2280

Таблица 5. Экономия средств при необходимости ввода 1000 страниц в день.

Цифры говорят сами за себя. Но самое важное то, что выбор автоматизированной системы ввода раз и навсегда решает все пять проблем, описанных выше! Система автоматизированного ввода может быть неограниченно масштабирована, причём для этого потребуется только приобрести нужное количество дополнительных копий ABBYY FormReader. Вы знаете другой способ десятикратно увеличить производительность системы ввода за 1 день?

И конечно, резко возрастает качество данных. Как показывает практика, качество данных при автоматизированном вводе форм оказывается на несколько порядков выше. Причины этого очевидны: влияние человеческого фактора сведено к нулю. Основной объём работы выполняется компьютером, который не устает, и никогда не допускает опечаток. Кроме того, система ABBYY FormReader снабжена набором встроенных правил контроля, которые существенно повышают общую надежность системы и, следовательно – качество данных.


Основные принципы функционирования систем распознавания текста (OCR/ICR)

Выделяют два основных класса систем оптического распознавания символов: OCR (optical character recognition) и ICR (intelligent character recognition). OCR-системы распознают печатные символы, нанесенные на бумагу типографским способом, при помощи принтера, плоттера или пишущей машинки. ICR-системы обрабатывают документы, заполненные печатными буквами и цифрами от руки, или, иначе говоря, распознают рукопечатные символы.

Рассмотрим, чем различаются принципы действия этих систем. OCR-системы в процессе анализа выделяют на изображении блоки (текст, таблицы, иллюстрации), затем последовательно разделяют блоки на всё менее крупные объекты – абзацы, строки, слова, символы. Последние обрабатываются программными механизмами, осуществляющими собственно распознавание; эти механизмы называют классификаторами. Затем распознанные символы «собираются» в слова, слова – в строки, и так далее, вплоть до синтеза полного электронного аналога исходного документа.

ICR-системы, нацеленные в первую очередь на обработку форм, функционируют иначе. На исходном изображении выделяются области, в которых должна содержаться смысловая информация, и затем именно эти фрагменты подвергаются дальнейшей обработке, в том числе и при помощи классификаторов. Иначе говоря, ICR-система не пытается построить точную электронную модель документа, а лишь извлекает информацию из чётко ограниченных областей. Впоследствии эта информация передаётся в систему хранения, будучи упорядочена уже вне всякой связи со структурой исходного документа.

К ICR-системам предъявляются также требования по распознаванию специальных объектов – меток (mark sense). Ведь использование в формах меток, как отмечалось, позволяет упростить заполнение форм и значительно повысить качество ввода, вплоть до 99,9%. ABBYY FormReader 6.0 способен распознавать метки произвольного вида (квадратные, круглые, и т.п.). Используемая для этого технология OMR (Optical Mark Recognition) заключается в следующем: при построении шаблона формы оператор отмечает подлежащую анализу область вокруг метки. Система анализирует и сохраняет информацию о распределении чёрного цвета в указанной окрестности метки. Естественно, при этом необходимо, чтобы метка на эталонной форме не была закрашена. Впрочем, система ABBYY FormReader 6.0 в состоянии обрабатывать отметки типа «пустое место» и «прямоугольная рамка» даже в том случае, если метка на эталонном изображении закрашена. Далее, при распознавании очередной формы система проводит аналогичный анализ и сравнивает полученную информацию о распределении чёрного цвета с эталонной. Если уровень затемнения отчетливо превышает эталонный, выносится решение о том, что данное знакоместо отмечено.

Подобная технология позволяет ABBYY FormReader 6.0 уверенно распознавать не только обычные пометы (галочки, крестики, и т.п.), но и выделять полностью закрашенные метки в том случае, если последние имеют вид прямоугольной рамки или поля без границы. Это находит очень важное применение. Представьте, что заполняющий форму человек допустил ошибку при выставлении галочки, сразу это понял, но… отметка уже стоит! Что делать? Брать новый бланк, заполнять заново? Делать пометку? Есть гораздо более остроумное решение. Заполняющий полностью закрашивает метку, выделенную по ошибке. FormReader выделит такую метку и определит её как отмеченную по ошибке, то есть неотмеченную. Подобный алгоритм может применяться и для текстовых полей.

Поделиться:




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
21.06.2019
TESSA 3.3 – новые горизонты СЭД
Компания Syntellect объявила о выпуске официального релиза СЭД TESSA версии 3.3.
В новой версии платформы расширены возможности легкого клиента, обеспечена поддержка разных часовых зон и внесено более сотни других улучшений.

28.03.2019
Финансы уйдут в электронный документооборот
На рассмотрение государственной думы РФ вынесен законопроект о введении электронного документооборота в российских организациях. При создании электронных копии бумажных документов, оригиналы нужно будет хранить всего год.

28.03.2019
В ожидании цифрового прорыва
Как выбраться из «колеи», в которой, согласно институциональной теории, движется, увязнув всеми колесами, Россия? Ответ на этот вопрос эксперты ищут не первый год. Вряд ли есть одно решение, но, возможно, в этом стране помогут технологии: отечественная математическая школа всегда высоко ценилась во всем мире, да и IT-отрасль в России развита сильнее прочих. Во всяком случае, именно на их развитие делают ставку власти: от направления «Цифровые технологии» нацпроекта «Цифровая экономика» они ждут настоящего прорыва. Впрочем, его успех, по мнению экспертов, будет зависеть от синхронизации процесса цифровой трансформации во всех российских регионах.