Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
16.01.2004
Борьба за качество

Борьба за качество

Что такое качество ввода?

Мы неоднократно упоминали интуитивно понятный термин «качество ввода», пришло время дать ему определение. Под качеством ввода, понимается степень соответствия информации, поступающей в систему хранения (target system), той, что была внесена на форму при заполнении.

Качество ввода – один из важнейших параметров, характеризующих систему автоматизированного ввода форм.Можно назвать несколько основных факторов снижения качества:

  • Неаккуратное заполнение формы. Если заполняющий допустил помарки или исправления, либо просто написал некоторые буквы слитно, вероятность ошибок распознавания возрастает. Способ противодействия очевиден - при разработке форм чётко обозначить знакоместа для каждого знака и разбить каждое составное поле на ряд простых. Если работа по дизайну формы выполнена с учетом рекомендаций, описанных в разделе «Разработка логической структуры формы», влияние качества заполнения на общее качество ввода будет минимальным.
  • Опечатки. При вводе форм вручную удельный вес этого фактора очень велик. Операторы неизбежно устают и количество допускаемых ими опечаток, относительно небольшое в начале рабочего дня, резко возрастает к вечеру. Единственное радикальное средство борьбы – отказ от ручного ввода. При работе с автоматизированной системой оператор устаёт значительно меньше, кроме того, степень влияния его усталости на качество ввода на порядок меньше. Продукты линейки ABBYY FormReader располагают возможностями проведения автоматической проверки данных. Даже если оператор совершит некую ошибку, система, обнаружив несовпадение со словарным словом (или иным эталоном), выдаст соответствующее предупреждение.
  • Ошибки распознавания. В результате распознавания некоторые символы система обычно помечает как «неуверенно распознанные». Они передаются оператору для дополнительной проверки. Однако если программа, проводя распознавание, самонадеянно остановила свой выбор на неверной гипотезе, такой символ на ручную проверку не попадёт, а сразу поступит в экспортный поток. Таким образом, информация окажется искажена! Это самая серьёзная проблема всех систем автоматизированного ввода. При разработке FormReader 6.0 специалисты ABBYY уделили особое внимание борьбе с такими скрытыми ошибками. Как показывают тесты, количество такого рода ошибок при распознавании букв удалось в итоге снизить до величины, меньшей 0,5%, а для меток этот показатель не превышает 0,1%.

Подведём итог. Одна из основных задач, которую решает система – повышение качества вводимых данных. Далее рассмотрены несколько методов, применение которых позволяет повысить качество распознавания и минимизировать его возможные погрешности. В этом нам помогают:

  • предварительная обработка изображений, что упрощает задачу системе распознавания,
  • проверки по типам данных, что также влияет на решения, принимаемые модулем распознавания,
  • удобная система верификации данных,
  • проверки формата данных,
  • логический контроль данных,
  • проверка сборки многостраничных документов (ABBYY FormReader 6.0 Enterprise Edition).
Предварительная обработка изображений

Нередко на изображениях форм присутствует «мусор» — точки разного размера, иногда листы сканируются под углом и изображение получается несколько повернутым. Бывают ситуации, когда формы при сканировании повернуты на 90 градусов. Для системы распознавания крайне важно минимизировать воздействие такого рода факторов. ABBYY FormReader 6.0 умеет делать следующее:

  • очищать изображение от мелкого «мусора», причем имеется возможность задавать в интерфейсе размер мусора, подлежащего удалению;<
  • исправлять перекошенные изображения с углом перекоса до 10 градусов;
  • поворачивать страницы на угол кратный 90 градусам;
  • осуществлять инверсию - операцию преобразования негатива в позитив или наоборот.

Умеет программа отслеживать и так называемую «текстуру». Обычно так называют фоновое изображение, состоящий из точек или произвольных линий, имеющих толщину гораздо меньше чем распознаваемые элементы. FormReader обнаруживает и удаляет с изображения текстуру непосредственно перед анализом текста и распознаванием. Если система встречает множество отдельных небольших точек, то она удаляет их ещё на этапе предварительной обработки, а если - сетку из довольно длинных тонких линий, то их отделение и удаление производится уже при определении структуры документа.

Проверки по типам данных

Ещё до верификации, непосредственно в процессе распознавания, ABBYY FormReader 6.0 проводит проверки по словарям и пользовательским базам данных. Допустим, в нашей форме есть поле «Любимая марка сыра» и у нас имеется список названий всевозможных сортов сыра. В такой ситуации мы можем, используя средства ABBYY FormReader, создать новый тип данных «Сорта сыра» на основе имеющегося перечня, собранного в текстовом файле, и указать, что в данном поле могут встречаться только слова, отнесенные к типу данных «Сорта сыра». Когда для поля в шаблоне указано соответствие определённому словарю, это помогает программе распознавания идти по верному пути.

В комплекте ABBYY FormReader 6.0 поставляется набор стандартных типов данных, тематика которых охватывает все наиболее «популярные» области. В частности, в набор входят словари русских имён, русских фамилий, названий российских городов, и т.п. Аналогичные словари подготовлены и для многих других языков. Понятно, что заранее разработать словари «на всё случаи жизни» было бы крайне затруднительно. Поэтому FormReader 6.0 наделён возможностью создания особых – пользовательских – типов данных. Пользовательские словари могут подключаться к системе в любых количествах.

Наряду со словарными типами данных, широко применяется определение типа данных на основании регулярного выражения. Регулярное выражение определяет возможные комбинации символов и их взаимное расположение. Например, регулярное выражение "к"*"т" допускает все трёхбуквенные слова, в начале которых стоит «к», а в конце «т» - кит, кот и т.п.

Верификация

Поскольку точность распознавания форм произвольного вида всегда несколько ниже 100%, для повышения качества ввода в ABBYY FormReader 6.0 реализован процесс проверки распознанных данных человеком - верификации. В системе реализовано 3 способа верификации.

  1. Групповая проверка. Идеально подходит для одновременной проверки данных, заведомо принадлежащих к относительно небольшому множеству, например, цифр. При групповой проверке все неуверенно распознанные символы одного вида (скажем, все тройки) выводятся на экран перед оператором. В силу особенностей человеческого восприятия верификатору проще выделить один нетипичный символ из большого количества однотипных, чем искать тот же символ в тексте. Понятно, что скорость верификации за счёт применения групповой проверки существенно возрастает – ведь оператор может одним нажатием на кнопку Enter подтвердить сотни символов!
  2. Контекстная проверка. На экран одновременно выводятся две строки - фрагмент исходного изображения и результаты распознавания. Поэтому оператор может сличить результаты распознавания с содержимым поля. Оператор подтверждает правильность распознавания путём нажатия всего одной кнопки, либо корректирует неверно распознанные символы.
  3. Проверка в форме. Если те или иные контрольные проверки свидетельствуют о наличии серьёзных ошибок, форма, в которой обнаружены последние, помечается «флажком». Затем такая форма будет выведена на экран с тем, чтобы верификатор имел возможность поочерёдно осмотреть все поля «подозрительной» формы и внести необходимые изменения.

Все вышеописанные способы верификации реализованы в ABBYY FormReader 6.0 в рамках общей идеологии, суть которой – минимизировать количество нажимаемых верификатором клавиш. Именно этот параметр, а вовсе не количество неуверенно распознанных символов, серьёзнее всего влияет на скорость и качество верификации, и следовательно – на общее качество ввода. Ведь зачастую почти все символы, подсвеченные как подозрительные, системой распознаны правильно. А чтобы подтвердить название переулка «2-ой Спасоналивковский» из более чем 20-ти подсвеченных, но правильно распознанных символов, требуется лишь ОДИН раз нажать на кнопку Enter.

Проверка формата данных

По окончании распознавания ABBYY FormReader 6.0 проверяет распознанные данные на соответствие указанным при создании шаблона форматам. Рассмотрим этот вид контроля на примере поля «Серийный номер». Предположим, известно, что номер должен состоять из сочетания SNFR, за которым должна следовать одна цифра, затем ещё две группы цифр: SNFRn–nnn–nn.

В процессе обработки система, анализируя данные, полученные для поля «Серийный номер», пометит флажком ошибки те страницы, где количество цифр не совпадает с заданным, где вместо цифр оказались буквы и т.д. Это позволяет быстро и точно выявлять такие сложные для визуального различения ошибки, как «О вместо 0», «З вместо 3», и т.п. Работа правила может приводить к возникновению «ошибки» или «предупреждения». В первом случае страница не может проходить дальнейшую обработку, пока оператор не внесет необходимые правки.

Логический контроль

Данные в форме зачастую имеют какие-либо ограничения. Например, про них может быть известно, что они должны попадать в определенный интервал. После распознавания данные проверяются на выполнение наложенных условий и, если условия не выполняются, оператору выдается сообщение об ошибке. Рассмотрим некоторые такие правила.

  • Нормализация и проверка даты. Правило реализуется в три этапа:
    (а) проверяется корректность распознанной даты,
    (б) дата преобразуется к заданному формату,
    (в) дата проверяется даты на вхождение в указанный диапазон. На первом этапе отсеиваются варианты наподобие 32/45/199; на втором данные выстраиваются в нужном порядке, например, ДД-ММ-ГГГГ; на последнем этапе проверяется вхождение даты в указанный для правила интервал.
    /FONT><
  • Нормализация цены. Автоматически приводит цену к заданному виду (например, 12.90 или 12,90). Правило сообщает об ошибке, если распознанное значение невозможно преобразовать в нормализованный вид.
  • Проверка с условием. На специальном языке, напоминающем языки программирования высокого уровня, пользователь может описать требуемое условие и определить действия, которые следует произвести в случае выполнения или невыполнения. Ниже приводится пример описания условия, согласно которому будет выдано сообщение об ошибке, если поля формы «Страна» или «Город» окажутся незаполненными.
if [City].IsEmpty() then Error( [City] , "Не указано название города") 
else
if [Country].IsEmpty() then Error( [Country] , "Не указано название страны") 
else TRUE
  • Проверка суммы чисел. Если на форме есть несколько числовых полей, сумма которых также присутствует на форме, у нас появляется хороший шанс применить дополнительную проверку. Можно определить контрольное правило, которое будет пересчитывать сумму слагаемых и проверять полученное значение с константой или со значением другого поля.
  • Проверка соответствия числа цифрами числу прописью. Сопоставляет значение, распознанное в блоке «число цифрами», со значением в блоке «число прописью». Данное правило может быть применено только к целым числам в русскоязычных документах.
  • Automation-проверка. Правило проверки через OLE Automation позволяет пользователю задать свои собственные, сколь угодно сложные, проверочные условия на блоки шаблона, выдавать сообщения об ошибках, а если условие проверки не выполнилось, и модифицировать значения блоков.

Таким образом, как можно видеть, система автоматизированного ввода форм в состоянии обеспечить разнообразный логический контроль за распознаваемыми данными: автоматически отыскать вкравшиеся ошибки, указать на них оператору для ручной проверки и не пропускать данные до тех пор, пока они не соответствуют заданным ограничениям.

Обработка многостраничных форм

При обработке многостраничных форм случаются ситуации, когда страница из одной формы попадает в другую. Это серьезная проблема, ставящая под угрозу качество вводимых данных. Во избежание ошибок подобного рода на многостраничных формах предусматривают специальное поле, уникальный идентификатор. На всех страницах одной формы, естественно, проставляется один и тот же идентификатор. По этому полю система и определяет принадлежность отдельных страниц к документу и производит так называемую сборку.

Для обработки многостраничных форм с меняющимся составом страниц разработана система потокового ввода ABBYY FormReader Enterprise Edition. Эта версия имеет ряд принципиальных отличий от Desktop Edition. В частности, в ней предусмотрен механизм описания форм, состоящих из нескольких страниц.
Применительно к работе ABBYY FormReader Enterprise Edition сборкой называют составление из данных, полученных с разных, возможно, разрозненных страниц, единой информационной структуры, ассоциируемой с конкретной многостраничной формой.

Примером идентификатора, успешно используемого при потоковом вводе большого количества многостраничных форм, может выступить ИНН (Идентификационный Номер Налогоплательщика). При обработке налоговых деклараций физических лиц ИНН указывался на каждой странице заполняемой формы декларации, что позволяло практически безошибочно собирать формы из отдельных страниц налоговых деклараций и обрабатывать огромные объёмы информации.

Если по каким-то причинам правило сборки многостраничного документа выдает ошибку, документ подается на специальную рабочую станцию – Коррекции, где производится анализ ситуации. После чего оператор вручную переставляет страницы одного или нескольких документов, добавляет или пересканирует отдельные страницы, запрашивает повторный ввод всего документа и т.д., а затем вновь проверяет сборку, запуская правила проверки.

Спокойная работа оператора – еще одна гарантия качества!

Но самое главное, что даёт внедрение системы автоматизированного ввода – возможность избавить сотрудников от тупой, монотонной работы по ручной «набивке» данных. Нашему оператору на 90% нужно заниматься верификацией, т.е. в большинстве случаев нажимать на одну-две кнопки. При этом ему не приходится постоянно переключать внимание с бумаги на клавиатуру и экран и обратно; он не должен каждый раз вспоминать, в какую же графу базы данных следует внести ту или иную цифру. Все нужные логические связи продуманы, проверены и отлажены ещё на этапе внедрения системы. В результате, дело продвигается быстрее и спокойнее.

Естественно, происходят и другие позитивные изменения – процесс обработки кардинально ускоряется, существенно возрастает качество ввода. Но самый важный эффект от внедрения всё же заключается не в этом. Когда люди перестают сильно уставать, ежедневно портить глаза, нервничать из-за срыва сроков, так или иначе улучшается настроение каждого работника, общая атмосфера в коллективе. А подобные улучшения стоят очень дорого. И к тому же – не покупаются.

Поделиться:




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
21.06.2019
TESSA 3.3 – новые горизонты СЭД
Компания Syntellect объявила о выпуске официального релиза СЭД TESSA версии 3.3.
В новой версии платформы расширены возможности легкого клиента, обеспечена поддержка разных часовых зон и внесено более сотни других улучшений.

28.03.2019
Финансы уйдут в электронный документооборот
На рассмотрение государственной думы РФ вынесен законопроект о введении электронного документооборота в российских организациях. При создании электронных копии бумажных документов, оригиналы нужно будет хранить всего год.

28.03.2019
В ожидании цифрового прорыва
Как выбраться из «колеи», в которой, согласно институциональной теории, движется, увязнув всеми колесами, Россия? Ответ на этот вопрос эксперты ищут не первый год. Вряд ли есть одно решение, но, возможно, в этом стране помогут технологии: отечественная математическая школа всегда высоко ценилась во всем мире, да и IT-отрасль в России развита сильнее прочих. Во всяком случае, именно на их развитие делают ставку власти: от направления «Цифровые технологии» нацпроекта «Цифровая экономика» они ждут настоящего прорыва. Впрочем, его успех, по мнению экспертов, будет зависеть от синхронизации процесса цифровой трансформации во всех российских регионах.