Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
13.09.2013
Что такое ввод данных?

Следует разделять понятия «ввод документов» (Document capture) и «ввод данных» (Data capture).

Ввод документов – это процесс преобразования бумажной версии документа в электронное изображение, происходящий, чаще всего, с помощью сканирования. При этом процесс ввода документов часто содержит в себе еще и фазу простого распознавания текста, когда в дополнение к электронному изображению документа также получается его текстовое содержимое, однако без выделения в нем каких-либо структурных единиц или логических блоков.

Ввод данных предполагает, что из обрабатываемого документа необходимо извлечь какую-то структурированную информацию, поля, атрибуты, чтобы в последующем передать эти реквизиты документа на обработку в другую информационную систему. Процессы ввода данных могут применяться как к бумажным документам, так и к электронным, в случае если формат последних не подходит для последующей обработки данных из них в других информационных системах.

Чтобы проиллюстрировать разницу между понятиями ввода документов и ввода данных рассмотрим несколько примеров. Ввод документа: сканирование журнальной статьи, распознавание ее и сохранение полученных изображения и текста в формате PDF. Ввод данных: распознавание полученного по электронной почте PDF-документа с счетом на оплату товара, определение в полученном тексте таких атрибутов как наименование поставщика, дата счета, сумма счета, срок оплаты для последующей передачи их в бухгалтерскую систему. Еще один пример ввода данных: сканирование уже упомянутой выше журнальной статьи, но кроме простого распознавание ее, еще и нахождение в тексте названия статьи, ее автора, даты подготовки статьи, сохранение изображения статьи, ее текстового содержимого и найденных информационных атрибутов в базе данных о публикациях в прессе.

Также говоря о терминологии важно отметить, что многие специалисты не видят точного аналога англоязычному понятию Capture в российской документоведческой практике. При подготовке данного Обзора и работе с англоязычными источниками, в качестве перевода термина «Capture», использовано определение «ввод данных».

Организация процесса ввода и распознавания данных – это комплекс мероприятий, связанных со сканированием бумажных документов, обработкой полученных изображений и/или электронных документов, распознаванием текстовых и цифровых значений полей документа, штрих-кодов и последующей конвертацией распознанной информации в нужный формат для передачи на хранение в архив или в другие информационные системы.

Ввод и распознавание данных включают следующие этапы работы с данными.

Для начала рассмотрим этапы, характерные для работы с бумажными документами:

Выбор подхода к сканированию, модели ввода данных.

Выбор схемы, по которой будет реализовано сканирование и ввод, может осуществляться с учетом организационных задач на предприятии, а также исходя з типа технологической реализации.

Первый подход к определению модели ввода исходит из стратегических задач организации, специфики ее рабочих процессов. Он подразумевает выбор между обработкой документов по мере их поступления, либо по мере накопления. К примеру, в случае если характер деятельности организации требует, чтобы клиенты вносили данные и получали отклик оперативно по месту их обращения, потребуется обработка по мере поступления, реализованная во фронт-офисе (от англ. front-office) – точке непосредственного контакта с клиентом или поставщиком, например, это может быть отдел приема заказов или другое подразделение организации, где происходит непосредственное общение с контрагентом.

Если рабочий процесс не предполагает немедленной обратной связи с контрагентами, то также можно рассмотреть возможность организации ввода в бэк-офисе (от англ. back-office), то есть во внутреннем операционно-учётном подразделении.

Способы организации ввода данных также делятся по модели технологической реализации. Среди них выделяют модели трех видов: централизованная, децентрализованная и распределенная, в которой совмещены подходы из первых двух моделей.

Сортировка документов.

Определение типов документов, которые должны подлежать вводу. Современные системы ввода документов и данных предлагают возможности для автоматического определения типа и последующей сортировки документов. Однако в некоторых случаях может понадобиться и ручная предварительная сортировка.

Подготовка документов.

Физическая или логическая подготовка документов для последующего сканирования и распознавания. Данный этап позволяет уменьшить количество ошибок при переводе данных в электронный вид, определить важность документов, сократить необходимость повторного сканирования.

Выбор оборудования для ввода данных.

В этот этап входят все шаги по определению требований к аппаратному обеспечению (сканеры, МФУ), приобретение и настройка самих устройств.

Сканирование.

Перевод документов из бумажного в электронный формат с помощью соответствующих аппаратных и программных средств.

Ввод данных

Этапы перечисленные далее применяются как для электронных образов документов, полученных в результате сканирования, так и для электронных документов, полученных альтернативными путями, например, изображения из факс-сервера или изображения, полученные путем преобразования документов из других электронных форматов с целью извлечения данных из них.

Обработка изображений.

Данный этап позволяет улучшить качество полученного документа, с тем, чтобы сократить количество неточностей при распознавании и уменьшить риск утери важной информации. К этапу обработки изображений относятся такие операции как, например, коррекция возможных перекосов изображения, неравномерности освещения, если документ был снять цифровой камерой или мобильным телефоном, удаление из изображения документа цветных печатей и штампов, которые могут мешать процессу распознавания.

Распознавание.

Данный этап позволяет перевести обработанные и подготовленные изображения в редактируемые форматы и/или извлечь нужные данные из документа с помощью специального программного обеспечения.

Верификация.

На этом этапе проводится проверка извлеченных при распознавании данных на корректность распознанной информации и на соответствие правилам перекрестных проверок. Данные операции проводятся в основном в автоматическом режиме, с предложением оператору проверить лишь те случаи, по которым правила автоматической проверки документа показывают либо недостаточную уверенность в качестве распознавания либо несоответствие полученных данных правилам перекрестных проверок.

Индексирование.

Это процесс проставления условных обозначений, атрибутов и составления указателей, служащих для упрощения доступа к документам и (или) информации.

Сохранение данных, размещение информации.

Завершающий этап процесса ввода, когда обработанные данные либо сохраняются в формате, пригодном для дальнейшего использования в рабочих процессах организации, либо отправляются на обработку в другую информационную систему (например ERP, CRM или бухгалтерскую) либо публикуются в том или ином виде.

Обычно к система ввода данных предъявляются требования по наличию единых инструментов управления процессами ввода и распознавания, возможностям настройки системы на новые виды документов, а также возможностям настройки процедур сохранения полученных данных и передаче их в другие информационные системы на предприятии.


Также вы можете ознакомиться с обзором «От бумажных документов к электронным данным» полностью. Скачать.

Поделиться:




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
21.06.2019
TESSA 3.3 – новые горизонты СЭД
Компания Syntellect объявила о выпуске официального релиза СЭД TESSA версии 3.3.
В новой версии платформы расширены возможности легкого клиента, обеспечена поддержка разных часовых зон и внесено более сотни других улучшений.

28.03.2019
Финансы уйдут в электронный документооборот
На рассмотрение государственной думы РФ вынесен законопроект о введении электронного документооборота в российских организациях. При создании электронных копии бумажных документов, оригиналы нужно будет хранить всего год.

28.03.2019
В ожидании цифрового прорыва
Как выбраться из «колеи», в которой, согласно институциональной теории, движется, увязнув всеми колесами, Россия? Ответ на этот вопрос эксперты ищут не первый год. Вряд ли есть одно решение, но, возможно, в этом стране помогут технологии: отечественная математическая школа всегда высоко ценилась во всем мире, да и IT-отрасль в России развита сильнее прочих. Во всяком случае, именно на их развитие делают ставку власти: от направления «Цифровые технологии» нацпроекта «Цифровая экономика» они ждут настоящего прорыва. Впрочем, его успех, по мнению экспертов, будет зависеть от синхронизации процесса цифровой трансформации во всех российских регионах.