Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
09.01.2004
ABBYY FineReader White Paper
  1. Перевод документов в электронный вид. OCR-программы.

    Люди работают и создают документы. Со временем документы накапливаются в таких количествах, что начинают мешать. На помощь людям приходят компьютеры; создаваемые с их помощью электронные документы не уступают в информативности обычным, но при этом не загромождают офисные столы. Однако бумаги не торопятся сдавать позиции и по-прежнему остаются неотъемлемой частью нашей жизни. И потому так часто возникает необходимость оцифровать (перевести в электронный вид) какую-либо статью или договор, создать точную электронную копию исходного бумажного документа. Многие пользователи прибегают к помощи сканера. Но сканер передаёт компьютеру лишь изображение страницы, картинку. Возможно, симпатичную, но непригодную для редактирования привычными средствами. Значит, необходим специальный инструмент, способный перевести изображение в подходящий формат, извлечь из него необходимую информацию и создать полноценный электронный документ.

    Такие инструменты существуют, их общее название – программы оптического распознавания символов (optical character recognition, OCR). C помощью OCR-программы компьютер сможет «прочесть» на отсканированной странице текст, отделив его от иллюстраций и прочих элементов оформления, найти таблицы и разобраться в их содержимом. А затем заново скомпоновать всё это в удобном, пригодном для редактирования виде, заново воссоздав внешний вид страницы. Понятно, что это намного проще и быстрее, чем создавать тот же электронный документ вручную.

    Одна из самых популярных OCR-систем называется ABBYY FineReader. Она не только переводит текст в электронный вид, но и создаёт полноценную копию исходного документа, чётко распознавая и сохраняя все его элементы, такие как иллюстрации, таблицы, и прочее. FineReader учитывает мельчайшие нюансы, точно воспроизводя в электронном виде параметры шрифтов, обтекание иллюстраций текстом, и многое другое. Благодаря простоте, надёжности и точности ABBYY FineReader занял достойное место, как в офисах крупнейших корпораций, так и в домах рядовых пользователей. Но у многих людей возникает вопрос: а как он распознаёт документ? На каких принципах построена его работа? В следующих главах мы найдём ответы на эти вопросы и подробно рассмотрим процесс распознавания.

  2. Основные принципы работы ABBYY FineReader.
    2.1 Принципы IPA (целостности, целенаправленности, адаптивности).

    Пользователь помещает документ в сканер, нажимает кнопку, и через небольшое время в компьютер поступает электронное изображение, «фотография» страницы. На ней присутствуют все особенности оригинала, вплоть до мельчайших подробностей. Это изображение содержит всю необходимую для OCR-системы информацию об исходном документе.

    Классическая система оптического распознавания работает по следующему принципу: на основании данных об ограниченном (и чаще всего фиксированном) наборе параметров каждый символ сравнивается с рядом эталонов. В общих чертах процесс выглядит так: выделив на отсканированном изображении объекты, могущие оказаться буквами, система вычисляет для каждого определённый набор параметров (таких, например, как плотность чёрных точек по диагонали). Затем полученные значения поочерёдно сравниваются с эталонами – наборами тех же параметров, рассчитанных для известных символов. И в зависимости от того, для какого эталона разница параметров окажется меньше, система примет решение, каким символом следует считать обнаруженный объект. Естественно, в процессе подобного сравнения неизбежно допускается некоторое количество ошибок.

    Однако лучшие в мире системы оптического распознавания – самые точные, быстрые и надёжные – конструирует живая природа. В их числе и та система, что верой и правдой служит каждому из нас, наш внутренний «распознаватель». Механизмы, позволяющие человеку безошибочно узнавать увиденные предметы, пока не исследованы досконально, однако их базовые принципы изучены хорошо. Таковых насчитывают три:

    • Принцип целостности (integrity), согласно которому созерцаемый объект рассматривается как целое, состоящее из связанных частей. Связь частей выражается в пространственных отношениях между ними, и сами части получают толкование только в составе предполагаемого целого, то есть в рамках гипотезы об объекте.

      Пример: мы видим изображение древовидной структуры. Начато распознавание. Выдвигаются гипотезы: это либо рисунок дерева, и тогда "ветви" структуры соответствуют веткам, либо схема автобусных маршрутов, где "ветви" обозначают пути автобусов с разными номерами, либо это карта речной поймы, а "ветви" - русла рек и ручьёв.

    • Принцип целенаправленности (purposefulness) формулируется просто: любая интерпретация данных преследует определённую цель. Согласно этому принципу, распознавание представляет собой процесс выдвижения гипотез о целом объекте и целенаправленной их проверки.

      Пример (продолжение): если наблюдаемое нами изображение - схема маршрутов, то на "ветвях" должны быть обозначены остановки. Если изображение - карта поймы, должны быть названия рек и ручьёв, а также масштаб. Если же это рисунок дерева, на "ветвях" вероятно наличие листьев, а у основания - изображений травы или земли. Проверка: обозначений остановок нет, листьев и травы нет, у каждой "ветви" надписаны названия, внизу проставлен масштаб. Подтверждена гипотеза: это карта речной поймы, а "ветви" соответствуют руслам. Распознавание закончено.

    • Принцип адаптивности (adaptability) подразумевает способность системы к самообучению. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач. Преимущество самообучающихся систем заключается в способности "спрямлять" путь логических рассуждений, опираясь на ранее накопленные знания.

      Пример: мы видим новое изображение древовидной структуры, внизу проставлен масштаб. Информация: в прошлый раз такое изображение оказалось картой, поэтому прежде, чем выдвигать иные гипотезы, следует проверить наличие названий рек. Проверка: названия обнаружены. Распознавание закончено.

    Вместо полных названий этих принципов часто употребляют аббревиатуру IPA, составленную из первых букв соответствующих английских слов. Преимущества системы распознавания, работающей в соответствии с принципами IPA, очевидны даже неспециалисту; именно они способны обеспечить максимально гибкое и осмысленное поведение системы. Почти такое, как демонстрируют живые "распознаватели", созданные природой.

    Компания ABBYY Software House, опираясь на результаты многолетних исследований, реализовала принципы IPA в компьютерной программе. Система оптического распознавания символов ABBYY FineReader – единственная в мире система OCR, которая действует в соответствии с вышеописанными принципами на всех этапах обработки документа. Можно сказать даже, что FineReader в некотором смысле ведёт себя подобно живому существу, исследующему новый для него объект.

    Например, на этапе распознавания символов изображение, согласно принципу целостности, будет интерпретировано как некий объект, только если на нем присутствуют все структурные части этого объекта, и эти части находятся в соответствующих отношениях. Иначе говоря, ABBYY FineReader не пытается принимать решение, перебирая тысячи эталонов в поисках наиболее подходящего. Вместо этого выдвигается ряд гипотез относительно того, на что похоже обнаруженное изображение, затем каждая гипотеза целенаправленно проверяется. И, допуская, что найденный объект может быть буквой А, FineReader будет искать именно те особенности, которые должны быть у изображения этой буквы. Как и следует поступать, исходя из принципа целенаправленности. Причём проверять, верна ли выдвинутая гипотеза, система будет, опираясь на накопленные ранее сведения о возможных начертаниях символа в распознаваемом документе. В полном соответствии с принципом адаптивности.

    2.2. Многоуровневый анализ документа (MDA).

    Подлежащий распознаванию документ часто выглядит заметно сложнее, чем белая страница с чёрным текстом. Иллюстрации, таблицы, колонтитулы, фоновые изображения - эти элементы, всё чаще применяемые для оформления, усложняют структуру страницы. Для того чтобы корректно воспроизводить в электронном виде такие документы, все современные OCR-программы начинают распознавание именно с анализа структуры. Как правило, при этом выделяют несколько иерархически организованных логических уровней. Объект наивысшего уровня только один - собственно страница, на следующей ступени иерархии располагаются таблица и текстовый блок, и так далее:

    • страница
    • таблица, блок текста
    • ячейка таблицы
    • абзац, картинка
    • строка
    • слово, картинка внутри строки
    • буква (символ).

    Понятно, что любой высокоуровневый объект может быть представлен как набор объектов более низкого уровня: буквы образуют слово, слова - строки и т.д. Поэтому анализ всегда начинается в направлении сверху вниз. Программа делит страницу на объекты, их, в свою очередь - на объекты низших уровней, и так далее, вплоть до символов. Когда символы выделены и распознаны, начинается обратный процесс - "сборка" объектов высших уровней, - который завершается формированием целой страницы. Такая процедура называется многоуровневым анализом документа, или MDA (multilevel document analysis).

    Нетрудно видеть, что программа, допустившая ошибку при распознавании объекта высокого уровня (например, перепутавшая абзац текста с иллюстрацией), почти не имеет шансов корректно завершить процедуру – итоговый электронный документ будет искажён. Риск столкнуться с подобной ситуацией существовал бы и для ABBYY FineReader, если бы он функционировал аналогично большинству современных OCR-систем. Однако он ведет анализ документа несколько иначе.

    Во-первых, объекты любого уровня ABBYY FineReader распознает в полном соответствии с принципами IPA, аналогично рассмотренному выше примеру. В первую очередь выдвигаются гипотезы относительно типов обнаруженных объектов, затем они целенаправленно проверяются. При этом система учитывает найденные ранее особенности данного документа, а также сохраняет вновь поступающую информацию (обучается).

    Но допустим, все объекты текущего уровня распознаны. FineReader переходит к детальному анализу одного из них, определенного, к примеру, как текстовый блок. И вдруг оказывается, что результаты анализа этого блока крайне неубедительны; не удается выделить ни абзацы, ни строки. Система, как мы помним, часто ведет себя подобно живому существу... и потому реакция будет вполне естественна: надо заново определить, что это за блок, причем с учетом уже накопленной информации! Повторный анализ позволяет внести коррективы: да, это текст, но наложенный на фоновое изображение. После дополнительной обработки распознавание будет продолжено – и уже без ошибок (о том, как удалось научить ABBYY FineReader справляться с такими сложными задачами, как выделение текста на фоновом изображении, мы расскажем несколько позже).

    Описанная ситуация наглядно иллюстрирует вторую важную особенность используемого в системе ABBYY FineReader алгоритма MDA: на всех этапах многоуровневого анализа добавлена возможность обратной связи. Иначе говоря, результаты анализа на одном из нижних уровней всегда могут повлиять на действия с объектами более высоких уровней. Наличие обратной связи в процедуре MDA дает возможность резко понизить вероятность грубых ошибок, связанных с неверным распознаванием объектов более высоких уровней.


    Схема работы многоуровневого анализа документов

    Мы кратко рассмотрели основные принципы работы системы оптического распознавания символов ABBYY FineReader. Как упоминалось, распознавание любого документа производится поэтапно, при помощи процедуры многоуровневого анализа документа (MDA). Деление страницы на объекты низших уровней, вплоть до отдельных символов, распознавание этих символов и «сборку» электронного документа ABBYY FineReader проводит, опираясь на принципы целостности, целенаправленности и адаптивности (IPA). Такой подход позволяет системе обеспечить высочайшую точность распознавания, что подтверждается результатами многочисленных тестов, в разное время проводившихся периодическими изданиями.

    Вышеизложенное описание работы ABBYY FineReader весьма и весьма общо. Рассмотрев заложенные в систему принципы, мы не осветили собственно процесс распознавания. В рамках следующей главы будут подробно описаны все этапы работы с объектами разных уровней документа вплоть до отдельных символов.

  3. Как ABBYY FineReader распознаёт документ.
    3.1. С уровня "страница" до уровня "слово". Преимущества разумного подхода.

    На первом этапе распознавания система структурирует страницу, выделяет на ней текстовые блоки. Как мы знаем, современные документы часто содержат всевозможные элементы дизайна: иллюстрации, колонтитулы, цветной фон или фоновые изображения, и т.д. Основная задача на данном этапе состоит в том, чтобы отделить текст от иллюстраций и "подложенных" текстур.

    Здесь уместно будет упомянуть о практикуемых методах подготовки. Все современные системы распознавания начинают процесс «знакомства» с создания черно-белого изображения документа. При этом подлежащее анализу изображение чаще всего цветное или полутоновое (то есть состоящее из разных оттенков серого цвета, подобно картинке на экране черно-белого телевизора). Любая OCR-система прежде всего преобразует такое изображение в монохромное, состоящее только из черных и белых точек. Процесс преобразования называется бинаризацией, он всегда предшествует детальной обработке распознаваемой страницы.

    Далее – в идеальном варианте – все выглядит достаточно просто. Блок текста, состоящий из строк, должен иметь характерную линейчатую структуру. Разделив этот блок на строки, можем приступать в выделению слов. Однако на практике столь простые варианты встречаются нечасто. Возьмите любой документ, где строки текста наложены на цветной фон, и представьте, как будет выглядеть эта страница в черно-белом варианте. Вокруг каждого символа обнаружатся десятки и сотни «лишних» точек, оставшихся от фона. Работая с таким «загрязненным» текстом, большинство OCR-программ не сможет уверенно распознавать. Лишние точки будут искажать очертания букв и даже границы строк, приводя к ошибкам.

    ABBYY FineReader, построенный на иных принципах, не пытается решать задачу бинаризации «в лоб». Принцип целенаправленности диктует иной подход к обнаружению строк в текстовом блоке или слов в строке: они должны быть где-то здесь, надо только суметь их узнать. Для повышения качества поиска FineReader использует процедуры интеллектуальной фильтрации фоновых текстур и адаптивной бинаризации. Первая позволяет уверенно отделять строки текста от сколь угодно сложного фона, вторая – гибко выбирать оптимальные для данного участка параметры бинаризации. Естественно, к этим процедурам система прибегает не всегда, а лишь в тех случаях, когда предварительный анализ указывает на подобную необходимость. В каждом конкретном случае ABBYY FineReader выбирает подходящий «инструмент», опираясь на информацию, накопленную в процессе анализа документа.


    Пример работы интеллектуальной фильтрации фоновых структур.

    Например, идет анализ строки. Система занята поиском объектов уровня «слово». На первый взгляд, проще всего разделить строку на слова по найденным пробелам. Однако первичный анализ показывает, что в конце строки пробелы попадаюстся заметно чаще, чем в начале. Нет ли тут ошибки, не искажено ли изображение? Процедура адаптивной бинаризации исследует яркость фона и насыщеность черного цвета на протяжении всей строки и подбирает оптимальные параметры бинаризации для каждого фрагмента по отдельности. И вот результат: оказывается, часть символов в конце строки получилась слишком светлой и могла бы быть «потеряна» при обработке обычной OCR-программой, но в результате применения адаптивной бинаризации все слова будут выделены точно.


    При неправильном выборе
    параметров бинаризации
    слово окажется нечитаемым.

    Эффективность процедуры обнаружения строк и слов, задействующей интеллектуальную фильтрацию фоновых текстур и адаптивную бинаризацию, оказалась настолько высока, что в отдельных случаях FineReader опережает даже человека! Это не преувеличение: при работе с трудными текстами, такими, например, как древние документы с низкой контрастностью, или страницы, испорченные воздействием воды, ABBYY FineReader не только справляется с «чтением» быстрее человека, но и допускает меньше ошибок.

    3.2. Уровни "слово" и "символ". Распознаватели символов - классификаторы.

    Разделив строку на отдельные слова, ABBYY FineReader приступает к наиболее ответственному и кропотливому этапу распознавания - обработке символов. Следует заметить, что разделение слов на символы и собственно распознавание букв, как и все остальные механизмы многоуровневого анализа документа, реализованы в виде составных частей единой процедуры. Это позволяет в полной мере использовать преимущества принципов IPA. Выделенные изображения символов поступают на рассмотрение механизмов распознавания букв, называемых классификаторами.

    В системе ABBYY FineReader применяются следующие типы классификаторов: растровый, признаковый, контурный, структурный, признаково-дифференциальный и структурно- дифференциальный. Рассмотрим особенности каждого из них.

    • Растровый классификатор.
      Сравнивает символ с набором эталонов, поочередно накладывая изображения друг на друга. Эталонами в данном случае выступают специально подготовленные изображения; каждое из них объединяет в себе очертания множества вариантов написания того или иного символа. Гипотезы выдвигаются в зависимости от того, с какими эталонами точнее совпало изображение буквы. Сами эталоны строятся методом наложения друг на друга большого количества одних и тех же букв в разных вариантах начертания. Растровый классификатор работает быстро, однако высокой точности не обеспечивает. Широко используется в современных системах распознавания символов.


      Примеры растровых эталонов буквы "А" в FineReader

    • Признаковый классификатор.

      Аналогично растровому, выдвигает гипотезы, исходя из степени совпадения параметров символа с эталонными значениями. Оперирует определёнными числовыми признаками, такими, например, как длина периметра, количество чёрных точек в разных областях или вдоль различных направлений и т.п. Весьма популярен у разработчиков OCR-систем. В определённых условиях способен работать почти так же быстро, как растровый. Точность работы признакового классификатора во многом зависит от качества признаков, выбранных для каждого символа. Под качеством признаков в данном случае понимается их способность максимально точно, но без избыточной информации, охарактеризовать начертание буквы.

      Изображение буквы для признакового
      классификатора, определяющего определенные
      признаки (например, количество серого
      в какой-либо точке буквы)

    • Контурный классификатор.
      Обособленная разновидность признакового классификатора. От вышеописанного отличается тем, что признаки вычисляются не по полному изображению символа, а по его контуру. Этот быстродействующий классификатор предназначен для распознавания текста, набранного декоративными шрифтами (например, стилизованного под готический, старорусский стиль, и т.п.). Применяется только в системах распознавания компании ABBYY Software House.


      Примеры контурных эталонов буквы "А" в FineReader.

    • Структурный классификатор.
      Одна из революционных разработок ABBYY Software House. Первоначально был создан и использовался для распознавания рукописного текста, однако в последнее время применяется и для обработки печатных документов. Этот классификатор проводит структурный анализ символа, раскладывая последний на элементарные составляющие (отрезки, дуги, окружности, точки) и формируя точную схему анализируемого знака.
      Затем полученная схема (структурное описание буквы) сравнивается с эталоном. Этот классификатор работает медленнее растрового и признакового, зато отличается высочайшей точностью. Более того, он способен «мысленно» восстанавливать непропечатанные или залитые символы. Применяется только в системах распознавания компании ABBYY Software House.


      Пример обучения структурного классификатора. Заметен "скелет" буквы "А".

    • Признаково-дифференциальный классификатор.
      Предназначен для различения похожих друг на друга объектов, таких, например, как буква «m» и сочетание «rn». Принципиальное отличие этого классификатора от описанных выше заключается в том, что он не анализирует все изображение. Дифференциальный классификатор обращается только к тем частям объекта, где может находиться ключ к правильному ответу (вспомните, как «распознавали» карту речной поймы). В случае с «m» и «rn» ключом служит наличие и ширина разрыва в месте касания предполагаемых букв. Признаково-дифференциальный классификатор используется во многих системах распознавания символов.


      Пример работы признаково-дифференциального классификатора.
      Чтобы верно выбрать одну из похожих букв (заглавные D и O),
      классификатор вычисляет признак (наклон линии в ключевой зоне)

    • Структурно-дифференциальный классификатор.
      Особо точный классификатор, «тяжелая артиллерия» распознавания. Аналогично структурному, был разработан и первоначально применялся для обработки рукописных текстов. Как и признаково-дифференциальный, этот классификатор решает задачи различения похожих объектов, но работает на порядок точнее (за счет анализа структуры). Способен «узнавать» искаженные знаки. Применяется только в системах распознавания компании ABBYY Software House.


      Пример работы структрно-дифференциального классификатора.
      Чтобы верно выбрать одну из похожих букв (сочетание fl и A), классификатор
      сравнивает структуру букв, обращая особенное внимание на внешний контур.

    В самых общих чертах процесс обработки символа выглядит так: растровый и признаковый классификаторы анализируют изображение и выдвигают несколько гипотез относительно того, какая буква на нём представлена. Следует заметить, что при выдвижении каждой гипотезе присваивается определенная оценка (так называемый вес гипотезы). В результате работы растрового и признакового классификаторов система получает список гипотез, отсортированный по весу (то есть по степени уверенности). Продолжая параллель с распознаванием карты речной поймы, можно утверждать, что в данный момент система уже "представляет себе", на что похож символ.

    Затем, в соответствии с принципами IPA, ABBYY FineReader приступает к целенаправленной проверке имеющихся гипотез при помощи дифференциального признакового классификатора. В тех случаях, когда требуется различить два особенно похожих символа (например, "1" и "l"), к анализу подключается дифференциальный структурный классификатор. В самых трудных ситуациях задействуют структурный классификатор. Построив полную схему распознаваемого знака и проанализировав её на предмет наличия ключевых элементов структуры, этот классификатор изменяет веса гипотез в соответствии с результатами своей работы.

    Заметим, что, несмотря на точность используемых распознавателей, окончательное решение относительно обрабатываемого символа на данном этапе не принимается. По окончании работы всех задействованных классификаторов в распоряжение системы поступает не обозначение символа, но список гипотез, возглавляемый наиболее достоверной из них. Окончательное решение FineReader примет несколько позже (для чего был выбран такой подход, будет пояснено в следующей главе).

    Каждый классификатор опирается в процессе распознавания на те или иные эталоны, либо изначально заложенные разработчиками, либо выработанные в ходе анализа документа. Таким образом, обучаясь в соответствии с принципом адаптивности, ABBYY FineReader находит единственно правильное решение.

    3.3 С уровня "символ" до уровня "слово". Структурирование гипотез.

    Как следует из общих принципов работы ABBYY FineReader, на каждом логическом уровне документа выдвигается ряд гипотез. Каждая из них на следующем уровне порождает ещё несколько предположений. Поэтому при распознавании букв FineReader оперирует огромным количеством гипотез, учитывающих все возможные варианты деления строки на слова, слова на буквы, и т.д. Для быстрого и точного принятия решений система объединяет гипотезы в многоуровневые структуры - модели. Существуют следующие типы моделей слова: словарное слово, несловарное слово (для каждого из поддерживаемых языков распознавания построены соответствующие разновидности), e-mail или URL, цифры с префиксом или суффиксом, регулярное выражение, и т.д. В результате структурирования количество подлежащих проверке гипотез сильно сокращается, так что последующая проверка происходит максимально быстро и эффективно.

    Рассмотрим процесс структурирования на примере слова "turn". Предположим, при разделении слова на символы было выдвинуто две гипотезы: первая соответствует прочтению "tum", вторая - "turn". Классификаторы, обработав символы, в свою очередь предложили для каждой буквы обоих слов некоторый ряд гипотез. Последние, как мы помним, обычно сортируются по весу. Следующий шаг кажется очевидным - теперь надо просто выбрать гипотезы с максимальным весом! Однако это было бы категорически неверно. Далеко не всегда наиболее вероятная гипотеза в итоге оказывается истинной. Лучший способ принять правильное решение - перейти на уровень "слово" и путём нескольких проверочных операций выяснить, какой из вариантов больше остальных похож на правильный.

    В рассматриваемом примере произойдёт следующее: контекстная проверка покажет, что весь текст состоит из английских слов, и вес моделей «слово – английский язык» значительно увеличится, а моделей «слово – кириллица» соответственно уменьшится. Модель «цифры» также останется позади в силу крайне малого суммарного веса составляющих гипотез. Затем словарная проверка подтвердит, что в словаре английского языка слова «tum» нет, а «turn» - есть. Следовательно, гипотеза относительно слова «turn» приобретёт ещё больший вес, что позволит ей в дальнейшем оказаться «победителем». Заметим, что «авторитет» словаря значительно выше, нежели у любого классификатора, поэтому в нашем примере даже при полностью слившихся буквах r и n итоговое решение будет принято правильно.

    Тем не менее, словарная проверка в системе ABBYY FineReader не является «последней инстанцией»; она не определяет правильность гипотезы, как это бывает в других системах, а лишь изменяет вес выдвинутых предположений. Смысл такого ограничения прост: не существует словарей, содержащих все словоформы живого языка, ведь учесть все жаргонные, разговорные, диалектные слова и выражения просто невозможно. Следовательно, наделяя словарь правом «решающего голоса», разработчики заранее обрекают систему на некорректное функционирование. ABBYY FineReader работает иначе. При встрече с несловарным словом (как вы помните, для таких даже предусмотрена особая модель), FineReader распознает его в точности так, как оно было написано, и дополнительно подсветит, обращая внимание пользователя на факт отсутствия слова в словаре.

    Для обеспечения надёжной работы механизма словарной проверки лингвистами компании ABBYY Software House были созданы полноценные словари, позволяющие системе FineReader распознавать тексты на многих языках. Но, как упоминалось, создать полный универсальный словарь практически невозможно. Поэтому специалисты ABBYY Software House наделили словари уникальными свойствами, сделав их морфологически структурированными. Получился гибкий и мощный инструмент, позволяющий ABBYY FineReader моделировать словоформы, в том числе и так называемые композиты (слова наподобие «велотренажёр», «авторалли», и т.п.). Морфологически структурированный словарь занимает значительно меньше дискового пространства и охватывает более 98% реального словарного объёма соответствующего языка.

    3.4. С уровня "строка" до уровня "страница". Формирование электронного документа.

    Итак, все слова текстового блока распознаны. Пользуясь информацией, полученной при анализе структуры документа, ABBYY FineReader расставляет слова по местам. Из образующихся при этом строк формируются текстовые блоки, размещаемые на странице в точном соответствии с оригиналом. Но вот формирование документа завершено. Теперь система обращается к пользователю за подтверждением - правильно ли распознана страница? Нет ли ошибок?

    Ошибки, конечно, случаются. Систем оптического распознавания символов, работающих с точностью 100%, не существует. В большинстве случаев количество допускаемых FineReader ошибок не превышает 1-3 на страницу при среднем качестве оригинального документа. Исправить пару специально подсвеченных ошибок, конечно, существенно проще и быстрее, чем перепечатывать и форматировать весь документ целиком.

    В результате пользователь получает точную электронную копию страницы; при необходимости её можно отредактировать, либо сохранить «как есть». Специальный модуль программы может экспортировать результат практически в любой из современных форматов электронных документов. Для сохранения текста удобен формат Microsoft Word, а если исходный документ представлял собой таблицу, то вполне резонно сохранить электронную копию в формате Microsoft Excel. Если же статью предполагается опубликовать в сети Интернет, можно использовать формат HTML или PDF.

    В любом случае результат будет настолько близок к оригиналу, насколько позволяет выбранный пользователем формат. Сравнивая только что отсканированную страницу с получившимся электронным документом, пользователь сможет уверенно сказать – распознавание завершено!

  4. История ABBYY FineReader.

    Первые шаги в области оптического распознавания символов были предприняты еще в конце 50-х годов XX в. Принципы распознавания, заложенные в то время, по сей день используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.

    Главным недостатком первых систем распознавания символов была неспособность обрабатывать доку

Поделиться:




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
21.06.2019
TESSA 3.3 – новые горизонты СЭД
Компания Syntellect объявила о выпуске официального релиза СЭД TESSA версии 3.3.
В новой версии платформы расширены возможности легкого клиента, обеспечена поддержка разных часовых зон и внесено более сотни других улучшений.

28.03.2019
Финансы уйдут в электронный документооборот
На рассмотрение государственной думы РФ вынесен законопроект о введении электронного документооборота в российских организациях. При создании электронных копии бумажных документов, оригиналы нужно будет хранить всего год.

28.03.2019
В ожидании цифрового прорыва
Как выбраться из «колеи», в которой, согласно институциональной теории, движется, увязнув всеми колесами, Россия? Ответ на этот вопрос эксперты ищут не первый год. Вряд ли есть одно решение, но, возможно, в этом стране помогут технологии: отечественная математическая школа всегда высоко ценилась во всем мире, да и IT-отрасль в России развита сильнее прочих. Во всяком случае, именно на их развитие делают ставку власти: от направления «Цифровые технологии» нацпроекта «Цифровая экономика» они ждут настоящего прорыва. Впрочем, его успех, по мнению экспертов, будет зависеть от синхронизации процесса цифровой трансформации во всех российских регионах.