Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
24.08.2015
Оценка применимости ABBYY Compreno для ECM-задач. Часть I: Поиск информации

Недавно ABBYY представила новую платформу для понимания текстов на естественном языке. Теоретически, она имеет огромный потенциал для умной обработки массивов корпоративной информации, но каковы сценарии использования этой технологии в ECM целях на практике? На этот вопрос ответил бизнес-аналитик компании DIRECTUM Артем Обухов.

Compreno – платформа анализа и понимания текстов на естественном языке, разработанная компанией ABBYY. На ней базируется ряд продуктов, а именно: Intelligent Search, Smart Classifier и InfoExtractor. Среди сценариев их использования есть и те, что могут быть применены для решения задач в области управление корпоративным контентом.

Compreno для ECM – это попытка решить три основные задачи: умный и эффективный поиск (Intelligent Search), автоматическая классификация контента (Smart Classifier) и автоматическое извлечение структурированных данных из текстов документов (InfoExtractor).

Что из этого получилось, какие есть ограничения и возможности, в чем заключается практическая выгода для бизнеса и какова цена всего этого? Постараюсь раскрыть эти вопросы в статье. Все ниженаписанное основано на результатах исследования и тестирования продуктов, базирующихся на возможностях платформы Compreno.

Сценарии поиска в ECM

Для того чтобы понять, как Intelligent Search может помочь в улучшении поиска ECM-системы, нужно разобраться в том, какие сценарии поиска существуют и как они устроены, а также выяснить, что из этого покрывается базовым функционалом среднестатистической системы.

По сути все поисковые сценарии – это комбинации трех составляющих: способ поиска – то, как мы формируем поисковой запрос; область поиска – это набор объектов системы, к которым мы применяем запрос; ожидаемый результат – сколько и каких объектов мы хотим увидеть в результате.

Можно выделить шесть основных способов поиска:

1. Запрос по атрибутам (key – value). Например, «Тип документа = договор, Дата создания = вчера».

2. Запрос вхождения в тело документа:

  • По образцу. Когда мы ищем точную фразу с незначительными морфологическими или синтаксическими отклонениями. Например, вспоминаем, что был документ, где фигурировала фраза «ABBYY Compreno Pricing».
  • По смыслу. Когда ищутся все данные, связанные по смыслу с запросом. Например, хотим найти всю информацию, связанную с архитектурой Compreno (процесс проектирования, технические проекты, презентации и т.д.).

3. Запрос/вопрос на естественном языке:

  • Запрос. Включает в себя упоминание атрибутов со значениями и часть для поиска по вхождению. Например, «Все договоры нашей организации за 2013 год по продаже модуля «Канцелярия».
  • Вопрос. Например, «Где был описан порядок лицензирования продукта X».

4. Навигация по смысловым (онтологическим) категориям:

  • Навигация по сущностям (объектам). Например, последовательное уточнение запроса по выделенным из документов категориям «Договор», «Петров», «Москва» выдаст все договоры, заключенные Петровым или с Петровым, с упоминанием города Москва.
  • Навигация по фактам (отношениям). Например, запрос по факту «является стороной в договоре» с уточнением названия организации поможет быстро найти нужный документ.
  • Навигация по папкам. Визуальный поиск среди набора папок («Договоры» / «Договоры на закупку» / «Договоры на закупку в ООО «Буревестник»).
  • Навигация по связям с документами:
  • Поиск по формальным связям документа (договор – приложения).
  • Поиск по связям, содержащимся в тексте (договор – нормативные акты, которыми руководствуется договор).

Также выделим три области поиска:

  • Все документы системы.
  • Папка или набор папок.
  • Результаты предыдущего поиска (уточнение поиска).

И три основных категории результатов:

  • Конкретный документ (например, договор с организацией за определенную дату с определенным номером).
  • Подборка документов (например, все методические документы, связанные с управлением проектами).
  • Информация:
    Часть документа (например, подсвеченное предложение из текста документа, где явно дается ответ на запрос)
    Сгенерированный ответ. Ответ на вопрос может отсутствовать во всех данных системы в явном виде, но генерируется на их основе (например, как составить заявление на отпуск).

Нужно отметить, что на процесс поиска влияет ряд фич, которые могут поддерживать поисковой движок информационной системы. Среди них: учет словоформ, синонимов, плотности вхождения, учет переводов и транслитерации, а также исправление ошибок в тексте поискового запроса.

Теперь рассмотрим какие сценарии уже покрывается базовым функционалом среднестатистической ECM-системы.

  • Всевозможные виды атрибутивного поиска, с возможностью поиска во всем объеме данных, в определенном каталоге системы. Результат выдается в виде конкретного документа или подборки документов.
  • Навигация по всему объему данных или определенным каталогам и подборкам документов через проводник системы.
  • Поиск по связям между объектами во всем объеме данных, в каталоге, подборке (через связанные объекты и гиперссылки).
  • Полнотекстовый поиск, т.е. запрос по вхождению – образцу во всем наборе данных, в каталоге или подборке.
  • Комбинация сценариев 1 и 4.

О применимости ABBYY Compreno и Inelligent Search

Оценим, что нам может дать применение Compreno и Intelligent Search, в частности:

  • Запросы с вхождением по смыслу.
  • Реализация поиска в результатах поиска на основе найденной в них информации (постепенное уточнение). Этот вид поиска особенно привлекателен, весьма эффективный и интуитивно понятный.
  • Навигация по смысловым категориям (онтологиям, в терминах Compreno), в т.ч. использование их при построении запроса.
  • Реализация ряда «фишек»:
    Учет словоформ (альтернатива тому, что дает MS SQL).
    Исправление ошибок (альтернатива существующим open source реализациям).
    Учет переводов и транслитераций.
    Учет синонимов.
    Учет плотности вхождения. Релевантность на основе расстояния между целевыми словами.

Все это в комплексе выглядит как хорошее подспорье для улучшения существующих механизмов поиска. Конечно, по итогам тестовой эксплуатации мы выделили, в каком направлении хотелось бы видеть развитие платформы. В первую очередь, это возможность расширения словаря синонимов. Например, КАС в нашем контексте, это «Комплексная Автоматизированная Система». Compreno этого не знает, и обеспечить это знание не представляется возможным из-за отсутствия соответствующих инструментов в поставляемом API. Также была бы полезной возможность расширения видов сущностей. Нам доступен набор базовых сущностей (персона, организация и т.д.), однако среди них, например, нет сущности «документ» (договоры, заявления). Попутно хотелось бы увеличить релевантность при работе со смысловыми категориями, скорость поиска относительно существующих в ECM-системе механизмов и скорость индексирования.

ABBYY Compreno и Intelligent Search, в частности, могут помочь в улучшении качества поиска в ECM, приблизить его к поиску «как в google». Однако это палка о двух концах. Поиск в корпоративной информационной системе отличается от поиска в интернете, это связано и с характером решаемых задач, хранимых данных и их объемом. Используя поиск КИС, мы не хотим узнать рецепт борща или дату выхода новых «Звездных войн», мы ищем конкретный документ или набор документов (объектов), которые обладают легко формализуемыми критериями и признаками, на основе которых и строятся поисковые запросы.

Поэтому нужно избегать чрезмерного обобщения, ненужных синонимов – все это увеличивает число выдаваемых по запросу документов и, тем самым, уменьшает такой важный для ИПС показатель, как точность поиска, и общую релевантность результатов.

Intelligent Search – это не компонент, который «вшивается» внутрь вашей КИС, а отдельный инфраструктурный модуль, стоящий рядом. Отсюда и ряд особенностей: необходимо держать отдельные сервера, обеспечивать безопасность (учет прав доступа, маршрутизация контента между поисковым сервером и основной базой данных), кроме того, сложность алгоритмов анализа Compreno сказывается на скорости индексации.

Резюмируя вышеизложенное, можно заключить, что ограничения, наверняка, получится обойти при доработке и кастомизации Compreno Intelligent Search под конкретную систему. При этом Compreno Intelligent Search – это определенно новое слово в поисковых технологиях, и если ваша компания готова взять на себя все риски и затраты по внедрению, в будущем вы можете стать владельцем инновационной поисковой платформы.

Поделиться:
Автор текста: Обухов Артем, бизнес-аналитик DIRECTUM




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
13.12.2018
Безграничные возможности цифровизации
Каков вклад мобильных технологий в формирование цифровой экономики, рассуждает директор департамента цифровых мобильных технологий Samsung Electronics Александр Терехов.
12.12.2018
В России разработают стандарты для искусственного интеллекта, квантовых коммуникаций и «умного города»
К марту 2019 года планируется разработать документы технической стандартизации в области квантовых коммуникаций, искусственного интеллекта и «умного города».
27.11.2018
OFD.ru запустил собственную систему электронного документооборота «Поток»
OFD.ru начал предоставлять услуги по электронному документообороту (ЭДО).