Актуальные требования к поиску данных: какие задачи должен решать корпоративный поиск в рамках ECM-системы?
Оптимальная «формула находимости», которую выводят эксперты на основе актуальных запросов заказчиков, общее требование к корпоративному поиску – это возможность реализовывать сложные поисковые запросы, адаптируемые для каждого сотрудника и к его роли в процессе, возможности наглядного представления результатов, соблюдение правил доступа и, при этом минимальное время выполнения запросов (с учетом перспектив увеличения объемов на ближайшие несколько лет).
Чтобы добиться этого, в список требований к поиску необходимо включать следующие:
- обеспечение быстродействия системы;
- автоматическое извлечение атрибутов;
- поддержка роста объемов информации, хранимой в компании или важной для принятия решений;
- поддержка роста количества пользователей системы;
- возможность разграничения прав доступа к данным;
- соблюдение политик безопасности;
- возможность обмена данными с различными системами аналитической обработки;
- организация поиска с привязкой к конкретным бизнес-процессам;
- возможность усложнения сценариев поиска.
Александр Костюченко,
руководитель группы Pre-Sale & Consulting, ABBYY
От размера организации зависит количество информации, с которым каждый день взаимодействуют её сотрудники. Для эффективного поиска информации на предприятии внедряются поисковые системы, решающие задачи разных уровней. Самая простая задача – поиск по ключевым словам. Этот функционал должен быть реализован в любой ECM-системе. Но, чем больше компания, тем больше документов приходится обрабатывать. Усложняется иерархическая структура, возникает необходимость объединить несколько хранилищ и искать уже по ним, появляется территориально-распределённая система. В крупной компании организационная структура непроста, поэтому возникают задачи разделения права доступа при работе с поисковой системой: кто-то должен иметь возможность находить и просматривать конкретные документы, а кто-то нет. Подробнее...
Этот функционал должен быть реализован в любой ECM-системе. Но чем больше компания, тем больше документов приходится обрабатывать. Усложняется иерархическая структура, возникает необходимость объединить несколько хранилищ и искать уже по ним, появляется территориально-распределённая система. В крупной компании организационная структура непроста, поэтому возникают задачи разделения права доступа при работе с поисковой системой: кто-то должен иметь возможность находить и просматривать конкретные документы, а кто-то нет.
Таким образом, в простой системе, решающей задачу поиска по ключевым словам, появляется «обвязка», связанная с правами.
Следом появляется другая «обвязка» –
атрибутирование, или тегирование документов. Чем больше документов, тем сложнее найти нужный. Добавляются метаданные, атрибуты и теги, по которым можно сужать либо расширять запрос. Например, при просмотре выдачи результатов можно выбрать тег «ИТ-отдел» и просмотреть все документы, в которых есть информация, либо созданная сотрудниками ИТ-отдела, либо к ним относящаяся. Далее можно выбирать только те документы, которые касаются конкретных продуктов ИТ–отдела и т.д. Таким образом, поисковый запрос сужается и вместо изначальной выдачи система предлагает пользователю чуть меньше результатов, но более релевантных. Такие метаданные для сужения запроса можно получить разными способами. Часто для этого к поисковой системе прикладывают таксономию, различные корпоративные словари, справочники. Есть и более сложные инструменты, которыми, в частности, занимается компания ABBYY, – например, автоматическое извлечение метаданных. Это избавляет операторов от необходимости вручную определять атрибуты документа и вводить их в карточки, и, таким образом, повышает эффективность полноценного индексирования, а в конечном итоге – и поиска.
Как правило, дальнейшее развитие поисковых систем – это их превращение в
поисково-аналитические платформы, помогающие не только искать, но и эффективно просматривать содержимое документов. Такие системы могут связать просматриваемый документ с другими объектами в коллекции, провести аналитику по содержимому одного документа или целой группы документов, установить необходимые отношения во всём корпоративном массиве. Это приводит к тому, что, помимо поиска по ключевым словам, можно делать объектный поиск, где пользователь при создании запроса мыслит в терминах интересующих его объектов, а не конкретными словами. Например, стоит задача «показать документы, в которых присутствует организация А, связанная с организацией Б. Связь между ними «купля-продажа». В дальнейшем можно посмотреть эти документы более детально, отразив все объектные связи внутри найденных файлов или связи с другими документами в коллекции. Это еще один вид системы.
И есть третий вариант, когда люди начинают формулировать запрос и свою информационную потребность не ключевыми словами, а вопросом на своем языке, исходя из своего опыта, своей логики. Пока систем, которые обрабатывают информацию так же, как понимает и обрабатывает ее человек, мало. Но это позволяет сильно повысить релевантность выдачи, т.к. находятся документы, в которых есть ответ на вопрос пользователя, даже если он выражен принципиально другими словами, отличными от запроса.
Сергей Полтев,
руководитель направления современных ECM-решений компании ЭОС
Наиболее очевидная задача систем поиска – получение требуемых данных за разумное время ожидания и представление результатов поиска в удобном для последующей обработки виде. Эту задачу условно можно разделить на две – достаточное быстродействие системы и предоставление гибко-настраиваемых возможностей поиска, как по содержимому хранимых файлов, так и по любому набору его атрибутов. Для повышения эффективности поиска могут использоваться не только явно обозначенные атрибуты документа, но и такие данные как, например, дата последнего изменения, дата и автор последних изменений и т.п. К примеру, в основных наших продуктах предусмотрена возможность использования порядка 170 таких дополнительных параметров. Подробнее...
Другое требование, поступающее от корпоративных заказчиков, логично возникающее из высокоэффективных инструментов поиска – это соблюдение разграничений
прав доступа к конфиденциальной информации. Это уже вопрос не только технологический, но и организационный. С технологической точки зрения мы должны обеспечить пользователям наглядный и достаточно гибкий инструментарий для разграничения прав доступа. Отдельная задача –
соблюдение политики безопасности при интеграции различных информационных систем с различными ролевыми моделями безопасности, соответствия между группами доступа в различных системах не всегда очевидны. В любом случае, практически всегда технологических решений для защиты конфиденциальной информации недостаточно. При сколько угодно совершенной и продуманной политике безопасности, всегда найдется сотрудник, который сможет сделать копию конфиденциального файла и оставит ее в открытом доступе. И с этой точки зрения, эффективный поиск может использоваться для аудита информационной безопасности – позволяет оперативно найти в свободном доступе конфиденциальные документы и принять соответствующие меры.
Еще одна задача, все более востребованная по мере общего роста объемов информации – обмен данными с различными системами аналитической обработки, предусматривающая возможность построения и обработки сложных поисковых запросов.
Складывая все перечисленное, можно вывести общее требование:это возможность реализовывать сложные поисковые запросы, адаптируемые для каждого сотрудника и его роли в процессе, возможности наглядного представления результатов, соблюдение правил доступа и, при этом, минимальное время выполнения запросов (с учетом перспектив увеличения объемов на ближайшие несколько лет).
Константин Чермак,
руководитель направления развития ключевых заказчиков DIRECTUM
Принимая во внимание запросы крупных заказчиков, можно выделить несколько потребностей, касающихся облегчения поиска.
Стандартных возможностей поиска порой не хватает, когда ECM-система разрастается настолько, что охватывает десятки удаленных филиалов или иных крупных структурных единиц, являющихся по факту самостоятельными (к примеру, органы управления в структуре Правительства). Представители разных независимых подразделений заносят в систему контент, который может пересекаться и даже дублироваться. Часто права доступа к документу выдаются всем пользователям. В этом случае в результатах поиска, проведенного конкретным пользователем, оказывается избыточное количество документов, релевантных запросу, но в большинстве вообще ему не нужных, занесенных в систему представителями чужих подразделений. Поэтому заказчики хотят, чтобы ECM-система, выдавая поисковые результаты, учитывала «релевантность по подразделениям». Подробнее...
Руководство крупных компаний имеет запросы, касающиеся поиска документов по реквизитам и содержимому, но одновременно с привязкой к workflow-данным. К примеру, у топ-менеджера может возникнуть потребность найти все документы, которые ему присылались на подписание в рамках работы по отдельному проекту. Логичней всего организовать поиск с привязкой к конкретным бизнес-процессам (задачам, поручениям, заданиям и т.п.). Реализовать это можно, учитывая во время поиска не только данные, касающиеся непосредственно документов, но и данные, относящиеся непосредственно к workflow.