Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

DOCFLOW - теория и практика электронного документооборота. Все о ECM и СЭД (системы электронного документооборота), ЭП

Eng
12.03.2014
Обзор функций поиска

Функции поиска позволяют администраторам определять контент, который должен быть индексирован, найден и отображен для уполномоченных пользователей.

Основные функции:

  • автоматическое индексирование;
  • обработка запросов;
  • представление результатов.

Подходы к внедрению поиска
Поиск по приложениям

  • Поиск в пределах одной прикладной программы, разработанный для осуществления поиска пользователями этого приложения (например, поиск по электронной почте, по компьютеру).
Корпоративный поиск
  • Системы, предназначенные для использования в пределах организации и доступные для сотруд¬ников, которые ищут хранящуюся в этой организации информацию в различных форматах и место¬положениях, в т.ч. в базах данных, системах управления документами и других репозиториях.
  • Однородный механизм поиска, разнородные репозитории.
  • Объединенный.
  • Универсальный.

Основные методы поиска
Два основных подхода:

  • на основании правил;
  • статистический.
Эти два подхода могут использоваться самостоятельно, хотя в большинстве современных систем они дополняют друг друга.
Подход на основании правил включает в себя довольно много методов. Этот подход появился раньше, чем статистический.

При поиске на основе правил применяются параметры, определенные приложением и (или) администратором; на основании этих параметров выполняется сопоставление пользовательского запроса с соответствующим контентом, который хранится в репозиториях. В качестве примера такого подхода можно привести поиск с использованием Булевых выражений и поиск с учетом расстояния между ключевыми словами. Самой распространенной реализацией поиска на основе правил является поиск слов и фраз. В своем запросе пользователь указывает нужное ему слово или фразу, а затем применяет правило «найти весь контент, в котором данное слово или фраза присутствует точно в этой форме». Разумеется, возможны различные вариации этого базового правила.

Поскольку этот подход основан на заранее определенных правилах, результаты легко предсказуемы. Используемое приложение не дает дополнительной «пользы» для понимания полученного текста или выполненного запроса — разве что скорость выполнения.

При статистическом запросе применяются математические алгоритмы, которые позволяют определить контекст той информации, которая заключена в контенте. Здесь применяется множество разных методов, в частности, байесовская вероятность. Эта техника поиска появилась сравнительно недавно. В нее входит множество различных алгоритмов, которые обычно принадлежат компаниям, их разработавшим, и их изменение администраторами или пользователями запрещено.

Поскольку статистический подход НЕ привязан к словам, от поиска на основе правил его отличает большая гибкость и возможность нахождения контента на разных языках и в разных формах. При этом его нельзя назвать наукой в ТОЧНОМ смысле этого слова. Результаты, полученные с помощью статистической модели, в отличие от поиска на основе правил, могут быть непредсказуемыми. В ходе оценки этих средств необходимо определить, будет ли подход, «отражающий» человеческое суждение, подходящим для бизнеса, в котором он будет использоваться.

Статистическая модель реализована в большинстве современных механизмов поиска, хотя все производители в разной степени опираются на статистические подходы. Как отмечалось ранее, поиск на основе правил часто используется совместно со статистическим методом. К примеру, первоначальный поиск может осуществляться на основе правил, а для определения релевантности результатов, полученных по пользовательскому запросу, будет применяться статистический подход. Такой метод называется ранжированием по релевантности.

Представление и интерфейсы
Все разнообразие функций, обеспечивающих возможность поиска, скрыто от глаз пользователя. Чаще всего, однако, наличие таких возможностей подчеркивается как в представлении результатов поиска, так и в стиле интерфейса. Эти интерфейсы могут использоваться для показа модели навигации, для предоставления интерфейса поиска — или для комбинации этих функций. Под навигацией понимается продвижение среди массы информации посредством каталогов или гипертекстовых переходов (ссылок).
«След информации» в парадигме навигации:

  • пользователь, который ищет нужные ему сведения, становится охотником;
  • удача ждет того, кто лучше «берет след» информации;
  • дизайн навигации должен усиливать чувство информации;
  • важнее всего дизайн и список меток.
Источник: Джаред Спул (UIE)

Пользователя, желающего отыскать какую-либо информацию, Джаред уподобляет охотнику. Такой пользователь «берет след» информации, идет по этому следу, и преследует свою цель до тех пор, пока не получит нужные ему сведения. Удача ждет того, кто лучше «берет след» информации. Навигация должна усиливать чувство информации. Иными словами, навигация должна подсказывать людям, что скрывается за ссылкой. Ссылка должна иметь значимое имя — тот «след», который пользователь может «взять», и который приведет его к нужной информации.
Следует учитывать, что только тщательно продуманный интерфейс навигации будет эффективным и поможет пользователю найти информацию. При этом крайне важно использовать метки, которые помогают пользователю «взять верный след информации» и указывают ему путь к той цели, которую он преследует, будь то документ, веб-страница, сообщение электронной почты, контракт и т.д.

Находимость и безопасность
Как упоминалось в одном из предыдущих модулей, безопасность реализуется посредством вложенных уровней детализации, и надежная политика безопасности обязательно поддерживает наследование. К примеру, если защищен отдельный кабинет, то все рабочие места в этом кабинете также в безопасности. При реализации методов, обеспечивающих находимость, уровень интеграции должен позволять обязательное применение схем безопасности, которые были определены в других системах или репозиториях. Решение, обеспечивающее находимость, ни при каких условиях не должно нарушать существующие схемы безопасности, исключая случаи, когда это было явным образом запрограммировано для выполнения тех или иных бизнес-требований.

При этом должен быть не просто должным образом запрещен ДОСТУП к контенту, но требуется запретить даже ИНФОРМИРОВАНИЕ о защищенном контенте. Полученный набор результатов должен только представлять список того контента, который отвечает запросу пользователя И к которому ему будет предоставлен доступ. Это особенно важно в средах с повышенными требованиями к безопасности. К примеру, если на запрос пользователя система сообщает, что получено 17 документов, соответствующих запросу, и при этом сообщается, что права пользователя не разрешают доступ к 3 из них, то из этого ответа можно извлечь больше информации, чем это желательно или необходимо.
С другой стороны, в средах с ОБЫЧНЫМИ требованиями безопасности можно сообщать о наличии защищенного контента — в этом случае пользователи смогут по стандартным каналам запросить доступ к нужным материалам. Этот вопрос относится скорее к проблемам бизнеса и рисков, чем к сфере управления пользователями или технологией.

Защита находимости
Внедряя средства, обеспечивающие находимость, вы создаете как минимум еще два источника контента, которые обеспечивают специфические меры безопасности. Мы говорим об индексе или индексах, которые создаются средствами обеспечения находимости, и о пользовательских запросах, которые могут сохраняться — например, для обработки обсуждавшимися ранее «агентами».

Решение, обеспечивающее находимость, генерирует индекс или индексы и использует их для выполнения своих задач. Эти индексы являются отражением всего «собранного» из репозиториев контента. Если эти индексы не защищены от несанкционированного копирования, считывания, изменения или уничтожения, они легко могут стать «черным ходом» в систему. Даже если во всех остальных отношениях ваши системы надежно защищены, то информация будет уязвима для проникновения через внедренный вами обычный интерфейс пользователя.

В отношении запросов нужно отметить, что их создатели зачастую не хотят, чтобы другие лица могли выяснить что-то о том, какую информацию они ищут. К примеру, сведения о том, что представители высшего руководства или юридического отдела ищут данные о конкурентах, могут стать источником важной информации — например, о готовящемся слиянии или поглощении. С другой стороны, в рамках совместной работы пользователи могут предоставлять доступ к своим запросам. Согласно передовым методикам, в этих случаях осуществляется т.н. «управление записью» в таких запросах, что предотвращает изменение необходимых сотрудникам запросов другими пользователями.

Подводя итог, скажем, что без тщательного планирования и глубокого понимания той интеграции, которая необходима на различных уровнях для реализации поиска, даже простое включение возможностей поиска может стать источником серьезных проблем с безопасностью.

На этом рисунке показаны основные элементы, входящие в инфраструктуру корпоративного поиска, в том числе отдельные подсистемы, из которых состоит поисковая система.
На первом этапе создается выборка контента. При помощи особой технологии выполняется регулярное сканирование каталогов и веб-сайтов, извлечение контента из баз данных и других репозиториев и (или) перенос контента в эти репозитории. При обновлении любого репозитория механизм поиска запускает процесс обнаружения и индексирования обновленного контента. После завершения отбора контента, создается индекс, который обеспечивает возможности поиска по всему контенту. Кроме того, на этом этапе могут запускаться другие удобные средства обработки, например извлечение метаданных и автоматическое составление краткого резюме.

Многие средства поиска объединяют выборки и группы документов в (заранее определенные) категории. Пользователи могут искать контент в рамках таких категорий, а результаты будут зависеть от метода категоризации, который используется механизмом поиска. Созданный индекс может использоваться при обработке запросов. Пользователи могут составлять вопросы на базе ключевых слов и категорий, а также более сложные запросы на основе Булевых выражений или иных средств.

При обработке этих запросов механизм поиска по индексу находит документы, соответствующие искомому термину или категории, и передает их на последующую обработку. Затем механизм поиска сортирует документы по тем или иным критериям, определяет их релевантность, располагая или группируя документы исходя из категории классификации или заранее определенной логики. Если такая функция поддерживается механизмом поиска, вы можете предлагать своим пользователям рекомендуемые совпадения или рекомендуемый контент.

Наконец, мы получаем страницу с результатами поиска, которая составляется на основе заранее раз¬работанных шаблонов. Результаты могут быть представлены самыми разными способами, и большинство механизмов поиска поддерживают гибкие средства их форматирования.

Самым важным свойством этого процесса является то, что все эти подсистемы можно настроить в соответствии с вашими конкретными требованиями к организации информации и доступу. При индексировании контента на первый план выступает организация информации, и от того, как организован контент, зависит, насколько хорошо средство поиска просматривает и индексирует выборки документов.
При желании можно даже настроить методы работы с доступом. Средство поиска позволит определять допустимые типы запросов, возвращаемые по этим запросам типы документов, а также предпочтительные методы обработки и представления результатов.

Поделиться:




КАЛЕНДАРЬ
ПОСЛЕДНИЕ НОВОСТИ
21.06.2019
TESSA 3.3 – новые горизонты СЭД
Компания Syntellect объявила о выпуске официального релиза СЭД TESSA версии 3.3.
В новой версии платформы расширены возможности легкого клиента, обеспечена поддержка разных часовых зон и внесено более сотни других улучшений.

28.03.2019
Финансы уйдут в электронный документооборот
На рассмотрение государственной думы РФ вынесен законопроект о введении электронного документооборота в российских организациях. При создании электронных копии бумажных документов, оригиналы нужно будет хранить всего год.

28.03.2019
В ожидании цифрового прорыва
Как выбраться из «колеи», в которой, согласно институциональной теории, движется, увязнув всеми колесами, Россия? Ответ на этот вопрос эксперты ищут не первый год. Вряд ли есть одно решение, но, возможно, в этом стране помогут технологии: отечественная математическая школа всегда высоко ценилась во всем мире, да и IT-отрасль в России развита сильнее прочих. Во всяком случае, именно на их развитие делают ставку власти: от направления «Цифровые технологии» нацпроекта «Цифровая экономика» они ждут настоящего прорыва. Впрочем, его успех, по мнению экспертов, будет зависеть от синхронизации процесса цифровой трансформации во всех российских регионах.