интересно
Предыдущая | Содержание | Следующая

Какое применение нашли гипертекстовые технологии в Интернет?

Гипертекстовые технологии нашли широкое применение и при организации хранения и представления информации в сети Интернет, например в сервисе World Wide-Web (WWW).

Сервис Web построен на основе архитектуры клиент-сервер. В состав Web-системы входят следующие составляющие:

язык гипертекстовой разметки документов HTML (Hyper Text Markup Language),

универсальный способ адресации ресурсов в сети URL (Universal Resource Locator);

протокол обмена данными (гипертекстовой информацией) HTTP (Hyper Text Transfer Protocol),

средства просмотра Web-страниц (браузеры).

Язык HTML — это средство для формирования гипертекстовых документов. Гипертекстовые ссылки встроены в текст документа и хранятся как его часть. Благодаря этому языку можно не только формировать гипертекстовые документы, но и осуществлять связь текста и изображения с документами, расположенными на другом сервере Web.

Универсальный способ адресации применяется для организации гипертекстовых ссылок и обеспечивает доступ к распределенным ресурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера, имени файла. Например, сервер Государственной публичной научно-технической библиотеки России имеет адрес: http://gpntb.ippi.ras.ru/

Протокол обмена данными служит для установления связи с документами формата HTML независимо от его местонахождения.

В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.

Одно из них концентрируется на представлении в узлах гипертекста разнородной, но семантически связанной информации — текста, рисунков, графики, фотографий, видео, звука.

Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысловое упорядочивание документов, обеспечивающих решение многоэтапной задачи или разработку сложных проектов

Наиболее перспективным направлением являются технологии организация информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных) и, прежде всего, Web-технология.

Какими методами осуществляется поиск информации в Интернет?

Интернет представляет собой огромное хранилище распределенной документальной информации, различных форматов и видов:

Web-страницы,

онлайновые электронные библиотеки,

виртуальные музеи,

каталоги по продуктам и услугам,

открытая правительственная информация,

научно-исследовательские публикации,

документы различных сервисов Интернет: Gopher, FTP, Usenet и электронной почты,

коммерческая и финансовая информация.

По некоторым оценкам, в настоящее время Web содержит сотни миллионов страниц и каждые четыре месяца этот объем удваивается.

Одна из основных проблем пользователя современного Интернета — эффективный поиск информации. Очевидно, что актуальность этой проблемы будет возрастать, так как объем документальной информации в Интернет возрастает экспоненциально.

Как показывает практика, существующие инструменты поиска документальной информации в Интернет пока имеют неудовлетворительную точность выдачи и возвращают слишком много документов, из которых лишь небольшая часть действительно соответствует запросу пользователя.

Основным инструментом поиска в Интернет являются поисковые системы.

В настоящее время известно около 200 поисковых систем.

Существующие поисковые системы Интернет можно классифицировать по нескольким критериям:

Объем поискового индекса

Поисковые системы периодически просматривают узлы Интернет и формируют постоянно обновляемые индексы документов. Из-за экспоненциального расширения Всемирной сети исчерпывающее индексирование всего содержимого Web и создание одного огромного индекса практически невозможно. В настоящее время даже лучшие поисковые системы индексируют не более трети всего содержимого Сети.

Самый больший объем индексируемой информации собран на узле HotBot (34%); несколько меньший — на AltaVista (28%), Northern Light (20%) и Excite (14%). Список замыкает Lycos, поисковая машина которого индексирует только около 3% всей информации.

Метод выбора серверов для просмотра (опроса) Генерация поискового индекса требует систематического об хода Web-узлов и определения местонахождения каждого доку мента . Структура Web аналогична структуре ориентированного гра фа , поэтому здесь применимы алгоритмы обхода графа.

Существуют четыре метода такого обхода:

случайный выбор первого URL-адреса для инициализации поиска. Программа индексирует начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем анализирует эти URL для поиска преимущественно в ширину или преимущественно в глубину;

поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов;

пространство Web делится на разделы на основе системы имен Интернет или кодов стран, а для полного исследования этих разделов выделяется одна или несколько программ-роботов; такой метод используется чаще, чем первые два;

частота опроса — каждые несколько часов, каждый день каждый месяц. Частота опроса является важной характеристикой качества работы системы, т. к. определяет актуальность и полноту индекса.

Используемые поисковые технологии П о этому критерию поисковые системы можно разбить на 4 категории:

Тематические каталоги.

Специализированные каталоги (онлайновые справочники).

Поисковые машин ы( полнотекстовый поиск).

Средства мета-поиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически — это индексирование на основе классификации.

Индексирование может проводиться автоматически либо вручную с помощью специалистов, которые просматривают популярные Web-узлы и составляют краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Например, в ИПС Yahoo каталог построен на основе фасетно-иерархической классификации. Иерархически организованный тематический каталог Web генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из известных источников. Тематика каталога разделена на большие классы, например, Компьютеры, Правительство, которые далее детализируются по иерархическому принципу.

В ИПС Magellan индексируются Web-узлы, серверы FTP и Gopher, а также новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Критерий выдачи оценивается на основе частоты вхождения терминов запроса в документ. Более релевантными считаются те документы, которые содержат указанные в запросе термины в заголовке, дескрипторе МЕТА или URL-адреса. Результаты запроса ранжируются.

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например , в индексе популярной ИС AltaVista 56 млн. URL-адресов (данные 1999 г.)

Запрос может быть сформулирован как запрос к полнотекстовой базе данных, распределенной в сети. Поскольку это база огромных размеров, характер запроса очень сильно влияет на результат. При формировании запроса в ПС могут использоваться следующие инструменты:

Отдельные ключевые слова — этот вид запроса целесообразно использовать только для узко специальных терминов. В противном случае количество найденных документов может достигать нескольких десятков тысяч, т. е. такой поиск становится бессмысленным.

Логические операторы (булев поиск).

Средства контекстного поиска:

указание расстояния между словами;

указания порядка следования слов;

поиск по полям документа HTML (слово в названии, заголовке и т. п.).

 

Запрос по образцу (QBE) (найти такой же, найти подобный) позволяет выделять в наборе выданных документов особо полезный документ и автоматически формировать запрос на основе ключевых слов этого документа. Этот тип запросов позволяет сформулировать более точный запрос с использованием новых ключевых слов.

Поиск фразы — поиск документов, содержащих конкретное словосочетание или фразу.

Поиск с использованием всех словоформ слова — поиск с элементами морфологического анализа. Это средство особенно важно при поиске в русскоязычных текстах.

Определение области поиска (наименование сервиса), домена (серверы с определенном расширением имени, su,ru) и т. п.

Запрос на естественном языке. Запрос на русском языке можно делать только в Япёех. При внешней привлекательности данный вид запроса не очень эффективен — поиск будет не совсем точным и полным т. к. запрос автоматически индексируется и система сама выделяет из него ключевые слова.

При расчете критерия выдачи в поисковых системах учитываются:

частота слова в документе;

его местоположение (в заголовке, подзаголовке, HTML-дескрипторах).

Документы сортируются в порядке убывания релевантности, информация о них выдается в виде:

URL-адреса;

названия;

нескольких первых строк или краткого описания (резюме, автоматическая аннотация или реферат).

В конкретных поисковых системах может быть предложен различный набор этих инструментов.