43 ,44 ,45 ,46 . Технологии поиска в Интернет Технологии поиска информации в Интернете Когда встаёт вопрос, какой технологией пользоваться, чтобы найти информацию в Интернете — встречный вопрос: «А что мы собираемся искать?». Надо выбрать объект поиска, язык, какой из сервисов нас интересует (www,usenet,ftp). Только после решения этих задач можно переходить к выбору стратегии поиска. Есть поиск «рулетка»: куда попадём — туда попадём. Ходим по ссылкам — и... уже забываем, что искали. Следующая стратегия поиска — имя фирмы. Введя имя фирмы в строке адреса, скорее всего, сайт этой фирмы увидим... Ресурсы Интернета можно представить себе в виде бабочки. Центр бабочки — порядка 50-60 % - «ядро» - основное содержание Интернета. Есть ресурсы (примерно по 20%) - это ресурсы, которые имеют ссылки в центр, либо на которые ссылается центры (но не обе сразу). Усики/ножки — существуют сами по себе — не ссылаясь на другие ресурсы. Существуют средства поиска... 1.Directories (ПССТ) — имеют привычную логико-семантическую структуру. 2.Search Engines (ПСЧВ - поисковые системы в чистом виде) Пусть дана тема диплома, предметная область которой вам неизвестна... Если понятно, в какой области искать — тогда каталоги (поисковые системы типа справочника) подходят. Искать материал узкой тематики — гиблое дело... Роботы пытаются индексировать ресурсы. Как оценить тот или иной ресурс: широта охвата... используются ли булевы операторы и операторы расстояния, релевантность... С точки зрения неподготовленного пользователя — интересны средства поиска и дизайн (насколько это удобно). Существует altavista — считается наиболее старой поисковой системой. Её считают полнотекстовой поисковой системой. До сих пор ни одна поисковая система не является полнотекстовой. Если внести все слова всех документов... индекс потребует для хранения больше места, чем сам Интернет. LYCOS — первая сложная поисковая система, которая имеет свой алгоритм поиска, свой алгоритм индексирования. Она как-то выбирает пероисточник (с которого все остальные содрали). Проблема: эта поисковая система не вносит в свой индекс графические материалы. Внешние поисковые системы. Мета-поисковые системы. (Meta Crawler). Тип поисковой системы (полнотекстовая/неполнотекстовая)... По ключевым словам, по весу. Поддержка фреймов... Не получать образ документа, который там есть... Но просто знать, что документ там есть... Перенаправление... Существуют «зеркала»... Подсистема автоматически направляет на живую копию... Стоп-слова (которые слишком часто встречаются: www, Internet, the). Здесь дана сравнительная характеристика: зона поиска (в Интернете? в телеконференциях?) глубина поиска элементы поискового предписания (усечение терминов, поиск по дате, булевы операции) название документа, резюме, размер файла пусть предложена тема, термин... определяет количество ссылок на конкретную страницу Magellan — у неё зона поиска расширяется (telnet, ftp, gopher). Три первые строки во всех остальных. Используются булевы операции... Эта система используется для поиска людей, проживающих в США/Канаде. OpenText — www, usenet... булевы операторы, усечение терминов... Метамашины: все ресурсы, глубина зависит от характеристик других систем. Элементы поискового предписания незначительны... логические операции. Задача поиска не решена... Поэтому много дипломов «информационно-справочные», «информационно-поисковые» системы. Пусть интересует вас какая-нибудь модель самолёта... Один и тот же запрос периодически запускаем в какой-то системе... А мы всё выбираем-выбираем- выбираем... На ранних этапах существования Интернет существовали справочники... Даже в России, ещё в 97-м году их листали... «Жёлтые страницы Интернет». Много информации, широкий тематический профиль информационных массивов. Это значит, что информационные системы имеют право на существование и развитие. Способы поиска информации: навигация (используются гиперссылки) и строки- ссылки. gopher (суслик по-английски): перемещаясь по его норкам... Что собой представляет архитектура информационно-поисковых систем. Можно выделить 6 ресурсов: сайты, gopher, telnet, ftp... Есть «клиент» - средство отображения информационных страниц. Netscape Navigator уже никто не вспоминает (-: Но раньше про IE мало кто знал ((-: User Interface — система формирования и просмотра результатов, которые вы получаете. Поисковая машина... Хранит запрос. Для поддержки актуальности БД существуют роботы. Формируется основной массив информационно-поисковых систем. Когда говорим, что осуществляем поиск в различных ресурсах — то как эти ресурсы могут быть проиндексированы? Если мы в качестве объекта поиска — www — тогда индексировать документ можно по... вплоть до индексирования по полному тексту документа. Если говорить про ресурсы gopher, ftp, telnet. Там адрес. Почтовые списки рассылки... Subject... Ключевые слова в usenet. Любой документ — чтобы появился в поисковой системе — должен быть создан поисковый образ документа. ПОД — результат применения к тексту той или иной модели. Векторная модель, булева (да/нет), взвешенная (считаем, сколько раз встречается термин). Эксперимент: берём текст. Через каждое слово вставляем: «блин». Текст был по компьютерной графике, но на запросы по хлебобулочным изделиям... Чёрный список сайтов... электрон радио Попов Механизмы поиска... являются ноу-хау...