51. Программы сканирования сети Поисковые роботы (wanderers, spiders, robots) - программы, с помощью которых та или иная поисковая система постоянно сканирует ресурсы Интернет с целью нахождения и индексирования новых и обновленных источников информации. Встречая незнакомую ссылку, робот отправляется по ней, получает документ, индексирует его содержание. При встрече с уже проиндексированным документом робот проверяет, не изменился ли он по каким-либо параметрам. Основное назначение и области применения: • ведение баз данных World Wide Web; • создание "зеркал"; • поиск информационных ресурсов; • комбинированное использование. Каждая поисковая машина обладает рядом особенностей, которые следует учитывать при изготовлении своих страниц. Дополнительные способы управления работой роботов Основными проблемами, связанными с поисковыми роботами, являются: 1) Незаконченность стандарта - поскольку поисковые системы появились не так давно, стандарт для роботов находится в стадии разработки и доработки. 2) Увеличение трафика - эта проблема не слишком актуальна для российского сектора Интернет, так как в России немного серверов, посещение которых поисковыми роботами будет мешать работе обычным пользователям. 3) Не все поисковые роботы используют /robots.txt - на сегодняшний день этот файл обязательно запрашивается поисковыми роботами только таких систем.как Altavista, Excite Search, Infoseek, Lycos, OpenText и WebCrawler. Для решения указанных проблем на собрании рабочей группы по распределенной индексации W3C (Distributing Indexing Workshop) программистами ряда коммерческих индексирующих организаций (Excite, Infoseek, Lycos, Opentext и WebCrawler) обсуждалось использование мета-тэгов HTML для управления поведением поисковых роботов: • ROBOTS мета-тэг Для пользователей, которые не могут контролировать файл /robots.txt на своих Web-сайтах, предназначен ROBOTS мета-тэг. Он позволяет задать поведение поискового робота для каждой HTML- страницы, однако, при этом нельзя полностью избежать обращения робота к ней (как это возможно с использованием файла /robots-txt): <МЕТА NAME="ROBOTS"CONTENT="robot_terms "> , где robot_terms - это разделенный запятыми список следующих ключевых слов ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW (заглавные или строчные символы роли не играют). Ключевые слова позволяют реализовать следующие функции: Если этот мета-тэг пропущен или не указаны robot_terms, то по умолчанию поисковый робот поступает, как если бы были указаны robot_terms= INDEX, FOLLOW (т.е. ALL). • KEYWORDS мета-тэг <META NAMI'. "KEYWORDS”CONTENT=”phrases”> где phr ases - ра зде лен н ый за п ят ым и с пи с ок слов и ли с лов осоч ет ан и й (заглавные и строчные символы роли не играют), которые помогают индексировать страницу. t • DESCRIPTION мета-тог <МЕТA NAME="DESCRIPTION"CONTENT "text" > где text - тот текст, который будет выводиться в суммарном ответе на запрос пользователя к поисковой системе. Текст не должен содержать тегов разметки. В настоящее время коммерческие поисковые роботы уже используют мета-тэги, позволяющие осуществлять "связь" между роботом и Web-мастером. Altavista использует KEYWORDS, a Infoseek использует KEYWORDS и DESCRIPTION мета-тэги. • DOCUMENT-STATE мета-тэг Web-мастер может сообщить поисковому роботу, что содержимое того или иного файла будет изменяться. В этом случае робот не будет сохранять URL. Если информация содержится только в файле /robots.txt, пользователь не будет знать о том, предстоят ли изменения в странице. Для решения этой проблемы может быть полезен мета-тэг DOCUMENT-STATE, имеющий следующий формат: <МЕТА NAME="DOCUMENTSTATE" CONTENT="STATIC"> <МЕТА NAME="DOCUMENTSTATE" CONTENT="DYNAMC"> По умолчанию этот мета-тэг принимается с CONTENT=STATIC. • URL мета-тэг Для исключения индексирования генерируемых страниц или дублирования документов, если есть зеркала сервера, следует использовать мета-тэг URL с указанием абсолютного URL этого документа (в случае зеркал - на соответствующую страницу глазного сервера): <МЕТА NAME="URL" CONTENT="absotute_URL">