МГТУГА

Категории раздела

История воздухоплавания [31]
Системное программное обеспечение [55]
Сети 3-4 курс [41]
Методы и средства защиты информации [17]
Вычислительный системы [42]
про САПР [41]
Безопасность жизнедеятельности. БЖД. [46]
Интернет-технологии ГА [49]

Статистика


Онлайн всего: 5
Гостей: 5
Пользователей: 0

Форма входа

Каталог статей

Главная » Статьи » Интернет-технологии ГА

51. Программы сканирования сети
51. Программы сканирования сети
Поисковые роботы (wanderers, spiders,
robots) - программы, с помощью
которых та или иная поисковая
система постоянно сканирует ресурсы
Интернет с целью нахождения и
индексирования новых и обновленных
источников информации. Встречая
незнакомую ссылку, робот отправляется
по ней, получает документ,
индексирует его содержание. При
встрече с уже проиндексированным
документом робот проверяет, не
изменился ли он по каким-либо
параметрам. Основное назначение и
области применения:
• ведение баз данных World Wide
Web;
• создание "зеркал";
• поиск информационных ресурсов;
• комбинированное использование.
Каждая поисковая машина обладает
рядом особенностей, которые следует
учитывать при изготовлении своих
страниц.
Дополнительные способы управления
работой роботов
Основными проблемами, связанными с
поисковыми роботами, являются:
1) Незаконченность стандарта - поскольку
поисковые системы появились
не так давно, стандарт для роботов
находится в стадии разработки и
доработки.
2) Увеличение трафика - эта
проблема не слишком актуальна для
российского сектора Интернет, так как
в России немного серверов,
посещение которых поисковыми роботами
будет мешать работе обычным
пользователям.
3) Не все поисковые роботы используют
/robots.txt - на сегодняшний день
этот файл обязательно запрашивается
поисковыми роботами только таких
систем.как Altavista, Excite Search, Infoseek,
Lycos, OpenText и WebCrawler.
Для решения указанных проблем на
собрании рабочей группы по
распределенной индексации W3C
(Distributing Indexing Workshop)
программистами ряда коммерческих
индексирующих организаций (Excite,
Infoseek, Lycos, Opentext и WebCrawler)
обсуждалось использование мета-тэгов
HTML для управления поведением
поисковых роботов:
• ROBOTS мета-тэг
Для пользователей, которые не могут
контролировать файл /robots.txt на своих
Web-сайтах, предназначен ROBOTS
мета-тэг. Он позволяет задать поведение
поискового робота для каждой HTML-
страницы, однако, при этом нельзя
полностью избежать обращения робота к
ней (как это возможно с использованием
файла /robots-txt):
<МЕТА
NAME="ROBOTS"CONTENT="robot_terms
"> , где robot_terms - это разделенный
запятыми список следующих ключевых
слов ALL, NONE, INDEX, NOINDEX,
FOLLOW, NOFOLLOW (заглавные или
строчные символы роли не играют).
Ключевые слова позволяют реализовать
следующие функции:
Если этот мета-тэг пропущен или не
указаны robot_terms, то по умолчанию
поисковый робот поступает, как если бы
были указаны robot_terms= INDEX,
FOLLOW (т.е. ALL).
• KEYWORDS мета-тэг <META NAMI'.
"KEYWORDS”CONTENT=”phrases”> где
phr ases - ра зде лен н ый за п ят ым и с пи с ок
слов и ли с лов осоч ет ан и й (заглавные и
строчные символы роли не играют),
которые помогают индексировать
страницу.
t
• DESCRIPTION мета-тог
<МЕТA
NAME="DESCRIPTION"CONTENT
"text" >
где text - тот текст, который будет
выводиться в суммарном ответе на
запрос пользователя к поисковой
системе. Текст не должен содержать
тегов разметки.
В настоящее время
коммерческие поисковые роботы
уже используют мета-тэги, позволяющие
осуществлять "связь" между роботом и
Web-мастером. Altavista использует
KEYWORDS, a Infoseek использует
KEYWORDS и DESCRIPTION мета-тэги.
• DOCUMENT-STATE мета-тэг
Web-мастер может сообщить
поисковому роботу, что содержимое
того или иного файла будет изменяться.
В этом случае робот не будет сохранять
URL. Если информация содержится
только в файле /robots.txt, пользователь
не будет знать о том, предстоят ли
изменения в странице.
Для решения этой проблемы может быть
полезен мета-тэг DOCUMENT-STATE,
имеющий следующий формат:
<МЕТА NAME="DOCUMENTSTATE"
CONTENT="STATIC">
<МЕТА NAME="DOCUMENTSTATE"
CONTENT="DYNAMC">
По умолчанию этот мета-тэг
принимается с
CONTENT=STATIC.
• URL мета-тэг
Для исключения индексирования
генерируемых страниц или
дублирования документов, если есть зеркала
сервера, следует использовать мета-тэг
URL с указанием абсолютного URL этого
документа (в случае зеркал - на
соответствующую страницу глазного
сервера): <МЕТА NAME="URL"
CONTENT="absotute_URL">
Категория: Интернет-технологии ГА | Добавил: mgtuga (28.12.2010)
Просмотров: 883 | Рейтинг: 0.0/0
Всего комментариев: 0
Имя *:
Email *:
Код *:

Поиск

Дисциплины