Сайт-флешка на 1 гиг.
   2007-2008 www.s-o-f-t.net ©, www.moysayt.net © и Сообщество Евгения Евгеньевича ® являются собственностью Фёдорова Евгения Евгеньевича. Все права защищены. Контент сайта носит образовательное и демонстрационное значение. Публикация материалов сайта без ведома владельца запрещена. Сайты регистрируються здесь.



От компании Русские Деревянные Дома оцилиндрованное бревно для доставки в Московскую область.
По вашему проекту изготовим профилированный брус всегда в наличии.



Трудоустройство в Пскове

"Жаль, что нельзя из менеджера банка сделать инженера"


Добавить в избранное Отправить нам e-mail
 
Подписка
 
E-mail: 
     

СОЗДАТЬ СВОЙ САЙТ
ДОБАВЬ СВОЙ ФАЙЛ
ДОБАВИТЬ СВОЮ СТАТЬЮ
ДОБАВИТЬ КАРТИНКУ
несколько
________________________
ГЛАВНАЯ СТРАНИЦА
Архив с-о-ф-т-а
Архив статей
Архив картинок
Заметки мастера
ФОРУМ
_________________________
Д Л Я АДМИНА
Программы
Безопасность
Литература админу
Драйверы
__________________________
ДЛЯ ВЕБ-МАСТЕРА
Программы
Статьи веб-мастеру
Редакторы, конвертеры и архиваторы
Браузеры+плагины
Материал для сайтов
Работа с флешками (swf)
Флешки (swf)
gif-анимация (gif)
Литературка для веб-мастера
Регистрация доменов онлайн прямо здесь
_____________________
ЭКОНОМИЧЕСКИЙ ОТДЕЛ
Чёрный список мошенников интернета с обновлениями
Программы для бухгалтера
_________________________
ПРОГРАММЫ ДЛЯ ВСЕХ
Аудио-видео плееры
Программы для качающего
Программы для геймера
____________________
ОТДОХНУТЬ!
Бестселлеры
ПРИКОЛЫ
Высококачественные обои
Аватары
Опросы сообщества
__________________________
ВСЁ ДЛЯ МОБИЛЬНОГО ТЕЛЕФОНА
Проги для мобильника
Игры для мобилы
Темы для мобильника

Счетчики SEO
Метки









 
Календарь
 
<
Июнь 2012
>
ПнВтСрЧтПтСбВс
    123
45678910
11121314151617
18192021222324
252627282930
 
Интересные сайты
 
  Вернуться на главнуюСайт-флешка на 1 гиг. / Архив статей / Веб-мастеру / robots.txt  

robots.txt

0.00 (0)

Создать страницуСоздать страницу

Наверняка большинство из читающих мою заметку людей уже знают о существовании этого в общем-то незатейливого файла. Факт в том, что его незатейливость и простота может довольно корректно указать поисковой системе, что же всё-таки индексировать на вашем сайте, а что следует оставить "в тени".

Парадокс весь в том, что эта некоторая простота синтаксиса файла robots.txt скрывает в себе большие проблемы, если его не приручить, т. е. не научиться его правильно составлять. Ведь любая ошибка может стоить вам многого. В этой статье я расскажу вам, как использовать подобный файл с умом и избежать возможных проблем.


Начнём, пожалуй, с истории рождения стандарта robots.txt. Как гласит история, стандарт robots.txt был принят консенсусом 30 января 1994 года и опубликован, с тех пор используется большинством известных поисковых машин.

Позже этот стандарт начинали всячески модифицировать различные поисковые компании, которые внедряли новую функциональность в ранее созданный стандарт.

Как например, компания Yahoo, которая ввела для своего поискового бота YahooSlurp, дополнительную возможность запрета индексации типов файлов по их расширению, добавив возможность использования символов * и $ в полях Disallow. Позже эта возможность была одобрена Google, а затем и "Яндексом" в конце 2007 года. "Яндекс" также добавил возможность использования дополнительного поля Host для определения основного зеркала сайта.

Недавно была добавлена возможность использования ещё одного поля.

Sitemap: http://www.site.ru/sitemap.xml

Поле Sitemap позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask, MSN и "Яндекс".

Что такое Robots.txt?

Robots.txt – это специальным образом оформленный текстовый файл, в котором содержатся директивы, следуя которым поисковая система может понять стратегию индексирования информации на вашем сайте.

Структура robots.txt:

Файл состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или *, как рекомендация для всех поисковых систем), далее идёт поле Disallow, в котором указывается название объекта, который необходимо скрыть от индексирования.

Раздел рекомендаций между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent. В одном разделе может быть сразу несколько полей User-Agent, начинающихся с новой строки.

Стандарт robots.txt поддерживает комментарии. Всё, что начинается от символа # до конца строки, является комментарием.

Следует заметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью – запрета индексации, следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта. Однако поисковые системы постепенно вводят поле Allow, но пока официально оно не признано, хоть и используется некоторыми поисковыми системами (Например, "Яндексом", Google и MSN).

Некоторые поисковые системы используют собственные "информационные" директивы. В MSN Live и "Яндексе" через robots.txt реализована установка значения скорости индексации документа. Делается это через директиву:

User-agent: MSNbot Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.

User-agent: Yandex Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.

В начале 2009 года в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы. (Ознакомиться с ней можно здесь).

Пример одного из составленных файлов robots.txt:


User-agent: * Disallow: /

User-agent: Googlebot Disallow: /text/

Это важно знать:

1) Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.

2) Называть файл необходимо robots.txt, Robots.txt будет уже ошибкой.

3) На каждой строке должно быть поле Disallow, запрещающее индексацию только одного объекта. Если нужно запретить несколько директорий или файлов, то для этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы одно поле Disallow. Также не забудьте про поле User-Agent - оно не должно быть пустым.

4) Запомните простые комбинации: Disallow: - разрешение индексировать всё содержимое сайта, Disallow: / - запрет на индексацию всего сайта. Disallow: /name – запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии name. Disallow: /name/ - запрет на индексацию папки name. Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif. Disallow: /name.php – запрет на индексацию файла name.php. Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.

5) Поле Host используется "Яндексом" для определения основного зеркала сайта. Например, так: Host: www.site.ru. Это поле говорит поисковой системе "Яндекс", что в результатах поиска лучше выводить именно такую ссылку на ваш сайт (с www). Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта.

6) Поле Sitemap используется для указания поисковой системе, где находится сгенерированная для поисковых систем карта сайта.(Sitemap: http://www.site.ru/sitemap.xml). Применяется в Google, Ask, Yahoo, MSN и "Яндекс".

7) Если инструкции задаются для нескольких поисковых систем, то поля User-Agent должны вводиться через Enter.

Вот так:

User-Agent: msnbot User-Agent: Slurp Disallow: /admin/

Ошибки в файле robots.txt:

1) Неверный порядок расположения полей:

Неправильно:

Disallow: / User-agent: *

Правильно:

User-agent: * Disallow: /

2) Совершаются синтаксические ошибки: Нет пустой строки:

Неправильно:

User-agent: Googlebot Disallow: / User-agent: * Disallow:

Правильно:

User-agent: Googlebot Disallow: /

User-agent: * Disallow:

Ошибки в синтаксисе Disallow:

Disallow: * (приводит к запрету на индексацию всего сайта). Disallow: /text/ /text2/ (нельзя использовать одно поле для разных директорий).

Правильно:

Disallow: /text/ Disallow: /text2/

Поле User-Agent:

User-agent: (поле не должно быть пустым)

Поле Host:

Неправильно:

Host: http://www.site.ru/ (нельзя использовать протокол и слеш в конце)

Правильно:

Host: www.site.ru

Желательно делать так:

Не писать все поля с больших букв, комментарии переносить на новую строку. Не используйте дополнительные директивы (Allow, Host) для всех поисковых систем: это может вызвать недопонимание тех систем, которые не используют эти поля, а также не забывайте, что поле Disallow должно быть даже тогда, когда некоторые поисковые системы игнорируют его.

На этом всё, спасибо за внимание.


Метки: robots.txt
Комментарии: 0 Просмотров: 803 [История изменений] Размер:12382 байт
Последние изменения сделаны: fedoroff-ftp1 Сайт-флешка на 1 гиг. 856 дней назад 28.01.2010 19:00:42
ДобавилТекст
 
 
Имя Пароль
расширенный... ( / Регистрация )

Тема

В тексте можно использовать Wiki или HTML теги




 
Кто на сайте?
 
Анонимные: 15, Зарегистрированные: 0 (?)
 
Посетители
 
west11123 олег
17 дней назад 17.05.2012 02:15:04
olgusha08 петровы
23 дня назад 10.05.2012 11:01:03
ungurs У ДЯДИ ВОВЫ !!! кладоискатель
30 дней назад 03.05.2012 08:34:27
 
Топ комментаторов
 
fedoroff-ftp1 Сайт-флешка на 1 гиг.
Комментарии: 42
tvoy741 Регистрация Сайтов
Комментарии: 29
www4191 Система "Мой сайт"
Комментарии: 28
posap-best Олесь Псковин
Комментарии: 26
pcinfomaster
Комментарии: 26
 
 
Hello. And Bye.
36 дней назад 27.04.2012 10:20:32
Hello. And Bye.
36 дней назад 27.04.2012 07:16:30
Hello. And Bye.
37 дней назад 27.04.2012 03:31:34
Hello. And Bye.
37 дней назад 27.04.2012 00:41:33
Hello. And Bye.
37 дней назад 26.04.2012 20:26:26
 
Комментируемые записи
 
Жалоба | Размещено на MyLivePage | | Design by Drive | © Kolobok smiles, Aiwan