Правильный robots.txt для друпала

Данный материал нагло скопирован отсюда и совсем чуть-чуть модернизирован.

Что такое robots.txt

Это файлик лежащий в корне сайта. Роботы поисковых систем, при заходе на сайт, читают его содержимое и согласно тамошним указаниям обрабатывают сайт.

Много говорят, что поисковики могут сквозь пальцы смотреть на это дело. Особенно относительно Гугла это верно.

То есть по большому счету поисковые боты все равно облазят весь ваш сайт и заглянут в самые темные уголки выковыривая информацию о продажных ссылках и прочую. Однако, в поисковую выдачу закрытую в файле роботс информацию они не выведут. Хотя Гугл может, но уже не так рьяно.

Зачем собственно мы меняем его. Стандартный файл из поставки друпала работает же. Но в буржуинии нет Яндекса. Это Гугл (и гуглоподобные поисковики типа бинга и яху) читают роботс и принимают "к сведени". Наш любимый Яндекс так же это делает. Только вот Гугл к дублированию контенте относится мягко, чуть пожурив в выдаче и показав сопли в ней, а вот Яндекс тихо ставит признак "АГС" и в выдаче остается только главная страница. Выводить из АГС фильтра то ещё удовольствие, как и общение с службой поддержки "улучшайте Вас сайт...".

Так что обязательно к применению как сам по себе, так и как инструмент избаления от дублей страниц в друпале.

Требования к robots.txt

1. Находится в коне сайта.

2. Называется robots.txt и никак иначе (все буквы прописные и расширение строго такое)

3. Содержание соответсвует формату для данного файла. То есть в нем содержатся команды в соответсвии с принятым синтаксисом

Правильный robots.txt под друпал 7 версии

Важно! Перед изменением своего файла установите и настройте следующие модули системы:

1. PathAuto

2. GlobalRedirect

Ссылки на эти и другие модули смотрите в статье об установке и конфигурировании сайта на друпале.

Иначе есть вероятность (и она почти 100%), что изменением файла Вы закроете индексацию всего своего сайта.

Из оригинально, авторского кода убраны заперты на ссылок на русском языке (грешен, пара материалов осталась, и на них ведут внешние ссылки), картинки из стандартного размещения в индекс попадут (вместе с хламом чуть-чуть), ну и  адрес сайта на свой заменил. За объяснениями смело посылаю к автору. Там всё подробно расписано и в комментариях все спорные моменты обмусолены.

Еще добавлено от меня Disallow: /comment/ и Disallow: /?q=comment/ - чтоб дубли комментов ушли.

 

User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /comment/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /?q=comment/
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/
Disallow: /*&
Disallow: /*?page=0
Allow: /*?page=
Disallow: /*?
Host: drboglav.ru

 

Так же не забываем привести в порядок файл .htaccess 

В нем указываем как обращаться к сайту с www  или без. Если с www, то и в robots.txt требуется указываать адрес с www.

В заключении. При обновлении друпала на новую версию не затрите текущий файл роботс. Да и штаксес тоже.

 

Яндекс творит чудеса. Добавляю статью в аддурилку яндекса. Статье 3 часа. И... вижу надпись "Указанный URL уже проиндексирован." 

От Гугла еще мог ожидать такое, но чтобы Великий и Ужасный Яндекс выдал - нонсенс. Мегакруто. Скорее всего стечение обстоятельств = публикация материала и заход быстробота. Явно не в основной выдаче страничка. Или помогли оригинальные тексты..

Помог материал - поддержите сайт рассказав у себя на страничке соцсети (кнопки слева наверху).

Всегда благодарен за комментарии и дополнения. Задавайте вопросы!

Вернуться на главную

Добавить комментарий


Поддержите развитие сайта рассказав о нем