Дубли страниц, друпал

Что такое дубли страниц

Давайте так.

Вот человеческое определение:

Дубль страницы - это когда одинаковая или очень похожая информация доступна в разных местах.

Вот определение для поисковиков:

Дубль страницы - это когда одинаковая или очень похожая информация доступна по разным адресам.

Вроде одно и тоже. Но в этом вся и сложность. Вот эта страница, на которую Вы смотрите она для Вас одна и при всем желании вы другой не найдете такой же. В тоже время для поискового бота эта страница уже не одна. Сколько их? И как он их обрабатывает?

Как минимум этих страниц уже несколько. Просто потому, что со временем в истории (в памяти робота) остаются старые версии этой страницы. Они могут с текущей совпадать, а могут и нет. С историей понятно, эти дубли на выдачу существенно не влияют.

Какие еще могут быть дубли?

Могут быть дубли из-за особенности настроек движка сайта или при публикации материалов не очевидные ошибки.

Борьба с дублями сайта на Друпале

Дубли уровня домена

Сайт с www  и без два абсолютно разных сайта. Потому необходимо поисковикам указать на какой сайт смотреть, а какой "прицепить" паровозиком.

Тут два метода. Или через вебмастера указывать правильный сайт, что не всегда помогает, кстати. Или жестко отправлять всех на нужный адрес. Всех это и роботов и человеков.

Как сделать.

Идем в корень сайта. Ищем файл .htaccess и в нем раскомментируем нужные строки. Так мой сайт доступен только без WWW и потому строки в файле такие:

  RewriteCond %{HTTP_HOST} ^www\.(.+)$ [NC]

  RewriteRule ^ http%{ENV:protossl}://%1%{REQUEST_URI} [L,R=301]

Просто убрал # перед строками и они стали активно работать.

На уровне движка друпал

Небольшое отступление. Друпал очень плохо оптимизирован на уровне голого ядра. Потому перед эксплуатацией необходимо произвести донастройку - установить и настроить дополнительные модули. Важно настроить переадресацию и избавиться от русских букв в адресах.

1. PathAuto

2. GlobalRedirect

3. Transliteration

Ссылки на эти и другие модули смотрите в статье об установке и конфигурировании сайта на друпале.

После настроек всего этого возвращаемся к нашим баранам.

Комментарии как отдельный материал. Жестокая вещь. Каждый комментарий идет вместе с текстом всей статьи. 10 комментариев = 10 дублям. Тег какноникал не помогает.

Выход - рубить в robots.txt

Короткие ссылки. Используются для удобства представления и распространения информации. Яндекс это не понимает. Итог у нас каждая статья = 2 статьям. Одинаковым. 

Смотрим код страницы и убеждаемся, что у нас на одну статью две ссылки. Лечение - запрещаем в модуле MetaTeg короткие ссылки. Жалко, но что делать. Нет ссылки - нет проблем.

Служебная информация. От внутренних файлов движка до кнопок капчи, форм регистрации/входа/выхода... Мусор отменный и абсолютно не уникальный. Удаляем через тот же robots.txt

Одновременное использование разных типов ссылок. Когда на страницу можно попасть разными путями. Тут поможет включение "чистых ссылок" и установка модуля глобального редиректа.

К предыдущему это доступ к материалам через node\. robots.txt нас спасет.

Так должен выглядеть наш самый правильный robots.txt Перед использованием обязательно настраиваем модули.

Убрать из индекса лишние страницы

Если сайт новый и произвели настройку, то убирать уже ничего не придется. Если сайт старый и при поисковой выдаче видите кучу одинаковых результатов (и Яндекс не забанил ресурс АГС, что в большинстве случаев происходит без этих настроек), товсе не так радужно.

Все приведенные действия не дают немедленного эффекта.

Так обновление поисковой базы Гугла может происходить от пары недель до полугода. Точнее он за пару недель пересчитает сайт, но сопли еще доооолго будут висеть и напоминать о проблемах. Правда, к чести Гугла он их не учитывает особо и жестоких санкций не применяет. Это может сказаться разве что на скорости обработки новых материалов ресурса.

 

Помог материал - поддержите сайт рассказав у себя на страничке соцсети (кнопки слева наверху).

Всегда благодарен за комментарии и дополнения. Задавайте вопросы!

Вернуться на главную

Комментарии

Сделать правильный robots.txt как тут писал http://drboglav.ru/content/pravilnyy-robotstxt-dlya-drupala (можно прямо его и взять) Хотя достаточно для конкретного случая Disallow: /*? После установки нового файла проверьте оба адреса в вебматере яндекса https://webmaster.yandex.ru/site/robots.xml (на второй должен ругнуться). Яндекс за пару недель выдачу подправит. Гугл может долго еще оба адреса держать, но постепенно второй отвалится.

Добавить комментарий


Поддержите развитие сайта рассказав о нем