Дубли страниц могут приводить к потери позиций в поисковой выдаче и снижать скорость индексации. Стоит понимать, что у поискового робота есть определенный лимит запросов к домену в день. Поэтому существует вероятность того, что он потратит все лимиты на сканирование мусорных страниц и не доберется до страниц с уникальным контентом.
О наличии проблемы с дублированным контентом свидетельствует сообщение в панели Вебмастера: «Найдены страницы дубли сGET параметрами». В своем сообщении Яндекс информирует вебмастера о том, что на некоторых страницах сайта размещен одинаковый контент, различающийся только гет-параметрами.
Содержание
Что такое get-параметры на сайте
GET параметры вURL – это динамические параметры, позволяющие изменить контент страницы. В URL они находятся после «?» и разделяются «&». GET-параметры используются при работе фильтров в интернет-магазине, при работе поиска и сортировки на сайте или настройке меток коллтрекинга.
Примеры url с гет-параметрами:
https://site.ru/catalog/monitory?sort=price (get-параметр после ? – sort, его значение =price – сортировка по цене)
https://site.ru/catalog/search?q=lukoil (get-параметр после ? – q, его значение =lukoil – результаты поиска по слову «lukoil» на сайту)
Как избавиться от ошибки – Найдены страницы дубли с GET-параметрами
Самый простой и эффективный способ избавиться от дублей с разными get-параметрами – добавить правило Clean-param или Disallow в файл robots.txt.Если в поиске есть дублированные страницы из-за гет-параметров, Яндекс предлагает воспользоваться правилом Clean-param в robots.txt (правило действительно только для Яндекс, Google его не воспринимает).
В результате использования Clean-param поисковый робот Яндекса объединяет сигналы с дублированных страниц на основной. После того, как краулер узнает обо всех произошедших изменениях, страницы с не имеющими значение гет-параметрами исчезнут из поисковой выдачи.
Как использовать Clean-param
Для понимания того, как используется Clean-param, стоит привести простой пример. Существуют дубли страницы со следующими гет-параметрами:
http://mysite.ru/cat/auto/nissan/?sort=pop&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=desc
Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/, нужно задать правило Clean-param в файле robots.txt:
User-agent: Yandex
Clean-param: sort&order /cat/auto/nissan/
sort&order – это динамические параметры, не требующие учета;
/cat/auto/nissan/ – это префикс использования директивы, обозначающий, что не следует учитывать указанные параметры для страниц, которые начинаются с /cat/auto/nissan/.
Как использовать Disallow
Избавиться от страниц-дублей с GET-параметрами можно, используя директиву Disallow. Для примера возьмем те же страницы-дубли:
http://mysite.ru/cat/auto/nissan/?sort=pop&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=desc
Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/, нужно задать правило в файле robots.txt:
User-agent: *
Disallow: *?sort=
Disallow: *&order=
*?sort= , *&order= – это динамические параметры. Страницы, содержащие такие параметры индексироваться не будут.
Также можно закрыть от индексации ВСЕ Get-параметры одним правилом?
User-agent: *
Disallow: *?
Будьте осторожны! Используйте директиву Disallow очень внимательно, чтобы случайно не закрыть от индексации нужные страницы (например, не используйте правило, если карточки товара или категории в обязательном порядке содержат get-параметр в url).Учитывая, что Яндекс.Вебмастер считает данную проблему критичной, ее рекомеедуется устранять.