Дубли страниц. Чем опасны? Как найти и удалить? Поиск дублей страниц

Одна из основных причин, по которой сайт может терять позиции и трафик - возрастающее количество дублей страниц на сайте. Они могут возникать в результате особенностей работы CMS (движка), желании получить максимум трафика из поиска за счет шаблонного увеличения количества страниц на сайте, а также из-за сознательного или несознательного размещения ссылок третьими лицами на ваши дубли с других ресурсов.

Проблема дублей очень тесно перекликается с проблемой поиска канонического адреса страницы поисковым анализатором. В ряде случаев робот может определить канонический адрес, например, если в динамическом URL был изменен порядок параметров:

?&cat=10 &product=25

По сути, это та же страница, что и

Product=25 &cat=10

Но в большинстве случаев, особенно при использовании , каноническую страницу определить сложно, поэтому, полные и частичные дубли попадают в индекс.

Что интересно, для Яндекса дубли не так страшны, и даже на страницы результатов поиска по сайту (которые являются частичными дублями друг друга) он может приносить хороший трафик, но вот Google к дублям относится более критично (из-за борьбы с MFA и шаблонными сайтами).

Основные методы поиска дублей на сайте

Ниже описаны основные методы, с помощью которых можно быстро найти дубли страниц своего сайта. Используйте их периодически.

1. Гугл-вебмастер

Зайдите в панель Google для вебмастеров. Найдите раздел меню «Оптимизация» – «Оптимизация HTML». На этой странице можно увидеть количество повторяющихся мета-описаний и заголовков TITLE .

Таким способом можно найти полные копии страниц, но к сожалению, не определить частичные дубли, которые имеют уникальные, однако, шаблонные заголовки.

2. Программа Xenu

Xenu Link Sleuth - одна из популярных программ оптимизаторов, которая помогает проводить технический аудит сайта и, в том числе, находить дублирующиеся заголовки (если, например, у вас нет доступа к Google-Вебмастеру).

Подробней об этой программе написано в обзорной статье . Просто просканируйте сайт, отсортируйте результаты по заголовку и ищите визуальные совпадения заголовков. При всем удобстве, данный способ имеет тот же недостаток - нет возможности найти частичные дубли страниц.

3. Поисковая выдача

Результаты поиска могут отразить не только сам сайт, а также некое отношение поисковой системы к нему. Для поиска дублей в Google можно воспользоваться специальным запросом.

site:mysite.ru -site:mysite.ru/&

Где составляющими являются:

site:mysite.ru - показывает страницы сайта mysite.ru, находящиеся в индексе Google (общий индекс).

site:mysite.ru/& - показывает страницы сайта mysite.ru, участвующие в поиске (основной индекс).

Таким образом, можно определить малоинформативные страницы и частичные дубли, которые не участвуют в поиске и могут мешать страницам из основного индекса ранжироваться выше. При поиске обязательно кликните по ссылке «повторить поиск, включив упущенные результаты», если результатов было мало, чтобы видеть более объективную картину (см. пример site: drezex.com .ua -site:drezex.com.ua/&).

Теперь, когда вы нашли все дубли страниц, можете их смело удалять, откорректировав движок сайта или добавив тег в заголовки страниц.

Отчет группирует страницы на четыре группы уникальности. Разбиение происходит по степени схожести. Дополнительно приводится статистика заполнения страницы текстовым контентом.

Дубли страниц, возникающие на сайте мешают эффективному продвижению портала. После создания ресурса следует как можно скорее избавится от таких помех и предотвратить их появление в процессе работы.

Дубль — это отдельная страница (документ) портала, контент которой полностью или частично совпадает с размещенной информацией. Данные могут задваиваться по нескольким причинам. Среди них:

Искусственное создание владельцем страниц для выполнения ряда функций. Примером могут служить печатные формы для копирования информации о товаре/услуге.
Генерация движком. CMS создает дубль, имеющий отличающийся адрес и расположенный в другой директории.
Ошибки веб-мастера, управляющего ресурсом. Например, портал может иметь две одинаковые главные страницы с разными url («имя.ru» и «имя.ru/index.php»).

По вышеуказанным причинам возникает четкий дубль. Кроме этого, может происходить частичное задваивание контента. Такими небольшими помехами являются страницы, имеющие общую часть шаблона портала и отличающиеся небольшим наполнением (результатами поиска или отдельными элементами статьи).

Поиск дублей страниц сайта — необходимое мероприятие для предупреждения различных ошибок и проблем, связанных с продвижением в поисковых системах.

Проверить дубли страниц

Их отчета вы узнаете количество уникальны страниц, доля дублирующего контента, количество слов и грамматических ошибок на странице. Группы можно сортировать.

По окончанию анализа сервис сформирует отчет, в котором вы сможете проверить ваш контент на наличие дублей. Отчет представлен в виде диаграммы с уникальностью контента внутри сайта.

Дубликаты контента для облегчения поиска задвоенных страниц делятся на четыре категории:

уникальные;
очень похожие;
почти дубликаты;
полные дубликаты;
не канонические.

Отчет призван облегчить поиск дублей страниц на сайте. В нем показывается список схожих страниц.

Поиск дублей страниц

Проверка страниц с помощью сервиса «СайтРепорт» позволяет быстро найти дубли и удалить их. Сервис предоставляет информацию в простой и наглядной форме.

Отчет показывает долю дублей тегов и мета-тегов. Выгрузив информацию в csv файл вы сможете проверить уникальность контента страницы с дубликатами.

К примеру, раздел «Теги» содержит результаты проверки сайта путем поиска дубликатов среди тегов и мета-тегов, размещенных на страницах. Полученная информация — это первое, на что необходимо обратить внимание при выявлении задвоенного контента.

В отчете приводятся:

диаграмма заполнения тегов и количество дублей тегов на страницах;
схемы динамики, содержания и распределения тегов;
степень сходства страниц.

Для внесения корректировок и дальнейшего анализа сервис имеет функцию выгрузки данных в CSV-файл.

Проверить сайт на дубли страниц

Следующий шаг — анализ контента. Результаты поиска дублей страниц путем проверки содержащейся информации представлены в специальном разделе.

В отчет входят:

диаграммы количества и дубликатов контента;
перечень адресов страниц, вошедших в поиск, с указанием характеристик содержания (грамматических ошибок, объема и уникальности информации);
сводная таблица полученных данных.

Кроме осуществления вышеперечисленных функций, сервис «СайтРепорт» позволяет проводить множество других видов анализа ресурса. Также доступна генерация xml-карты сайта.

Таким образом, с помощью нашего сервиса вы сможете быстро выполнить поиск и проверку сайта на дубли контента. Получив информацию в виде отчета, вы сможете принять решение по оптимизации контента.

Наличие дублей страниц в индексе — это такая страшная сказка, которой seo-конторы пугают обычно владельцев бизнеса. Мол, смотрите, сколько у вашего сайта дублей в Яндексе! Честно говоря, не могу предоставить примеры, когда из-за дублей сильно падал трафик. Но это лишь потому, что эту проблему я сразу решаю на начальном этапе продвижения. Как говорится, лучше перебдеть, поэтому приступим.

Что такое дубли страниц?

Дубли страниц – это копии каких-либо страниц. Если у вас есть страница site.ru/bratok.html с текстом про братков, и точно такая же страница site.ru/norma-pacany.html с таким же текстом про братков, то вторая страница будет дублем.

Могут ли дубли плохо сказаться на продвижении сайта

Могут, если у вашего сайта проблемы с краулинговым бюджетом (если он маленький).

Краулинговый бюджет — это, если выражаться просто, то, сколько максимум страниц вашего сайта может попасть в поиск. У каждого сайта свой КБ. У кого-то это 100 страниц, у кого-то — 25000.

Если в индексе будет то одна страница, то другая, в этом случае они не будут нормально получать возраст, поведенческие и другие «подклеивающиеся» к страницам факторы ранжирования. Кроме того, пользователи могут в таком случае ставить ссылки на разные страницы, и вы упустите естественное ссылочное. Наконец, дубли страниц съедают часть вашего краулингового бюджета. А это грозит тем, что они будут занимать в индексе место других, нужных страниц, и в итоге нужные вам страницы не будут находиться в поиске.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
Особенности CMS (движка). В WordPress такой херни обычно нету, а вот всякие Джумлы генерируют огромное количество дублей;
URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
Страницы комментариев;
Страницы для печати;
Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Способы поиска дублирующего контента

Можно искать дубли программами или онлайн-сервисами. Делается это по такому алгоритму — сначала находите все страницы сайта, а потом смотрите, где совпадают Title.

XENU

XENU – это очень олдовая программа, которая издавна используется сеошниками для сканирования сайта. Лично мне её старый интерфейс не нравится, хотя задачи свои она в принципе решает. На этом видео парень ищет дубли именно при помощи XENU:

Screaming Frog

Я лично пользуюсь либо Screaming Frog SEO Spider, либо Comparser. «Лягушка» — мощный инструмент, в котором огромное количество функций для анализа сайта.

Comparser

Comparser – это все-таки мой выбор. Он позволяет проводить сканирование не только сайта, но и выдачи. То есть ни один сканер вам не покажет дубли, которые есть в выдаче, но которых уже нет на сайте. Сделать это может только Компарсер.

Поисковая выдача

Можно также и ввести запрос вида site:vashsite.ru в выдачу поисковика и смотреть дубли по нему. Но это довольно геморройно и не дает полной информации. Не советую искать дубли таким способом.

Онлайн-сервисы

Чтобы проверить сайт на дубли, можно использовать и онлайн-сервисы.

Google Webmaster

Обычно в панели вебмастера Google, если зайти в «Вид в поиске — Оптимизация HTML», есть информация о страницах с повторяющимся метаописанием. Так можно найти часть дублей. Вот видеоинструкция:

Sitereport

Аудит сайта от сервиса Sitereport также поможет найти дубли, помимо всего прочего. Хотя дублированные страницы можно найти и более простыми/менее затратными способами.

Решение проблемы

Для нового и старого сайта решения проблемы с дублями — разные. На новом нам нужно скорее предупредить проблему, провести профилактику (и это, я считаю, самое лучшее). А на старом уже нужно лечение.

На новом сайте делаем вот что:

Сначала нужно правильно настроить ЧПУ для всего ресурса, понимая, что любые ссылки с GET-параметрами нежелательны;
Настроить редирект сайта с www на без www или наоборот (тут уж на ваш вкус) и выбрать главное зеркало в инструментах вебмастера Яндекс и Google;
Настраиваем другие редиректы — со страниц без слеша на страницы со слешем или наоборот;
Завершающий этап – это обновление карты сайта.

Отдельное направление – работа с уже имеющимся, старым сайтом:

Сканируем сайт и все его страницы в поисковых системах;
Выявляем дубли;
Устраняем причину возникновения дублей;
Проставляем 301 редирект и rel=»canonical» с дублей на основные документы;
В обязательном порядке 301 редиректы ставятся на страницы со слешем или без него. Обязательная задача – все url должны выглядеть одинаково;
Правим роботс — закрываем дубли, указываем директиву Host для Yandex с заданием основного зеркала;
Ждем учета изменений в поисковиках.

Сегодня мы будем говорить о дублировании контента, а точнее о методах поисках дублей страниц на вашем ресурсе. Проблема дублирования в современном интернете стоит остро, так как если у вас имеются дубли страниц на сайте, вы можете попасть под санкции поисковых систем.

И так первое, что нам необходимо знать это “что такое дублирование контента (дубли страниц) ” и какие бывают их виды, а потом мы уже будем искать пути борьбы с ними.

Дублирование контента – это отображение одного и того же текста на разных страницах сайта (на разных адресах). Дубли страниц на сайте бывают двух видов:

Полные дубли;
Неполные (частичные) дубли;

Полные дубли – это когда одна страница, в полной мере отображает содержимое другой и при этом имеет другой адрес.?&cat=10&product=25 и https://сайт/?product=25&cat=10

Неполные дубли – это частичное отображение текста страницы на другой. Это например новостная лента в блогах или текст в сайдбарах. Наиболее часто они встречаются в интернет-магазинах и сайтах где публикуются анонсы, новости.

Как определить дубли страницы на сайте.

Ниже я приведу методы которые используются для определения дублей. Ничего сложного здесь нету, только необходимо немного времени и терпения.

Поисковая выдача Yandex;
Поисковая выдача Google;
Страница открывается со слешем “/” и без;
Страница открывается с www и без www;

1. Начинаем с первого метода, переходим в аккаунт Google–вебмастер. Дальше переходим на вкладку “Вид в поиске либо Оптимизаци ” и выбираем “Оптимизация HTML ”. На этой странице можно найти и посмотреть все похожие мета-описания и заголовки title.

Google Webmaster определяем дубли страниц на сайте.

Этот метод отлично подойдет для определения полных дублей, частичные дубли с помощью этого метода определить не возможно.

2. Далее рассматриваем как можно определить дубли с помощь поисковой выдачи Yandex. Переходим в поисковую систему и вводим часть текста, при этом обворачиваем его в “кавычки” для того что бы получить точное вхождение фразы.

Yandex — проверяем дубли страниц

Если в выдаче появилась только одна страница оригинал, это отлично – значит дублей нету, если же появилось пару страниц, значит имеются дубли которые необходимо удалить.

3. С помощью поисковой системы Google, определять дубли страниц на сайте, можно также, как и в Yandex. Только при этом необходимо в поисковую строку ввести запрос site:moysite.ru -site:moysite.ru/&, где фразу moysite.ru, заменяем на адрес своего сайта. Если в выдаче нашло только один ваш сайт значит дублей нету, если несколько, необходимо предпринимать меры борьбы с дублированием.

4. Дублирование также может бить если вы используете . Система может генерировать автоматические ссылки которые будут открываться как со слешем “/” так и без.?&cat=10&product=25, вы можете проверить открывается ли этот адрес со слешем в конце “/” https://сайт/?&cat=10&product=25/. Если открывается и не перенаправляет () на выше приведенную страницу, то это дубль страница. Если перенаправляет все работает нормально и можно не беспокоится.

5. Определяем зеркала главной страницы сайта. Аналогично выше описанному методу, пробуем добавлять www или убирать спереди адреса сайта. Если заходит и по одному и по другому адресу, то у вас имеются дубли главной страницы и необходимо их склеить и выбрать главное зеркало сайта.

Ищите дублируемый контент на своем ресурсе, так как это может привести к плохим последствиям. Если Яндекс еще более лояльно относится к дублям, то Google очень сильно наказывает за это и накладывает . Дубли страниц это грубо говоря мусор интернета, а поисковые системы не любят мусор так как он кушает много ресурсов. Поэтому советую устранять эти проблемы еще до индексации статьи поисковой системой.

Сегодня мы поговорим о дублях. А именно - что такое дубли страниц на сайте, чем они грозят продвижению, как их найти и убрать.

Что такое дубли страниц на сайте?

Дубли - это страницы с частично или полностью совпадающим контентом, но доступные по разным URL-адресам. Принято их классифицировать как четкие и нечеткие. Примером четких могут послужить зеркала главной страницы сайта:

site.ru
www.site.ru
site.ru/index.php

А нечетких - большие сквозные для всего ресурса участки текста:

Чем опасны дубли страниц?

1. Перескоки релевантных страниц в поисковой выдаче. Самая распространенная проблема, заключающаяся в том, что поисковая система не может однозначно определить, какой из документов следует показывать в выдаче по запросу, тематике которого они удовлетворяют. Как итог - broser rank и поведенческая информация размазываются по дублям, позиции постоянно скачут и далеко не в положительную сторону.

2. Снижение уникальности контента сайта. Ну, тут всё очевидно - идет снижение процента страниц с уникальным контентом, что не может не оказывать негативного влияния на его ранжирование.

Откуда берутся дубли страниц?

1. CMS. Очень популярная причина, берущая своё начало в несовершенстве работы используемой системы управления. Тривиальная ситуация для примера - когда одна запись на сайте принадлежит к нескольким категориям, чьи алиасы входят в URL самой записи. В итоге мы получаем откровенные дубли, например:

site.ru/category1/post/
site.ru/category2/post/

2. Служебные разделы. Тоже можно отнести к несовершенству функционирования CMS, но из-за распространенности проблемы, выношу её в отдельный пункт. Особенно тут грешат Joomla и Birix. Например, какая-либо функция на сайте (авторизация, фильтрация, поиск и т.д.) плодит параметрические адреса, имеющие идентичный контент относительно страницы без параметров в урле. Например:

site.ru/page.php
site.ru/page.php?ajax=Y

3. Человеческий фактор. Сюда можно отнести всё то, что является порождением рук человеческих:

Упомянутые ранее большие сквозные участки текста.
Сквозные статические блоки.
Банальное дублирование статей.

По второму пункту хотелось бы уточнить, что тут речь тут идет в первую очередь про код. На этот счет идет много дебатов, но я говорю абсолютно точно - большие участки сквозного кода - очень плохо. У меня минимум 3 кейса в практике было, когда сокрытие от роботов сквозняков увеличивало индексацию сайта с 20 до 60 тысяч страниц в течении всего одного-двух месяцев. Но тут банального в коде будет недостаточно, а потому я поговорю об этом в отдельном материале.

4. Технические ошибки. Что-то среднее между несовершенством работы CMS и человеческим фактором. Первый пример, который приходит в голову, имел место быть на системе Opencart, когда криво поставленная ссылка привела к зацикливанию:

site.ru/page/page/page/page/../..

Как найти дубли страниц на сайте?

Легче и надежнее всего это будет сделать, пройдя следующие 3 этапа.

1. Программная проверка сайта на дубли страниц. Берем NetPeak Spider, Screaming Frog SEO Spider или любую другую из подобных софтин для внутреннего анализа и сканируем сайт. Затем сортируем, например, по метазаголовкам, и обращаем внимание на их совпадение или полное отсутствие. Совпадение - повод для проверки этих страниц вручную, а отсутствие метаинформации - один из вероятных признаков технического раздела, который лучше закрыть от индексации.

2. 301 редирект. Этот вариант подойдет вам, если копии носят точечный характер и вы не хотите их закрывать от индексации по той или иной причине (например, на них уже кто-то успел поставить внешнюю ссылку). В таком случае просто настраиваем 301 редирект с дубля на основную страницу и проблема решена.

3. Link rel="canonical". Это является неплохим решением для описанной выше ситуации, когда один и тот же пост доступен по разным урлам. Для каждого такого поста внедряется в код тег вида , где http://site.ru/cat1/page.php - вариант урла записи, который вы хотите индексировать.

Данный тег программно внедряется для каждого поста и далее пусть у него будет хоть 100 урлов - на всех них в коде будет рекомендация для поисковой системы, какой урл вы советуете индексировать, а на какие не обращать внимания (на страницы, чей собственный url и url в link rel="canonical" не совпадают).

4. Google Search Console. Малопопулярный, но, тем не менее, работающий приём, к которому мы можем обратиться в разделе «Сканирование» - «Параметры URL» из Google Search Console.

Добавляя параметры в эту таблицу, мы можем сообщить поисковому роботу, что страницы ними никак не изменяют содержимого, а потому их можно не индексировать. Но, конечно, возможны и другие варианты, при которых содержимое раздела при включении параметра в адрес «перемешивается», оставаясь, однако, при этом неизменным по своему составу (например, сортировка по популярности записей в категории).

Указав об этом в данном разделе, мы тем самым поможем Google лучше интерпретировать сайт в процессе его сканирования. Сообщив о предназначении параметра в URL, вопрос об индексации таких страниц лучше оставить «На усмотрение робота Googlebot&rauqo;.

Часто задаваемые вопросы

Многостраничные разделы (пагинация) - дубли или нет? Закрывать ли от индексации?

Нет, не нужно их закрывать ни от индексации, ни ставить rel="canonical" на первую страницу раздела, так как они имеют уникальный относительно друг-друга контент, а потому не являются дублями. Поисковые системы прекрасно умеют распознавать пагинацию, ну а для пущей надежности достаточно будет снабдить их элементами микроразметки rel="next" и rel="prev". Например:

Урлы с хештегами (#) - дубли или нет? Удалять ли их?

Нет. Поисковая система по умолчанию не индексирует страницы с # в адресе, так что по этому поводу волноваться не надо.

Вот, наверно, и всё. Вопросы?