Как проверить сайт на наличие дублей страниц?

16 ответов на вопрос “Как проверить сайт на наличие дублей страниц?”

  1. спанч боб Ответить

    CMS Joomla «плодит» дубли, «как крольчиха». Причина дублирования в возможностях многоуровневой вложенности материалов, размещения материалов разных пунктах меню, в различных макетах для пунктов меню, во встроенном инструменте пагинации (листания) и различной возможности сортировки материалов.
    Например, одна и та же статья, может быть в блоге категории, в списке другого пункта меню, может быть, в сортировке по дате выпуска и вместе с тем, быть в сортировке по количеству просмотров, дате обновления, автору и т.д.
    Встроенного инструмента борьбы с дублями нет и даже появление новой возможности «Маршрутизация URL» не избавляет от дублирования.

    Решения проблемы

    Решить проблему дублирования на сайтах Joomla помогут следующие расширения и приёмы.
    Бесплатный плагин «StyleWare Content Canonical Plugin». Сайт плагина: https://styleware.eu/store/item/26-styleware-content-canonical-plugin. Плагин фиксирует канонические адреса избранных материалов, статей, категорий и переадресовывает все не канонические ссылки.
    SEO Компоненты Joomla, Artio JoomSEF (бесплатный) и SH404 (платный). У этих SEO «монстров»  есть кнопка поиска и удаления дублей, а также есть легкая возможность добавить каноническую ссылку и/или закрыть страницы дублей от индексации.
    Перечисленные расширения эффективно работают, если их ставят на новый сайт. Также нужно понимать, что при установке на рабочий сайт:
    На сайте со статьями в индексе эти расширения «убьют» почти весь индекс.
    Удаление дублей компонентами не автоматизировано и дубли всё равно попадают в индекс.
    Хотя управлять URL сайта этими компонентами очень просто.
    Если дубль страницы попадет в индекс, то поисковики, не умея без указателей определять, какая страница является основной, могут дубль принять за основную страницу, а основную определить, как дубль. Из-за этого важно, не только бороться с дублями внутри сайта, но и подсказать поисковикам, что можно, а что нельзя индексировать. Сделать это можно в файле robots.txt, но тоже с оговорками.

    Закрыть дубли в robots.txt

    Поисковик Яндекс, воспринимает директиву Disallow как точное указание: материал не индексировать и вывести материал из индекса. То есть, закрыв на Joomla , страницы с таким url: /index.php?option=com_content&view=featured&Itemid=xxx, а закрыть это можно такой директивой:
    Disallow: /*?вы уберете, из индекса Яндекс все страницы со знаком вопроса в URL.
    В отличие от Яндекс, поисковик Google не читает директиву Disallow так буквально. Он воспринимает директиву Disallow как запрет на сканирование, но НЕ запрет на индексирование. Поэтому применение директивы [Disallow: /*?] в блоке директив для Google файла robots.txt, на уже проиндексированном сайте, скорее приведет к негативным последствиям. Google перестанет сканировать закрытые страницы, и не будет обновлять по ним информацию.

  2. Linkerror Ответить


    Повышение поисковой привлекательности ресурса включает в себя борьбу с дублями страниц, которые негативно сказываются на его поисковом рейтинге, понижают ранг в выдаче, снижая эффективность интернет-проекта – основного инструмента продвижения онлайнового бизнеса.
    Больше видео на нашем канале – изучайте интернет-маркетинг с SEMANTICA

    Почему это происходит?

    Представим ситуацию- владелец честно подготовил уникальный качественный тематический контент для своей целевой аудитории: полезные достоверные актуальные описания, грамотные обучающие материалы, аудио и видеозаписи, отличная тематическая графика, уникальные авторитетные авторские доклады в медиаформате, видеоинструкции, вебинары, профессиональный видеоролик с рекламой бренда, записанный в престижной студии – снабдил ресурс всем необходимым для доверия, устойчивой репутации и положительных покупательских решений. Такой подход заслуживает надеяться на трафик и дивиденды.
    В чем же упущение? Объяснение есть.
    Поисковики – это роботы, которые ищут качественный, оригинальный, полезный контент и повышают рейтинг таких веб-ресурсов и страниц. Уникальность – один из основополагающих критериев, предъявляемых к качеству контента.
    Как ведет себя поисковик, если кто-то непорядочный скопипастил ваш безупречный контент и опубликовал его на своем веб-сайте – он понижает рейтинг такой страницы, банит ресурс за плагиат, понимая, что авторство нарушено. К сожалению, если вы на собственном ресурсе скопируете и второй раз разместите тот же текст, поисковик поведет себя точно так же: вы банально сами конкурируете с собой.
    Именно этот принцип внимания к пользователям интернета и стремления отобрать на первые места поисковой выдачи только самое уникальное, свежее, полезное и лежит в основе негативного отношения поисковых систем к дубликатам.
    Принцип понятен, но как же удивляются хозяева сайтов, когда обнаруживается источник низкого рейтинга – дубли внутри сайта! Первой реакцией бывает: у нас нет дублей, каждая страница уникальна!

  3. PELELEZ Ответить

    Ваш сайт продвигается слишком медленно? Постоянно случаются откаты на более низкие позиции? И это при том что внутренняя и внешняя оптимизация веб-ресурса выполнена на высшем уровне?
    Подобное случается по нескольким причинам. Самая частая из них –дубликаты страниц на сайте, имеющих разные адреса и полное или частичное повторение содержания.

    Чем опасны дубли страниц на сайте

    Дубликаты страниц на сайте делают текст, размещенный на них неуникальным. К тому же снижается доверие к подобному веб-ресурсу со стороны поисковых систем.
    Чем же еще опасны дубли страниц на сайте?
    Ухудшение индексации. Если веб-ресурс достаточно объемный и по каким-либо причинам регулярно происходит дублирование контента на сайте (бывают случаи, когда у каждой страницы существует по 4–6 дублей), это достаточно негативно влияет на индексацию поисковиками.
    Во-первых, из-за того, что роботы поисковиков расходуют время при индексации лишних страничек.
    Во-вторых, поисковики постоянно выполняют поиск дублей страниц. При обнаружения таковых они занижают позиции веб-ресурса и увеличивают интервалы между заходами своих роботов на его страницы.
    Ошибочное определение релевантной страницы. На сегодняшний день алгоритмы поисковых систем обучены распознавать дублирование контента на сайте, который индексируется. Но выбор поисковых роботов не всегда совпадает с мнением владельца веб-ресурса.
    В итоге в результатах поиска может оказаться совсем не та страничка, продвижение которой планировалось. При этом внешняя ссылочная масса может быть настроена на одни странички, а в выдачу будут попадать дубликаты страниц на сайте.
    В результате ссылочный профиль будет неэффективным и поведенческие факторы будут колебаться из-за распределения посетителей по ненужным страницам. Другими словами, будет путаница, которая крайне негативно скажется на рейтинге Вашего сайта.
    Потеря естественных ссылок. Посетитель, которому понравилась информация с Вашего веб-ресурса, может захотеть кому-нибудь ее рекомендовать. И если эту информацию он почерпнул на странице- дубликате, то и ссылку он будет распространять не ту, которая требуется.
    Такие ценные и порой дорогие естественные ссылки будут ссылаться на дубли страниц на сайте, что в разы снижает эффективность продвижения.

    Дублирование контента на сайте. Причины

    Чаще всего дубли страниц на сайте создаются по одной из причин:
    Не указано главное зеркало сайта. То есть одна и та же страница доступна по разным URL – с www. и без.
    Автоматическая генерация движком веб-ресурса. Такое довольно часто происходит при использовании новых современных движков. Поскольку у них в теле заложены некоторые правила, которые делают дубликаты страниц на сайте и размещают их под другими адресами в своих директориях.
    Случайные ошибки веб-мастера, вследствие которых происходит дублирование контента на сайте. Результатом таких ошибок часто становится появление нескольких главных страничек, имеющих разные адреса.

    Изменение структуры сайта, которое влечет за собой присваивание новых адресов старым страницам. При этом сохраняются их копии со старыми адресами.

    Как найти дубликаты страниц

    Проверить сайт на дубли страниц поможет один из несложных методов:
    Анализ данных в сервисах поисковых систем для вебмастеров. Добавляя свой веб-ресурс в сервис Google Webmaster, Вы получаете доступ к данным раздела «Оптимизация HTML». В нем по дублируемым мета-данным можно найти страницы, на которых есть дублирование контента.

    В Яндекс.Вебмастере дубли страниц можно проверить в разделе «Индексирование» > «Вид в поиске». На этой странице сделайте сортировку «Исключенные страницы» > «Дубли».
    Анализ проиндексированных страниц. Для получения их списка используется специальные операторы поисковых систем:

    ? Полученная в результате выдача поможет проверить сайт на дубли страниц, у которых будут повторяться заголовки и сниппеты.
    3. Поиск дублей фрагментов текста. Для получения их списка используются уже знакомые операторы (site: — для Google и hosh: — для Яндекса) , после которых указываем адрес сайта и в кавычках фрагмент текста. В результате мы можем получить либо полные дубли страниц, либо же частичное дублирование контента.

    4. С помощью специальных программ и сервисов.? Например, воспользовавшись программой Netpeak Spider, можно определить дубликаты страниц, текста, мета-тегов и заголовков. Все обнаруженные дубли необходимо будет удалить.

    Если вы не хотите покупать десктопную программу Netpeak Spider, найти дубли страниц поможет многофункциональная seo-платформа Serpstat, которая работает онлайн + есть мобильная версия.
    Сервис находит дублирующиеся тайтлы, дескрипшны, H1 дубль тайтла, больше чем 1 тайтл на странице, больше чем 1 заголовок H1 на странице.

    Выводы

    Желательно время от времени выполнять вышеперечисленные проверки, чтобы дублирование контента на сайте не стало неожиданной причиной падения его рейтингов. При этом нужно не забывать, что полные дубликаты страниц не являются единственной проблемой.
    Дублирующиеся H1, title, description, а также некоторые части контента вроде отзывов и комментариев также очень нежелательны.
    Надеемся, что эта статья была для Вас полезной. Не забудьте поделиться ссылкой на нее с теми, кому она также может быть интересной!

  4. MahaMij Ответить

    Дубликаты — это большие блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Иными словами, если один и тот же материал доступен по двум различным адресам, это и есть дублирование.

    1.1. Типы дубликатов

    В рамках одного сайта могут существовать следующие типы дублей:
    полные дубликаты страниц (идентичный HTML-код);
    дубликаты текста (содержимое блока );
    дубликаты Title (названия страницы);
    дубликаты Description (описания страницы);
    дубликаты H1 (главного заголовка).

    1.2. Причины появления дубликатов

    Ошибки в системе управления контентом (CMS). Если она настроена неправильно, в процессе создания новых страниц или статей могут автоматически генерироваться дубли.
    Генерация страниц с одними и теми же атрибутами, расположенными в разном порядке (например, /?id=1&cat=2 и /?cat=2&id=1).
    Версии страниц сайта для печати, не закрытые от индексации.
    Не настроена переадресация (301 редирект) после переезда сайта с протокола http на https. Это касается и отсутствующего редиректа на главное зеркало сайта. Например, когда сайт доступен по адресу с www. и без него, со слешем в конце и без него.
    Неправильная настройка и автоматическая генерация ссылок в процессе работы сайта.
    Случайное дублирование страницы или статьи вебмастером или контент-маркетологом.
    Изменение структуры сайта, вследствие которой страницам присваиваются новые адреса, а старые не удаляются.
    На сайте используются «быстрые» мобильные версии страниц, с которых не выставлен Canonical на основные версии.

    2. Чем опасны дубли страниц с точки зрения SEO

    Наличие дубликатов на сайте — один ключевых факторов внутренней оптимизации (или её отсутствия), который крайне негативно сказывается на позициях сайта в органической поисковой выдаче. Дубли служат причиной нескольких проблем, связанных с оптимизацией.
    Проблемы с индексацией.
    При большом количестве дублей поисковые роботы в силу ограниченного краулингового бюджета могут не проиндексировать нужные страницы. Также есть риск того, что сайт будет пессимизирован, а его краулинговый бюджет — урезан.
    Проблемы с выдачей приоритетной страницы в органическом поиске.
    За счет дублей в поисковую выдачу может попасть не та страница, продвижение которой планировалось, а её копия. Есть и другой вариант: обе страницы будут конкурировать между собой, и ни одна не окажется в выдаче.
    «Распыление» ссылочного веса.
    Вес страницы сайта — это своебразный рейтинг, выраженный в количестве и качестве ссылок нее с других сайтов или других страниц внутри рассматриваемого сайта. При наличии дублей ссылочный вес может переходить не на единственную версию страницы, а делиться между ее дубликатами. Таким образом, все усилия по внешней оптимизации и линкбилдингу оказываются напрасными.

    3. Как найти дубли на сайте при помощи подручных средств

    Проверить, какая версия сайта отображается после ввода адреса со слешем и без него, с www. и без www., а также с протоколами http и https. Если сайт не перенаправляет вас на какую-то одну версию сайта, то можете не сомневаться — на каждую из страниц приходится несколько дублей.
    Посмотреть в настройках движка, не разрешены ли внутри сайта динамические ссылки.
    Проверить, есть ли на сайте материалы, одновременно доступные по двум разным адресам. Такая ситуация возможна в случаях, если, к примеру, адрес статьи имеет вид site.com/category-1/article-1, а на деле она одновременно относится к категориям category-2 и category-5.
    Зайти в Google Search Console и выяснить, не обнаружила ли система дубли на вашем сайте.
    Проверить сайт на наличие дублей с помощью поисковых операторов Google. При помощи оператора site:example.com вы ограничиваете поиск исключительно страницами своего сайта, а такими операторами как intitle ограничиваете область поиска определенным структурным элементом страницы. Пример применения: site:blog.ringostat.com intitle:»Как найти дубли».
    Увы, описанные выше методы не гарантируют понимания точного числа дубликатов, особенно если речь идет о частичных дублях, таких как дубликаты содержимого Meta Description и заголовка H1.

    4. Как найти дубли, используя краулер

    Для поиска всех существующих видов дублей внутри сайта вы можете использовать краулер, например, Netpeak Spider. Программа обнаружит дубликаты на сайте и идентифицирует их как ошибки средней и высокой критичности.

    Для поиска дубликатов необходимо выполнить ряд последовательных действий.
    Запустите Netpeak Spider.
    Откройте меню «Параметры» и выберите раздел «Продвинутые».
    Отметьте все пункты блока «Учитывать инструкции по индексации», а также пункт «Учитывать Rel Next/Prev». Эти настройки гарантируют, что дубли, предусмотрительно скрытые при помощи поисковых инструкций и устраненные с атрибутом Canonical, не появятся в результатах сканирования. Если скрытые вами дубли все же окажутся в списке страниц с ошибками, вы сможете обратить на них внимание и исправить проблему. 
    Сохраните настройки, нажав «ОК».
    В строке с начальным URL введите адрес сайта. Нажмите кнопку «Старт» для запуска сканирования.
    После завершения сканирования все обнаруженные ошибки, в том числе — связанные с дубликатами, отобразятся на боковой панели на вкладке «Отчеты» > «Ошибки». Кликните по названию интересующей ошибки, чтобы отфильтровать результаты и увидеть только список страниц, на которых она присутствует. 
    Для выгрузки результатов данной таблицы с отфильтрованными результатами в меню «Экспорт» выберите «Результаты в текущей таблице». Если вас интересуют все страницы с ошибками, в том же меню можно выбрать «Все ошибки».

    Коротко о главном

    Дублирование контента — как целых страниц, так и содержимого отдельных метатегов внутри них — входит в число факторов, которые оказывают негативное влияние на SEO и позиции сайта в органическом поиске. Регулярное сканирование сайта на предмет наличия дубликатов и устранение дублированного контента — дело первостепенной важности для каждого SEO-специалиста и вебмастера.
    Искать дубликаты можно вручную, задействуя поисковые операторы и Google Search Console. Но лучше производить эту процедуру систематически с помощью мощного краулера, такого как Netpeak Spider. Он поможет найти все возможные виды дублированного контента внутри сайта, а также определит степень критичности наличия тех или иных дублей.

  5. Vudokinos Ответить

    ?
    Дубли страниц на сайте становятся причиной значительных проблем:
    Пессимизация результатов выдачи в поисковых системах, потеря рейтинга.
    Резкие скачки позиций ресурса в результатах поисковой выдачи.
    Попадание под фильтры.
    Если в других случаях попадание под фильтры означает откровенно некачественную структуру и контент, то в нашем случае речь идёт об обыкновенной невнимательности и отсутствии некоторых простейших знаний. Поэтому разберёмся с тем, как найти дубли страниц на сайте и как их удалить, чтобы ситуация нормализовалась.
    Если существуют очень похожие разделы, поисковику нужно решить, какая из них больше подходит под заданный пользователем запрос. Задача некорректная, потому что они ничем не отличаются. Удаление лишних «копий» позволит избавить Яндекс и Гугл от необходимости решать подобные задачи и предотвратит опасность «распыления» рейтинга на несколько одинаковых копий, из-за чего рейтинг каждого из них становится меньше.

    Разновидности дублей

    Существует несколько их разновидностей.

    Зеркала

    Например, http://www.abc.ru и abc.ru. Для пользователя это одно и то же, но для поисковиков – нет. А ещё есть варианты с https и http.
    Как исправить: одно из зеркал нужно сделать основным, тогда поисковые системы не увидят никакого конфликта.

    Технические дубли

    Практически то же самое: дубль главной страницы index.php может иметь ещё вариант суффикса index.php/. Разницы для пользователя нет, но поисковики видят эти варианты как разные страницы.

    Дубли из-за сбитой иерархии

    Полезно проверить структуру ресурса. Например, нет ли на нём наличия сразу двух одинаковых вариантов:
    абв.рф/мебель/кресла
    абв.рф/кресла
    Очевидно, что оба варианта – это один и тот же раздел магазина, но он находится дважды по разным адресам.

    Частичные дубли

    Они возникают в том случае, если в разных разделах присутствуют одинаковые элементы текста. Иногда владельцу сайта кажется хорошей идеей написать приветствие или общее описание преимуществ магазина, а затем разместить его в каждом разделе. Но фактически это уменьшает уникальность разделов, что ведёт к снижению позиций в выдаче.
    Чтобы такого избежать, достаточно воспользоваться антиплагиатом и проверить весь контент на сайте.

    Как найти дубли

    Казалось бы, что определить дубли несложно: достаточно пройтись по сайту и проверить каждый раздел. Но всё усложняется тем, что:
    На больших ресурсах поиск дублей страниц сайта может занять очень много времени.
    Не на все копии вы найдёте ссылки из меню или из других разделов. Некоторые (технические) существуют по адресам, которые вы вряд ли обнаружите.
    Поэтому рекомендуются следующие способы для проверки сайта на дубли страниц.

    Проверка оператором Site:

    Берём адрес нашего сайта, затем вписываем его в поисковик в таком виде: site:абв.рф.
    Получив такой запрос, Яндекс или Гугл проведёт анализ сайта и выдаст в виде списка все разделы, которые на нём присутствуют. Это хороший способ для небольших по размеру ресурсов. Таким методом можно проверить дубль главной страницы и увидеть, имеются ли по каким-либо адресам её зеркала. Но как узнать, где находятся копии страниц на больших сайтах?

    Проверка с помощью специальных сервисов

    Существуют программы и онлайн-сервисы, которые делают то же самое, но в более удобной форме: они выстраивают список разделов ресурса и сами находят копии. Например:
    Xenu.
    Netpeak Spider.
    Такие программы значительно ускоряют процесс поиска и помогают обратить внимание, в первую очередь, на наиболее очевидные копии.

    Поиск с помощью Гугл Вебмастера

    Открыв панель Google для вебмастеров, требуется найти панель «оптимизация» и выбрать там пункт «оптимизация html». Этим методом удобно искать полные совпадения, а также одинаковые заголовки и описания страниц.

    Как удалить дубли

    Узнав, как проверить сайт на наличие дублей страниц, придётся разобраться с тем, как их удалить.
    Здесь тоже несколько способов.

    Выбор единственного главного зеркала

    Чтобы убрать дубли главной страницы, достаточно решить, какое из зеркал будет главным. Это может быть только один вариант адреса. Все остальные будут считаться копиями. Настройка осуществляется с помощью файла robots.txt, яндекс.вебмастера и настройки 301 редиректа.

    Настройка 301-редиректа

    Редирект позволяет сделать одни разделы ресурса зеркалами других, и поскольку будет происходить автоматическая переадресация, проблему удастся решить.

    Закрытие от индексации

    Если закрыть дубли страниц от индексации, они не будут влиять на поисковую оптимизацию. Это делается с помощью тега – закрыть часть контента на странице или в robots.txt – закрыть всю страницу.

    Физическое удаление с сайта

    Ручное удаление дублей помогает «очистить» сайт или блог от лишних разделов, которые на нём могли возникнуть из-за сбоев иерархии и других причин, связанных с работой владельца либо оптимизатора.
    Чтобы поддерживать ресурс в хорошем состоянии, полезно регулярно проверять внутренние копии. Это поможет максимизировать эффект от SEO и избежать неприятностей.
    Чтобы уменьшить время на работу с одинаковыми разделами и получить лучший эффект, можно обратиться за помощью к специалистам, которые имеют опыт удаления дублей и настройки редиректа на всех уровнях.

  6. ЗлойШкольник Ответить

    Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства. Вот что пишут о дублях представители Яндекса:
    Я думаю, не стоит надеяться, что в вашем случае алгоритм оценит все страницы правильно и его выбор совпадет с вашим ?? – лучше самому избавиться от дублей на сайте.
    Почему нужно избавляться от дублей?
    Предлагаю для начала рассмотреть, чем опасны дубли страниц.
    Ухудшается индексация сайта
    Если в вашем проекте несколько тысяч страниц, и на каждую из них создается по одному дублю, то объем сайта уже «раздувается» в два раза. А что, если создается не один дубль, а несколько? В прошлом году мы проводили экспертизу новостного портала, в котором каждая новость автоматически публиковалась в семи разделах, то есть каждая страница сразу создавалась еще с шестью дублями.
    Неправильно распределяется внутренний ссылочный вес
    Часто дубли на сайте появляются в результате неправильных внутренних ссылок. В итоге страницы-дубли могут считаться более значимыми, чем основная версия. Не стоит забывать и про пользовательские факторы. Если посетитель попал на дубль страницы, то, соответственно, измеряются ее показатели, а не оригинала.
    Изменение релевантной страницы в поисковой выдаче
    Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.
    Потеря внешнего ссылочного веса
    Пользователя заинтересовал ваш товар или статья, и он решил поделиться информацией и поставить на страницу ссылку. Если он был на странице-дубле, то сошлется именно на нее. В итоге вы потеряете полезную естественную ссылку.
    Как найти дубли?
    Теперь давайте рассмотрим, как можно найти внутренние дубли на сайте.
    1. Анализ данных Google Webmasters
    Пожалуй, самый простой из способов. Для того чтобы найти страницы дублей, вам будет достаточно зайти в панель инструментов, выбрать вкладку «Вид в поиске» и перейти по ссылке «Оптимизация html»:

    Наша цель – это пункты:
    —  «Повторяющееся метаописание». Здесь отображены страницы с одинаковыми описаниями (description);
    «Повторяющиеся заголовки (теги title)». В этом пункте находится список страниц с одинаковыми заголовками (Title).
    Дело в том, что на страницах обычно совпадает не только контент, но и мета-данные. Проанализировав список страниц, отображаемых в этих вкладках, легко можно выявить такие дубли. Мы рекомендуем периодически проверять вышеупомянутые вкладки панели инструментов на наличие новых ошибок.
    Проверить страницы на совпадающие заголовки можно даже в том случае, если доступа к панели у вас нет. Для этого вам нужно будет воспользоваться расширенным поиском поисковой системы или сразу ввести в поисковую строку соответствующий запрос.
    Для Яндекса:
    site: siteclinic.ru title:(анализ сайтов)
    Для Google:
    site: siteclinic.ru intitle:анализ сайтов
    Разумеется, необходимо подставить свой домен и часть заголовка, дубль которого вы ищете.
    2. Анализ проиндексированных документов
    Анализ в первую очередь лучше проводить в той поисковой системе, в индексе которой находится больше всего страниц. В большинстве случаев это Google. С помощью оператора языка запросов «site» легко получить весь список проиндексированных страниц. Вводим в строку поиска:
    site:siteclinic.ru  (не забудьте указать имя своего домена) и получаем список проиндексированных страниц.
    В конце списка вы увидите ссылку «Показать скрытые результаты». Нажмите на нее, чтобы увидеть более полный список страниц:

    Просматривая выдачу, обращайте внимание на нестандартные заголовки и url страниц.
    Например, вы можете увидеть, что в выдаче попадаются страницы с идентификаторами на конце, в то время как на сайте настроены ЧПУ. Нередко уже беглый анализ проиндексированных страниц позволяет выявить дубли или другие ошибки.
    Если на сайте большой объем страниц, то при анализе может помочь программа Xenu. Об использовании этого инструмента можно прочесть на блоге Сергея Кокшарова.
    3. Поиск дублей по части текста
    Два предыдущих способа помогают выявить дубли в тех случаях, когда на страницах совпадают мета-данные. Но могут быть и другие ситуации. Например, статья на сайте попадает сразу в несколько категорий, при этом в title и description автоматически добавляется название категории, что делает мета-данные формально уникальными. В этом случае ошибки в панели инструментов мы не увидим, а при ручном анализе сниппетов страниц такие дубли легко пропустить.
    Для того чтобы выявить на сайте подобные страницы, лучше всего подойдет поиск по части текста.
    Для этого нужно воспользоваться инструментом «расширенный поиск» и произвести поиск на сайте по части текста страницы. Текст вводим в кавычках, чтобы искать страницы с таким же порядком слов и формой, как в нашем запросе.
    Так выглядит расширенный поиск в Яндексе:

    А вот так в Google:

    На сайтах может быть много сотен или даже тысяч страниц. Разумеется, не нужно анализировать все страницы. Их можно разбить по группам. Например, главная, категории, товарные карточки, новости, статьи. Достаточно будет проанализировать по 2-3 страницы каждого вида, чтобы выявить дубли или убедиться, что на сайте все в порядке.
    Чистим сайт от дублей
    После того как дубли обнаружены, можно приступать к их удалению.
    Находим и устраняем причину появления дублей
    Первое, что необходимо сделать – найти причину, из-за которой дубли на сайте появляются, и постараться ее устранить.
    Причины могут быть различные, например:
    ошибки в логике структуры сайта;
    технические ошибки;
    различные фильтры и поиск по сайту.
    В каждом случае ситуацию необходимо рассматривать индивидуально, но если дубли функционально не полезны, то от них лучше просто отказаться.
    Указываем канонический адрес страницы
    Если страницы-дубли по каким-то причинам нельзя удалить, то следует указать поисковым роботам, какая страница является основной (канонической). Google ввел для этого специальный атрибут rel=»canonical» (рекомендации по использованию атрибута).
    Через некоторое время его стал поддерживать и Яндекс . И на сегодняшний день это основное официальное средство для борьбы с дублями страниц.
    Использование 301 редиректа
    До внедрения rel=»canonical» 301 редирект был основным способом склейки страниц-дублей. И сейчас разработчики и оптимизаторы продолжают активно использовать 301 редирект для переадресации на основное зеркало сайта или со страниц с «/» или без него на конце.
    Запрет к индексации в robots.txt
    В файле robots.txt мы можем запретить доступ к определенным разделам или типам страниц, например, страницам, формируемым в результате поиска по сайту. Но это не избавит нас от дублей страниц в Google. Дело в том, что доступ к страницам будет запрещен, но если страницы уже попали в индекс, они после добавления запрета исключены не будут.
    Приведу цитату из рекомендаций Google:
    Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты.
    Для того чтобы страница была удалена из индекса, на нее необходимо добавить , но при этом важно, чтобы страница не была закрыта в robots.txt. Иначе поисковый робот на нее не зайдет.
    Еще одна цитата:
    Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.)
    В связи с этим, если дубли на сайте уже есть, robots.txt не поможет удалить их из индекса Google.
    Остается пожелать оптимизаторам успехов в борьбе с дублями и развитии своих проектов.

  7. YKOL Ответить

    В ниже приведенной статье мы сегодня попытаемся рассмотреть много вопросов, касающихся проблемы дублирования страниц, что становится причиной возникновения дублей, как от этого избавиться, и вообще, почему нужно избавляться от дубликатов.
    Для начала давайте разберемся, что кроется под понятием «дублирование контента». Нередко случается, что некоторые страницы могут содержать частично или в полной мере одинаковый контент. Понятно, что каждая отдельная страница имеет свой собственный адрес.
    Причины возникновения дублей:
    — владельцы сайта сами создают дубли для определенных целей. Допустим, это может быть страница для печати, которая позволяет посетителю коммерческого сайта скопировать необходимую информацию по определенному товару или услуге.
    — они генерируются движком интернет-ресурса, поскольку это заложено в их теле. Определенное количество современных СMS могут выдавать похожие страницы с различными URL, которые размещены на разных директориях.
    — ошибки вебмастера, который работает над продвижением сайта. Он может создать две одинаковые главные страницы, которые отличаются адресами.
    — изменение структуры сайта. При создании нового шаблона с иной системой URL, новые страницы, вмещающие старый контент, получают другие адреса.
    Мы перечислили возможные причины возникновения четких дублей, но существуют еще и нечеткие, то есть частичные. Зачастую подобные страницы имеют схожую часть шаблона ресурса, но контент их немного отличается. Подобными дублями могут быть страницы сайта, которые имеют одинаковый результат поиска или же отдельный элемент статьи. Чаще всего, такими элементами становятся картинки.
    От дублированных страниц необходимо избавляться. Нет, это не вирус, но он также со временем разрастается, правда, это зависит не от самого ресурса. Дубли зачастую становятся последствием непрофессионального вебмастера, или же результатом неправильного кода сайта.
    Важно знать, что дубли могут нанести ресурсу немалый ущерб. К каким же последствиям может привести наличие дублей на сайте? Во-первых, это ухудшение индексации ресурса. Согласитесь, что подобная ситуация не очень то обрадует владельца сайта. В то время как на продвижение ресурса постоянно тратятся финансы и время, ресурс начинает терять свою популярность за несколько дней. Глубина проблемы будет зависеть от количества дублей.
    Бывает так, что главная страница может иметь пару-тройку дубликатов. С блогам дело обстоит несколько по-другому. Благодаря replytocom может быть огромное количество дублей из-за копирования комментариев. Получается, что чем популярнее блог, тем больше дубликатов он будет содержать. В свою очередь, системы поиска, в особенности Google, из-за наличия таких вот дублей занижает позиции ресурса.
    Алгоритмы поисковых систем работают автоматически, и нередко бывает так, что дубль воспринимается системой более релевантным, чем страница-оригинал. В результате выдача будет выдавать не оригинал, а его дубль. В свою очередь, дубль обладает другими параметрами, что позже скажется на пессимизации сайта.
    Не стоит размещать на своем ресурсе естественные ссылки. Рассмотрим ситуацию, когда на ресурс заходит посетитель. Он доволен имеющейся здесь информацией и хочет поделиться адресом со своими друзьями. Но данная страница является дублем оригинала, в результате чего ссылку получит дубль, а не наша страница, которая выступает оригиналом. В итоге естественную ссылку мы теряем.
    Что же у нас получается? Дублированные страницы становятся реальной помехой в индексации сайта, а также причиной неверного выбора поисковой системы релевантной страницы, снижают влияние естественных ссылок. Помимо этого, дубли неправильно распределяют внутренний вес, снижая силу продвигаемых страниц, а также меняя поведенческие показатели.
    Как проверить сайт на дубли страниц?
    Существуют различные способы поиска и проверки дублированных страниц. От исполнителя они требуют разной степени знаний CMS, а также понимания того, каким образом работает поисковый индекс. Попробуем показать Вам наипростейший способ для проверки сайта на дубли страниц. Сразу отметим, что данный способ является не очень то и точным. Но, в тоже время подобный способ позволяет совершать поиск дублей страниц сайта, и не занимает много времени.
    Для поиска и проверки собственного ресурса на наличие дубликатов, следует просто ввести в расширенный поиск поисковой системы специальный запрос. Если Вы используете расширенную версию поиска в Яндекс, можно получить довольно подробные результаты благодаря тому, что здесь имеется возможность вводить уточняющие параметры для запроса.
    Нам понадобится адрес ресурса и та часть текста, дубликат которого мы хотим найти. Для этого нам потребуется на своей странице выделить фрагмент текста, после чего в расширенном поиске системы Яндекс ввести скопированный текст и адрес сайта. Теперь необходимо нажать кнопку «Найти», после чего система начнет поиск.
    Результаты будут выведены не в обычном режиме. Список сайтов будет содержать только заголовки и сннипеты нашего ресурса. В том случае, когда система выдает единственный результат, это значит, что дубликатов данной страницы нет. А вот при выдаче нескольких результатов придется поработать.
    Теперь давайте посмотрим, как сделать то же самое только в системе Google. В принципе, процедура ничем не отличается, потребуется совершить такие же действия, как и в Яндексе.
    Расширенный поиск позволяет легко находить все дубликаты по определенному фрагменту текста. Безусловно, что таким способом мы не получим дублей страниц, которые не содержат указанного текста. Нужно сказать что, если дубль был создан искривленным шаблоном, то он только показывает, например, картинку из оригинала на другой странице. Разумеется, что если текста дубликат не содержит, то выше описанным способом его определить не удастся. Для этого необходим другой способ.
    Второй способ также отличается своей простотой. Надо воспользоваться специальным оператором и запросить индексацию своего сайта, или же его отдельных страниц. После этого придется вручную смотреть выдачу в поиске дублей.
    Правила синтаксиса необходимого запроса:
    В той ситуации, когда в поиск вводится просто адрес главной страницы, нам показан список проиндексированных страниц с помощью поискового робота. А вот, если укажем адрес конкретной страницы, то система выводит уже проиндексированные дубли данной страницы.
    Поисковая система Яндекс сразу же предоставляет список дублей, а вот в Гугле, чтобы увидеть дубли, необходимо будет дополнительно нажать «Показать скрытые результаты», поскольку зачастую на экран выводится оригинал страницы.
    С картинки видно что, в основной выдаче находится 1 страница сайта, и она же и является оригиналом. Но в индексе существуют другие страницы, являющиеся дублями. Чтобы их увидеть, нужно нажать на ссылку “Показать скрытые результаты”. В результате мы получаем список, где под номером 1 находится оригинал, а дальше уже размещены дубликаторы. Частенько дубли придется чистить вручную.
    Как проверить сайт на дубли страниц
    В ниже приведенной статье мы сегодня попытаемся рассмотреть много вопросов, касающихся проблемы дублирования страниц, что становится причиной возникновения дублей, как от этого избавиться, и вообще, почему нужно избавляться от дубликатов.
    Для начала давайте разберемся, что кроется под понятием «дублирование контента». Нередко случается, что некоторые страницы могут содержать частично или в полной мере одинаковый контент. Понятно, что каждая отдельная страница имеет свой собственный адрес.
    Причины возникновения дублей:
    — владельцы сайта сами создают дубли для определенных целей. Допустим, это может быть страница для печати, которая позволяет посетителю коммерческого сайта скопировать необходимую информацию по определенному товару или услуге.
    — они генерируются движком интернет-ресурса, поскольку это заложено в их теле. Определенное количество современных СMS могут выдавать похожие страницы с различными URL, которые размещены на разных директориях.
    — ошибки вебмастера, который работает над продвижением сайта. Он может создать две одинаковые главные страницы, которые отличаются адресами.
    — изменение структуры сайта. При создании нового шаблона с иной системой URL, новые страницы, вмещающие старый контент, получают другие адреса.
    Мы перечислили возможные причины возникновения четких дублей, но существуют еще и нечеткие, то есть частичные. Зачастую подобные страницы имеют схожую часть шаблона ресурса, но контент их немного отличается. Подобными дублями могут быть страницы сайта, которые имеют одинаковый результат поиска или же отдельный элемент статьи. Чаще всего, такими элементами становятся картинки.
    От дублированных страниц необходимо избавляться. Нет, это не вирус, но он также со временем разрастается, правда, это зависит не от самого ресурса. Дубли зачастую становятся последствием непрофессионального вебмастера, или же результатом неправильного кода сайта.
    Важно знать, что дубли могут нанести ресурсу немалый ущерб. К каким же последствиям может привести наличие дублей на сайте? Во-первых, это ухудшение индексации ресурса. Согласитесь, что подобная ситуация не очень то обрадует владельца сайта. В то время как на продвижение ресурса постоянно тратятся финансы и время, ресурс начинает терять свою популярность за несколько дней. Глубина проблемы будет зависеть от количества дублей.
    Бывает так, что главная страница может иметь пару-тройку дубликатов. С блогам дело обстоит несколько по-другому. Благодаря replytocom может быть огромное количество дублей из-за копирования комментариев. Получается, что чем популярнее блог, тем больше дубликатов он будет содержать. В свою очередь, системы поиска, в особенности Google, из-за наличия таких вот дублей занижает позиции ресурса.
    Алгоритмы поисковых систем работают автоматически, и нередко бывает так, что дубль воспринимается системой более релевантным, чем страница-оригинал. В результате выдача будет выдавать не оригинал, а его дубль. В свою очередь, дубль обладает другими параметрами, что позже скажется на пессимизации сайта.
    Не стоит размещать на своем ресурсе естественные ссылки. Рассмотрим ситуацию, когда на ресурс заходит посетитель. Он доволен имеющейся здесь информацией и хочет поделиться адресом со своими друзьями. Но данная страница является дублем оригинала, в результате чего ссылку получит дубль, а не наша страница, которая выступает оригиналом. В итоге естественную ссылку мы теряем.
    Что же у нас получается? Дублированные страницы становятся реальной помехой в индексации сайта, а также причиной неверного выбора поисковой системы релевантной страницы, снижают влияние естественных ссылок. Помимо этого, дубли неправильно распределяют внутренний вес, снижая силу продвигаемых страниц, а также меняя поведенческие показатели.
    Как проверить сайт на дубли страниц?
    Существуют различные способы поиска и проверки дублировааных страниц. От исполнителя они требуют разной степени знаний CMS, а также понимания того, каким образом работает поисковый индекс. Попробуем показать Вам наипростейший способ для проверки сайта на дубли страниц. Сразу отметим, что данный способ является не очень то и точным. Но, в тоже время подобный способ позволяет совершать поиск дублей страниц сайта, и не занимает много времени.
    Для поиска и проверки собственного ресурса на наличие дубликатов, следует просто ввести в расширенный поиск поисковой системы специальный запрос. Если Вы используете расширенную версию поиска в Яндекс, можно получить довольно подробные результаты благодаря тому, что здесь имеется возможность вводить уточняющие параметры для запроса.
    Нам понадобится адрес ресурса и та часть текста, дубликат которого мы хотим найти. Для этого нам потребуется на своей странице выделить фрагмент текста, после чего в расширенном поиске системы Яндекс ввести скопированный текст и адрес сайта. Теперь необходимо нажать кнопку «Найти», после чего система начнет поиск.
    Результаты будут выведены не в обычном режиме. Список сайтов будет содержать только заголовки и сннипеты нашего ресурса. В том случае, когда система выдает единственный результат, это значит, что дубликатов данной страницы нет. А вот при выдаче нескольких результатов придется поработать.
    Теперь давайте посмотрим, как сделать то же самое только в системе Google. В принципе, процедура ничем не отличается, потребуется совершить такие же действия, как и в Яндексе.
    Расширенный поиск позволяет легко находить все дубликаты по определенному фрагменту текста. Безусловно, что таким способом мы не получим дублей страниц, которые не содержат указанного текста. Нужно сказать что, если дубль был создан искривленным шаблоном, то он только показывает, например, картинку из оригинала на другой странице. Разумеется, что если текста дубликат не содержит, то выше описанным способом его определить не удастся. Для этого необходим другой способ.
    Второй способ также отличается своей простотой. Надо воспользоваться специальным оператором и запросить индексацию своего сайта, или же его отдельных страниц. После этого придется вручную смотреть выдачу в поиске дублей.
    Правила синтаксиса необходимого запроса:
    В той ситуации, когда в поиск вводится просто адрес главной страницы, нам показан список проиндексированных страниц с помощью поискового робота. А вот, если укажем адрес конкретной страницы, то система выводит уже проиндексированные дубли данной страницы.
    Поисковая система Яндекс сразу же предоставляет список дублей, а вот в Гугле, чтобы увидеть дубли, необходимо будет дополнительно нажать «Показать скрытые результаты», поскольку зачастую на экран выводится оригинал страницы.
    Как видно на картинке, в основной выдаче у нас находится одна страница сайта и она же является оригиналом. Но в индексе есть и другие страницы, которые являются дублями. Чтобы их увидеть, нужно нажать на ссылку “Показать скрытые результаты”. В результате мы получаем список, где под номером 1 находится оригинал, а дальше уже размещены дубликаторы. Частенько дубли придется чистить вручную.

  8. VanKoBep Ответить

    Многие владельцы сайтов даже не подозревают о том, что на сайте может присутствовать большое количество дубликатов, наличие которых плохо сказывается на общем ранжировании сайта. Поисковые системы воспринимают данные документы как отдельные, поэтому контент страницы перестает быть уникальным, тем самым снижается ссылочный вес страницы.
    Наличие небольшого количества дублей страниц не будет являться большой проблемой для сайта. Но если их число зашкаливает, то от них необходимо избавляться в срочном порядке.

    Виды дубликатов страниц

    Существуют различные виды дубликатов страниц, самые распространенные из них представлены в рисунке 1:

    Рис. 1. Виды дубликатов страниц
    Разберем подробнее представленные виды дублей страниц.
    Полные дубликаты страниц — полное дублирование контента веб-документа, различия только в URL-адресе.
    Частичные дубликаты страниц — частичное дублирование контента веб-документов, когда дублируется наполнение сайта с небольшими различиями. Например, большие фрагменты текстов дублируются на нескольких страницах сайта — это уже частичные дубликаты или похожие карточки товаров, которые отличаются только одной незначительной характеристикой.
    Внешние дубликаты страниц — полное или частичное дублирование контента на разных сайтах.
    Технические дубликаты — это дубликаты, которые генерируются автоматически из-за неправильных настроек системы управления сайтом.
    Дубликаты, созданные человеком — это дубликаты страниц, которые были созданы по невнимательности самим вебмастером.

    Как выявить дубли страниц?

    Способов обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего.

    1. Парсинг сайта в сервисе

    При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть страницы-дубликаты.
    К примеру, когда не склеены зеркала либо у страниц есть какие-то параметры, которые добавляются автоматически при отслеживании эффективности рекламных кампаний и др.

    Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах
    Небольшой лайфхак для работы с сервисом Screaming Frog: если у сайта огромное количеством страниц, и вы сразу заметили, что зеркала не склеены и поставили проект на парсинг, естественно процесс замедлится и уменьшит скорость работы вашей системы (если у вашего ПК, конечно, не мощные системные характеристики).
    Чтобы этого избежать можно использовать функцию Configuration – URL Rewriting – Regex Replace.
    В вкладке Regex Replace создаем следующее правило (используя регулярное выражение, «говорим» сервису, как нужно склеивать зеркала, чтобы он выводил только страницы с HTTPS):

    Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting
    Далее нажимаем кнопку «ОК» и переходим во вкладку «Test». В данной вкладке сервис вам покажет, правильно ли вы задали правило и как будут склеиваться зеркала. В нашем случаем должен выходить такой результат:

    Рис. 4. Скриншот из сервиса Screaming Frog — Использование функции Test
    Таким же способом можно склеивать страницы с «www» и без «www», а также задавать различные параметры, чтобы не выводить ненужные страницы (например, страницы пагинации).
    После всех операций спокойно запускаем парсинг сайта без дополнительной нагрузки на систему.

    2. Использование панели Яндекс.Вебмастер

    В Яндекс.Вебмастер есть очень удобный пункт сервиса – «Индексирование» — «Страницы в поиске». Данный пункт наглядно показывает текущую индексацию сайта, а также дубликаты страниц (то, что мы ищем):

    Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске
    Для полного анализа дубликатов страниц рекомендуется выгрузить xls-файл всех страниц, которые присутствуют в поиске:

    Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер
    Открываем наш xls-файл и включаем фильтр: Данные – Фильтр:

    Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер»
    В фильтре выбираем «DUPLICATE», и перед нами будет список дубликатов страниц. Рекомендуется проанализировать каждую страницу или один тип страниц, (если, например, это только карточки товаров) на предмет дублирования.
    Например: поисковая система может признать дубликатами похожие карточки товаров с незначительными отличиями. Тогда необходимо переписать содержание страницы: основной контент, теги и метатеги, если они дублируются, либо такие карточки склеить с помощью атрибута rel=”canonical”. Другие рекомендации по избавлению от дубликатов страниц подробно описаны в пункте 5.

    3. Использование Google Search Console

    Заходим в Google Search Console, выбираем свой сайт, в левом меню кликаем «Вид в поиске» – «Оптимизация HTML» и смотрим такие пункты, которые связаны с термином «Повторяющееся»:

    Рис. 8. Скриншот из панели «Google Console»
    Данные страницы могут и не являются дубликатами, но проанализировать их нужно и при необходимости устранить проблемы с дублированием.

    4. Использование операторов поиска

    Для поиска дубликатов также можно использовать операторы поиска «site:» и «inurl», но данный метод уже устарел. Его полностью заменила функция «Страницы в поиске» в Яндекс.Вебмастере.

    Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов

    5. Ручной поиск

    Для ручного поиска дубликатов страниц необходимо уже обладать знаниями о том, какие дубликаты могут быть. Вручную обычно проверяются такие типы дубликатов, как:
    ? URL-адрес с “/” и без “/” в конце. Проверяем первую страницу сайта с “/” и без “/” в конце в сервисе bertal. Если обе страницы отдают код ответа сервера 200 ОК, то такие страницы являются дубликатами и их необходимо склеить 301 редиректом
    ? добавление в URL-адрес каких-либо символов в конце адреса или в середине. Если после перезагрузки страница не отдает 404 код ответа сервера или не настроен 301 Moved Permanently на текущую основную страницу, то перед нами, по сути, тоже дубликат, от которого необходимо избавиться. Такая ошибка является системной, и ее нужно решать на автоматическом уровне.

    Как избавиться от дубликатов страниц: основные виды и методы

    В данном пункте разберем наиболее часто встречающиеся виды дубликатов страниц и варианты их устранения:
    Не склеенные страницы с «/» и без «/», с www и без www, страницы с http и с https.
    Варианты устранения:
    ? Настроить 301 Moved Permanently на основное зеркало, обязательно выполните необходимые настройки по выбору основного зеркала сайта в Яндекс.Вебмастер.
    Страницы пагинации, когда дублируется текст с первой страницы на все остальные, при этом товар разный.
    Выполнить следующие действия:
    ? Использовать теги next/prev для связки страниц пагинации между собой;
    ? Если первая страница пагинации дублируется с основной, необходимо на первую страницу пагинации поставить тег rel=”canonical” со ссылкой на основную;
    ? Добавить на все страницы пагинации тег:
    Данный тег не позволяет роботу поисковой системы индексировать контент, но дает переходить по ссылкам на странице.
    Страницы, которые появляются из-за некорректно работающего фильтра.
    Варианты устранения:
    ? Корректно настроить страницы фильтрации, чтобы они были статическими. Также их необходимо правильно оптимизировать. Если все корректно настроено, сайт будет дополнительно собирать трафик на страницы фильтрации;
    ? Закрыть страницы-дубликаты в файле robots.txt с помощью директивы Disallow.
    Идентичные товары, которые не имеют существенных различий (например: цвет, размер и т.д.).
    Варианты устранения:
    ? Склеить похожие товары с помощью тега rel=”canonical”;
    ? Реализовать новый функционал на странице карточки товара по выбору характеристики. Например, если есть несколько почти одинаковых товаров, которые различаются только, к примеру, цветом изделия, то рекомендуется реализовать выбор цвета на одной карточке товара, далее – с остальных настроить 301 редирект на основную карточку.
    Страницы для печати.
    Вариант устранения:
    ? Закрыть в файле robots.txt.
    Страницы с неправильной настройкой 404 кода ответа сервера.
    Вариант устранения:
    ? Настроить корректный 404 код ответа сервера.
    Дубли, которые появились после некорректной смены структуры сайта.
    Вариант устранения:
    ? Настроить 301 редирект со страниц старой структуры на аналогичные страницы в новой структуре.
    Дубли, которые появляются из-за некорректной работы Яндекс.Вебмастера. Например, такие URL-адреса, которые заканчиваются на index.php, index.html и др.
    Варианты устранения:
    ? Закрыть в файле robots.txt;
    ? Настроить 301 редирект со страниц дубликатов на основные.
    Страницы, к примеру, одного и того же товара, которые дублируются в разных категориях по отдельным URL-адресам.
    Варианты устранения:
    ? Cклеить страницы с помощью тега rel=”canonical”;
    ? Лучшим решением будет вынести все страницы товаров под отдельный параметр в URL-адресе, например “/product/”, без привязки к разделам, тогда все товары можно раскидывать по разделам, и не будут “плодиться” дубликаты карточек товаров.
    Дубли, которые возникают при добавлении get-параметров, различных utm-меток, пометок счетчиков для отслеживания эффективности рекламных кампаний: Google Analytics, Яндекс.Метрика, реферальных ссылок, например, страницы с такими параметрами как: gclid=, yclid=, openstat= и др.
    Варианты устранения:
    ? В данном случае необходимо проставить на всех страницах тег rel=”canonical” со ссылкой страницы на саму себя, так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний.
    Устранение дублей позволит поисковым системам лучше понимать и ранжировать ваш сайт. Используйте советы из этой статьи, и тогда поиск и устранение дублей не будет казаться сложным процессом.
    И повторюсь: малое количество дубликатов не так значительно скажется на ранжировании вашего сайта, но большое количество (более 50% от общего числа страниц сайта) явно нанесет вред.

  9. DeathKing Ответить

    Дубли страниц – это копии каких-либо страниц. Если у вас есть страница site.ru/bratok.html с текстом про братков, и точно такая же страница site.ru/norma-pacany.html с таким же текстом про братков, то вторая страница будет дублем.

    Могут ли дубли плохо сказаться на продвижении сайта

    Могут, если у вашего сайта проблемы с краулинговым бюджетом (если он маленький).
    Краулинговый бюджет — это, если выражаться просто, то, сколько максимум страниц вашего сайта может попасть в поиск. У каждого сайта свой КБ. У кого-то это 100 страниц, у кого-то — 25000.
    Если в индексе будет то одна страница, то другая, в этом случае они не будут нормально получать возраст, поведенческие и другие «подклеивающиеся» к страницам факторы ранжирования. Кроме того, пользователи могут в таком случае ставить ссылки на разные страницы, и вы упустите естественное ссылочное. Наконец, дубли страниц съедают часть вашего краулингового бюджета. А это грозит тем, что они будут занимать в индексе место других, нужных страниц, и в итоге нужные вам страницы не будут находиться в поиске.

    Причины возникновения дублей

    Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.
    Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
    Особенности CMS (движка). В WordPress такой херни обычно нету, а вот всякие Джумлы генерируют огромное количество дублей;
    URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
    Страницы комментариев;
    Страницы для печати;
    Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

    Способы поиска дублирующего контента

    Можно искать дубли программами или онлайн-сервисами. Делается это по такому алгоритму — сначала находите все страницы сайта, а потом смотрите, где совпадают Title.

    XENU

    XENU – это очень олдовая программа, которая издавна используется сеошниками для сканирования сайта. Лично мне её старый интерфейс не нравится, хотя задачи свои она в принципе решает. На этом видео парень ищет дубли именно при помощи XENU:

    Screaming Frog

    Я лично пользуюсь либо Screaming Frog SEO Spider, либо Comparser. «Лягушка» — мощный инструмент, в котором огромное количество функций для анализа сайта.

    Comparser

    Comparser – это все-таки мой выбор. Он позволяет проводить сканирование не только сайта, но и выдачи. То есть ни один сканер вам не покажет дубли, которые есть в выдаче, но которых уже нет на сайте. Сделать это может только Компарсер.

    Поисковая выдача

    Можно также и ввести запрос вида site:vashsite.ru в выдачу поисковика и смотреть дубли по нему. Но это довольно геморройно и не дает полной информации. Не советую искать дубли таким способом.

    Онлайн-сервисы

    Чтобы проверить сайт на дубли, можно использовать и онлайн-сервисы.

    Google Webmaster

    Обычно в панели вебмастера Google, если зайти в «Вид в поиске — Оптимизация HTML», есть информация о страницах с повторяющимся метаописанием. Так можно найти часть дублей. Вот видеоинструкция:

    Sitereport

    Аудит сайта от сервиса Sitereport также поможет найти дубли, помимо всего прочего. Хотя дублированные страницы можно найти и более простыми/менее затратными способами.

    Решение проблемы

    Для нового и старого сайта решения проблемы с дублями — разные. На новом нам нужно скорее предупредить проблему, провести профилактику (и это, я считаю, самое лучшее). А на старом уже нужно лечение.
    На новом сайте делаем вот что:
    Сначала нужно правильно настроить ЧПУ для всего ресурса, понимая, что любые ссылки с GET-параметрами нежелательны;
    Настроить редирект сайта с www на без www или наоборот (тут уж на ваш вкус) и выбрать главное зеркало в инструментах вебмастера Яндекс и Google;
    Настраиваем другие редиректы — со страниц без слеша на страницы со слешем или наоборот;
    Завершающий этап – это обновление карты сайта.
    Отдельное направление – работа с уже имеющимся, старым сайтом:
    Сканируем сайт и все его страницы в поисковых системах;
    Выявляем дубли;
    Устраняем причину возникновения дублей;
    Проставляем 301 редирект и rel=»canonical» с дублей на основные документы;
    В обязательном порядке 301 редиректы ставятся на страницы со слешем или без него. Обязательная задача – все url должны выглядеть одинаково;
    Правим роботс — закрываем дубли, указываем директиву Host для Yandex с заданием основного зеркала;
    Ждем учета изменений в поисковиках.
    Как-то так.

  10. VideoAnswer Ответить

Добавить комментарий для VideoAnswer Отменить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *