Дубли страниц и запрет индексирования

 

Для того, чтобы сайт лучше индексировался поисковыми машинами, часть страниц необходимо принудительно закрывать от индексации, запрещая поисковым машинам заходить на эти страницы. Чем больше страниц на вашем сайте знает поисковая машина, тем с большей вероятностью результаты поиска по вашему сайту будут показываться ниже. Если ваш заработок в интернете строиться вокруг сайта, то очень важно, чтобы он хорошо индексировался.

Многие знают о том, что есть так называемые «дубли страниц» Что это такое? Все современные сайты построены на CMS – системах для генерации страниц сайта. В силу определенных технических особенностей CMS одна страница может показываться по нескольким разным адресам.

Обычно используется дружественный к пользователю адрес, так называемый SEO-адрес. Это адрес, который удобно читается и генерируется он специальным образом. Внутри же CMS существует реальный рабочий адрес большой длины. По этим адресам будет отображаться одна и та же страничка, причем если показывать поисковой машине только SEO-адрес, она все равно зайдет на реальный через какие-нибудь технические ходы и два раза проиндексирует один и тот же материал. В реальности это может быть 3, 5 и больше раз, потому что некоторые части адреса в конце можно менять произвольно и все равно страница будет отображаться.

Дубли страниц

Поисковая машина сначала будет считать все эти страницы разными и честно все их проиндексирует. В результате получается вот что. Допустим, зашла поисковая машина на сайт и считала 100 страниц. В реальности она считала 4-6 страниц, а остальные являются дублями. Т.е. поисковая машина напрасно потратила время и, более того, в ситуации, когда она могла знать 100 разных материалов, она будет знать только 4-6 разных материала.

В некоторых CMS эта ситуация усугубляется очень сильно. Например, в CMS Joomla. Нередко бывает ситуация, что проводя анализ сайта можно увидеть, что в одной поисковой системе проиндексировано на порядок больше страниц, чем в другой. Это говорит о том, что поисковик сделал кучу лишней работы. Он мог скачать весь сайт и отдать пользователям за 2-3 захода, а сделает реально заходов через 50. Потом, через какое-то время, обнаружиться, что там одинаковые страницы, а не разные. Это отрицательно скажется на ранжировании сайта в выдаче. Более того, поисковик может решить, что вы нарочно подсунули разные адреса одной страницы и наказать сайт, вплоть до исключения из индекса.

Второй аспект – это технические страницы. На сайте могут быть странички поиска, куча оглавлений: материалы по дате, по автору, по времени добавления и т.д. И все эти оглавления будут вести на одну страницу. Существуют также облака тегов, которые в конечном итоге ведут на одни и те же материалы. Происходит многократное дублирование, причем это уже не дубли страниц, а дубли доступа к страницам. Поисковая машина заходит и начинает лазить по сайту по этим сложным путям. При этом производится десятки переходов, скачивание кучи ненужной информации лишь для того, чтобы разными путями прийти к одной странице.

Сайт уже мог висеть полгода в индексе на хороших позициях, а в результате он не может даже толком проиндексироваться. Поэтому все это нужно закрывать от индексирования. Можно закрыть на сайте от индексации все оглавления, все пути, по которым ходит поисковая машина, и отдавать поисковой машине содержимое только через карту сайта. При этом очень хорошо начнет проходить индексация страниц. Когда поисковая машина сразу получает все страницы, она уже не залезает обходными путями на все дубли.

Затруднение индексации сайта

Кроме того, иногда информация на сайте дублируется сознательно. Например, если вы публикуете новости, то у вас может быть 5-6 материалов на одну и ту же тему, которые может хронологически как-то и уточняют друг друга, но при этом рассказывают об одном и том же. Поисковик начинает нервно соображать, какую из страниц дать пользователям по этому запросу.

И есть еще один аспект. Многие материалы воспринимаются поисковиками как явно криминальные. Типичный пример – копипаст. Например, у вас есть магазин радиоаппаратуры. Пользователи на сайт не ходят и вы хотите их привлечь. Один из способов привлечь пользователей – публиковать новости по теме вашего магазина. Это хороший способ, но при этом у вас нет ресурсов нанять хороших авторов, которые бы эти новости писали.

Напрашивается решение – поставить робота, который тянул бы новости с других сайтов и размещал у вас. За такое поведение поисковая машина накажет, потому что с ее точки зрения это нехорошо. Но есть выход – закрыть эти материалы от индексации. Пользователи будут видеть материалы, и будут заходить их читать, а поисковик не будет их видеть.

Существует много способов запретить индексацию. Наиболее распространены из них два. Первый - файл robots.txt, лежащий в корне сайта. Это простой способ, но у него есть один недостаток. Когда один и тот же материал может находиться по десяткам адресов, то прописывать их все для запрета неудобно и нелепо. Поэтому существует еще один способ – мета-теги. Все сводиться к тому, чтобы внутри тега <head> той страницы, которую нужно запретить к индексации, необходимо прописать мета-теги, запрещающие индексацию.

Существует также дополнительный способ заставить поисковик не индексировать определенные страницы: отдавать с этих страниц ответ с кодом 403. Этот метод более труднореализуемый, но более эффективный. По первым двум методам поисковик все равно потратит время на предварительное считывание информации, а по ответу 403 он даже заглядывать туда не будет.

 


"Дубли страниц и запрет индексирования"

Дополнительные статьи по заработку в интернете:

Надомная работа job-in-crisis.ru © 2009-2012

Копирование материалов сайта возможно

только с обязательной ссылкой на источник.