Правильный robots.txt или как избавиться от остального мусора на блоге

Привет! С вами снова Fomik! Как у вас дела — мои дорогие читатели? Как на сегодня обстоят дела с дублями страниц replytocom на ваших блогах? Вы их начали истреблять? Я – да. О своих результатах – в конце поста.

правильный robots.txt, как создать правильный robots.txt

А сегодня я продолжу тему очищения наших с вами сайтов и блогов от всякого рода мусора, который замедляет их развитие, ухудшает статистику посещений, снижает траст и т.д. Сегодня я расскажу вам о том, как избавиться от дублей страниц, которые генерирует наш с вами любимый файл robots.txt, который оказался не правильным. Почему? Читаем дальше про правильный robots.txt

Итак, в моей прошлой статье про дубли replytocom я рассказал, что это такое, какой вред наносят нашим блогам эти сопли и как от них избавиться. Но, оказывается, это еще не весь мусор, от которого необходимо быстрее избавляться. Его, конечно поменьше будет, чем “соплей” replytocom от безобидной кнопки “Ответить” в комментариях, но все же – это тоже не нужные нам страницы, которые захламляют наши ресурсы, тем самым ухудшая их в глазах поисковых систем.

Сегодняшняя статья называется “Правильный robots.txt”. То есть, ребята, я хочу вам сказать, что старый мой файл роботс был не правильным, почему? Сейчас объясню. Вот моя старая, одна из первых статей про создание важного для вордпресс блогов файла robots.txt. Забудьте о ней. Я уже пометил в этой статье, что содержание этого важного файла – не правильное и дал ссылку на эту статью.

Как я объяснял вам в прошлой статье, боты поисковых систем игнорируют наши роботсы, они лучше понимают тег noindex, который закрывает от индексации наши не нужные страницы. Правильность этого объясняется наличием в выдаче Гугла дублированного контента, который мы сами и создали. Не специально конечно, а по незнанию. Ведь у нас в интернете, как? Какой-нибудь липовый гуру что-то написал умное 5 лет назад, все поверили ему и сделали так же. И все это передавалось годами от блога к блогу. А знающие люди – специалисты, тихо молчали в тряпочку. У них ведь все правильно на их блогах. Как говориться, деньги любят тишину 🙂 Это и правильной, ценной информации касается…

Так вот, друзья, все посмотрите на свои файлы robots.txt. Что вы там видите? Мы видим там сплошные запреты. Лично я запретил обоим поисковикам индексировать:

корректный robots.txt

feed – аж 3 раза))), trackback (архивы) – 2 раза, комменты, категории, страницы…

Не говоря уже о запрете индексации входа в админку))) Сейчас это выглядит смешно, но 2,5 года назад все думали, что это правильные запреты. А на деле оказалось, что ботам наплевать на наши запреты в этом важном файле. Они игнорят эти запреты и индексируют весь этот хлам. Как я уже говорил выше, ботам поисковых систем важны запрещающие теги.

Как найти оставшийся дублированный контент на wordpress блоге?

Как? Так же, как мы с вами искали сопли в прошлой статье. Набираем в поиске Гугла:

site:site.ru …….

и подставляем вместо точек вот эти значения:

feed
tag
page
comment-page
attachment
attachment_id
category
trackback

Давайте я опять возьму блог Любви Кравченко в качестве примера. Покажу скрины с большим (ударение на первый слог) количеством дублей. Первый – feed. Набираете, нажимаете ввод,

затем смотрите скрытые результаты.

robots-correct3

36 страниц-дублей с окончанием feed. Это не много, но все же они имеются.

tag (метки) у Любиного блога всего одна.

И самое большое количество дублей у блога infodlya-vas.ru – это:

robots-correct4

165 дублей страниц из постраничной навигации и

163 дубля комментарий-страниц. Что это такое, я объясню позже, когда покажу, как будем избавляться от всех этих поганых дублей.

attachment и attachment_id (страниц с вложениями) у Любы нет вообще – это гуд!

category (разделов) – 21 и trackback (архивов) – всего 1.

Ну, проверили теперь свой блог на предмет этих дублей? Присутствует эта зараза у вас на блоге? У кого сколько?

Теперь покажу, как будем от этого шлака избавляться…

Как удалить дубли страниц feed, tag, page и т.д. на wordpress блоге?

Технология простая. Открываем всю эту заразу для ботов в роботсе и ставим на них наш любимый 301 редирект. Открываем – это ни значит прописываем вместо диррективы Disallow диррективу Аllow. Нет, мы просто укоротим наш файл robots.txt

  • Вот какой корректный на сегодня должен быть у вас файл роботс:
User-agent: *
Disallow: /wp-includes
Disallow: /wp-feed
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

Скопируйте его у меня и поставьте себе. Это был первый шаг…

  • Теперь будем перенаправлять ботов с дублей на основные страницы. Как? Конечно же 301 редиректом. Для этого копируем вот такой код:
RewriteRule (.+)/feed /$1 [R=301,L] RewriteRule (.+)/comment-page /$1 [R=301,L] RewriteRule (.+)/trackback /$1 [R=301,L] RewriteRule (.+)/comments /$1 [R=301,L] RewriteRule (.+)/attachment /$1 [R=301,L] RewriteCond %{QUERY_STRING} ^attachment_id= [NC] RewriteRule (.*) $1? [R=301,L]

и вставляем его в файл .htaccess
Напомню, что этот файл находится на вашем хостинге, в папке public_html
  • Затем мы закроем от индексации наши страницы с пагинацией. И сделаем мы это – опять своими ручками. Копируем вот этот код:
/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ function my_meta_noindex () { if ( is_paged() // Все и любые страницы пагинации ) {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";} }   add_action('wp_head', 'my_meta_noindex', 3); // добавляем свой noindex,nofollow в head

и вставляем его в файл function.php, в самый верх, после знака <?php:

  • Если у вас еще не закрыты от индексации категории, архивы и метки в настройках плагина all-in-one-seo-pack, то сделайте это сейчас.

robots-correct6

Если боитесь работать с кодами, то шаг № 3, где мы закрывали от индексации страницы с пагинацией, можно сделать также с помощью проставления галочек в all-in-one-seo-pack

Я сделал и так и так.

  • Ну и последний шаг – будем запрещать индексировать comment-page (комментарии-страницы). Это, когда у вас много-много комментариев к статье скопилось (штук 200. Как у меня к самой популярной статье на блоге “Как я победил рак”) и страница получилась длиннющая-длиннющая. Не удобно ведь для бота Гугла и Яндекса – подумали вы, устанет он сканировать эту длинную страницу и покинет мой бложик. Плохо это… И вы решили её укоротить и разбили эти 200 комментов на N количество страниц. (У меня например стояло “по 50 штук”, вот и выходило 4 лишние страницы с комментариями. А если бы стояло по 10. Представляете сколько бы еще наплодилось мусора?)

А как вы это сделали? Правильно – в настройках обсуждения поставили галку “Разбивать комментарии верхнего уровня на страницы по 50 штук”

Убирайте скорее к чертовой бабушке эту плохую галку!Сердитая рожица Зачем вам лишняя, ненужная страница в выдаче?

robots-correct8

Вот в принципе и все на сегодня с удалением оставшихся дублей на wordpress блоге.

P.S. Если вы читаете блог А.Борисова, то эта информация вам не нова.

Но, каждый преподносит информацию по своему и у каждого блогера есть свои преданные читатели, правильно?

Мои результаты по удалению дублей с блога dengi-iz-ineta.ru

Результаты есть — положительные. За 3 недели после внесенных изменений на свой блог из индекса Гугла вылетело 379 страниц дублированного контента!!! Ура товарищи, ура!

А верхняя кривая – это изменения в моем роботсе. Все открыл и количество заблокированных страниц становиться меньше.

robots-correct9

А вот статистика по Поисковым запросам в Гугл. Показы резко пошли вверх, но кликов пока маловато.

статистика поисковых запросов в гугл вебмастере

Прироста трафика с Гугл и вообще его увеличения пока нет. Но это я связываю с летом, с медленным наполнением блога новыми статьями и не возможностью, пока, увеличения на блог хоть какого-нибудь ссылочного профиля (не закупаюсь ссылками до сих пор – финансов не хватает). Какой-нибудь ссылочный профиль конечно не нужно наращивать. Нужно искать качественные, трастовые ресурсы, которые будут на вас ссылаться. Думаю, осень начну закупаться… Сейчас просто тяжело финансово выходить из отпуска. О результатах ссылочного продвижения естественно буду писать. Так, что следите за блогом. То ли еще будет!!!

Ваш Fomik!!!Солнце


Понравилась статья - поделись с друзьями!



Просмотр

Подпишитесь на обновления блога по почте :

Количество читателей блога


К записи "Правильный robots.txt или как избавиться от остального мусора на блоге" 5 комментариев Самый активный комментатор в конце месяца получает денежный приз.

  1. seoonly.ru:

    У сашеньки Борисова идею статьи взяли? Или сами?

    [Ответить]

    Алекс Fomik Reply:

    Да, у него. Я ведь в конце статьи сказал про это. И прошлая статья так же написана была…

    [Ответить]

    Алекс Fomik Reply:

    А ты не хочешь менять свой роботс? Дубли то есть у тебя?

    [Ответить]

  2. Евгений:

    Много, кто читает такие статьи, и думают — та это все фанарь, что дубли ничего не решают и ни на что не влияют, не буду ничего менять, у меня так будет больше страниц в поиске, а если сделаю как говорят, то будет меньше. Как правило запускают свои блоги, а потом не могут ничего сделать, потому что поздно ), многим лень это ковырять у себя на сайте, или говорят просто времени нет.

    Ребята, это очень важная статья и не пропускайте мимо !!!

    [Ответить]

    Алекс Fomik Reply:

    А некоторые просто не согласны с этим и считают, что у них все нормально…

    [Ответить]

Оставить свой комментарий