Правильный robots.txt или как избавиться от остального мусора на блоге
Привет! С вами снова Fomik! Как у вас дела — мои дорогие читатели? Как на сегодня обстоят дела с дублями страниц replytocom на ваших блогах? Вы их начали истреблять? Я – да. О своих результатах – в конце поста.
А сегодня я продолжу тему очищения наших с вами сайтов и блогов от всякого рода мусора, который замедляет их развитие, ухудшает статистику посещений, снижает траст и т.д. Сегодня я расскажу вам о том, как избавиться от дублей страниц, которые генерирует наш с вами любимый файл robots.txt, который оказался не правильным. Почему? Читаем дальше про правильный robots.txt…
Итак, в моей прошлой статье про дубли replytocom я рассказал, что это такое, какой вред наносят нашим блогам эти сопли и как от них избавиться. Но, оказывается, это еще не весь мусор, от которого необходимо быстрее избавляться. Его, конечно поменьше будет, чем “соплей” replytocom от безобидной кнопки “Ответить” в комментариях, но все же – это тоже не нужные нам страницы, которые захламляют наши ресурсы, тем самым ухудшая их в глазах поисковых систем.
Сегодняшняя статья называется “Правильный robots.txt”. То есть, ребята, я хочу вам сказать, что старый мой файл роботс был не правильным, почему? Сейчас объясню. Вот моя старая, одна из первых статей про создание важного для вордпресс блогов файла robots.txt. Забудьте о ней. Я уже пометил в этой статье, что содержание этого важного файла – не правильное и дал ссылку на эту статью.
Как я объяснял вам в прошлой статье, боты поисковых систем игнорируют наши роботсы, они лучше понимают тег noindex, который закрывает от индексации наши не нужные страницы. Правильность этого объясняется наличием в выдаче Гугла дублированного контента, который мы сами и создали. Не специально конечно, а по незнанию. Ведь у нас в интернете, как? Какой-нибудь липовый гуру что-то написал умное 5 лет назад, все поверили ему и сделали так же. И все это передавалось годами от блога к блогу. А знающие люди – специалисты, тихо молчали в тряпочку. У них ведь все правильно на их блогах. Как говориться, деньги любят тишину 🙂 Это и правильной, ценной информации касается…
Так вот, друзья, все посмотрите на свои файлы robots.txt. Что вы там видите? Мы видим там сплошные запреты. Лично я запретил обоим поисковикам индексировать:
feed – аж 3 раза))), trackback (архивы) – 2 раза, комменты, категории, страницы…
Не говоря уже о запрете индексации входа в админку))) Сейчас это выглядит смешно, но 2,5 года назад все думали, что это правильные запреты. А на деле оказалось, что ботам наплевать на наши запреты в этом важном файле. Они игнорят эти запреты и индексируют весь этот хлам. Как я уже говорил выше, ботам поисковых систем важны запрещающие теги.
Как найти оставшийся дублированный контент на wordpress блоге?
Как? Так же, как мы с вами искали сопли в прошлой статье. Набираем в поиске Гугла:
site:site.ru …….
и подставляем вместо точек вот эти значения:
feed
tag
page
comment-page
attachment
attachment_id
category
trackback
Давайте я опять возьму блог Любви Кравченко в качестве примера. Покажу скрины с большим (ударение на первый слог) количеством дублей. Первый – feed. Набираете, нажимаете ввод,
затем смотрите скрытые результаты.
36 страниц-дублей с окончанием feed. Это не много, но все же они имеются.
tag (метки) у Любиного блога всего одна.
И самое большое количество дублей у блога infodlya-vas.ru – это:
165 дублей страниц из постраничной навигации и
163 дубля комментарий-страниц. Что это такое, я объясню позже, когда покажу, как будем избавляться от всех этих поганых дублей.
attachment и attachment_id (страниц с вложениями) у Любы нет вообще – это гуд!
category (разделов) – 21 и trackback (архивов) – всего 1.
Ну, проверили теперь свой блог на предмет этих дублей? Присутствует эта зараза у вас на блоге? У кого сколько?
Теперь покажу, как будем от этого шлака избавляться…
Как удалить дубли страниц feed, tag, page и т.д. на wordpress блоге?
Технология простая. Открываем всю эту заразу для ботов в роботсе и ставим на них наш любимый 301 редирект. Открываем – это ни значит прописываем вместо диррективы Disallow диррективу Аllow. Нет, мы просто укоротим наш файл robots.txt
- Вот какой корректный на сегодня должен быть у вас файл роботс:
User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Sitemap: http://site.ru/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Скопируйте его у меня и поставьте себе. Это был первый шаг…
- Теперь будем перенаправлять ботов с дублей на основные страницы. Как? Конечно же 301 редиректом. Для этого копируем вот такой код:
RewriteRule (.+)/feed /$1 [R=301,L] RewriteRule (.+)/comment-page /$1 [R=301,L] RewriteRule (.+)/trackback /$1 [R=301,L] RewriteRule (.+)/comments /$1 [R=301,L] RewriteRule (.+)/attachment /$1 [R=301,L] RewriteCond %{QUERY_STRING} ^attachment_id= [NC] RewriteRule (.*) $1? [R=301,L]
и вставляем его в файл .htaccess
Напомню, что этот файл находится на вашем хостинге, в папке public_html
- Затем мы закроем от индексации наши страницы с пагинацией. И сделаем мы это – опять своими ручками. Копируем вот этот код:
/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ function my_meta_noindex () { if ( is_paged() // Все и любые страницы пагинации ) {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";} } add_action('wp_head', 'my_meta_noindex', 3); // добавляем свой noindex,nofollow в head
и вставляем его в файл function.php, в самый верх, после знака <?php:
- Если у вас еще не закрыты от индексации категории, архивы и метки в настройках плагина all-in-one-seo-pack, то сделайте это сейчас.
Если боитесь работать с кодами, то шаг № 3, где мы закрывали от индексации страницы с пагинацией, можно сделать также с помощью проставления галочек в all-in-one-seo-pack
Я сделал и так и так.
- Ну и последний шаг – будем запрещать индексировать comment-page (комментарии-страницы). Это, когда у вас много-много комментариев к статье скопилось (штук 200. Как у меня к самой популярной статье на блоге “Как я победил рак”) и страница получилась длиннющая-длиннющая. Не удобно ведь для бота Гугла и Яндекса – подумали вы, устанет он сканировать эту длинную страницу и покинет мой бложик. Плохо это… И вы решили её укоротить и разбили эти 200 комментов на N количество страниц. (У меня например стояло “по 50 штук”, вот и выходило 4 лишние страницы с комментариями. А если бы стояло по 10. Представляете сколько бы еще наплодилось мусора?)
А как вы это сделали? Правильно – в настройках обсуждения поставили галку “Разбивать комментарии верхнего уровня на страницы по 50 штук”
Убирайте скорее к чертовой бабушке эту плохую галку! Зачем вам лишняя, ненужная страница в выдаче?
Вот в принципе и все на сегодня с удалением оставшихся дублей на wordpress блоге.
P.S. Если вы читаете блог А.Борисова, то эта информация вам не нова.
Но, каждый преподносит информацию по своему и у каждого блогера есть свои преданные читатели, правильно?
Мои результаты по удалению дублей с блога dengi-iz-ineta.ru
Результаты есть — положительные. За 3 недели после внесенных изменений на свой блог из индекса Гугла вылетело 379 страниц дублированного контента!!! Ура товарищи, ура!
А верхняя кривая – это изменения в моем роботсе. Все открыл и количество заблокированных страниц становиться меньше.
А вот статистика по Поисковым запросам в Гугл. Показы резко пошли вверх, но кликов пока маловато.
Прироста трафика с Гугл и вообще его увеличения пока нет. Но это я связываю с летом, с медленным наполнением блога новыми статьями и не возможностью, пока, увеличения на блог хоть какого-нибудь ссылочного профиля (не закупаюсь ссылками до сих пор – финансов не хватает). Какой-нибудь ссылочный профиль конечно не нужно наращивать. Нужно искать качественные, трастовые ресурсы, которые будут на вас ссылаться. Думаю, осень начну закупаться… Сейчас просто тяжело финансово выходить из отпуска. О результатах ссылочного продвижения естественно буду писать. Так, что следите за блогом. То ли еще будет!!!
Ваш Fomik!!!
Статьи по теме:
- Сколько времени понадобилось Google, чтобы выкинуть дублированный контент с моего блога
- Как влияет сниппет на продвижение сайта в Яндекс и Google
- Как увеличить комментирование блога
- Как привлекать целевых посетителей на блог с помощью популярных социальных сетей
- Аудит — эффективный способ продвижения сайта
У сашеньки Борисова идею статьи взяли? Или сами?
[Ответить]
Алекс Fomik Reply:
Август 13th, 2014 at 8:20 пп
Да, у него. Я ведь в конце статьи сказал про это. И прошлая статья так же написана была…
[Ответить]
Алекс Fomik Reply:
Август 13th, 2014 at 9:29 пп
А ты не хочешь менять свой роботс? Дубли то есть у тебя?
[Ответить]
Много, кто читает такие статьи, и думают — та это все фанарь, что дубли ничего не решают и ни на что не влияют, не буду ничего менять, у меня так будет больше страниц в поиске, а если сделаю как говорят, то будет меньше. Как правило запускают свои блоги, а потом не могут ничего сделать, потому что поздно ), многим лень это ковырять у себя на сайте, или говорят просто времени нет.
Ребята, это очень важная статья и не пропускайте мимо !!!
[Ответить]
Алекс Fomik Reply:
Август 17th, 2014 at 6:57 пп
А некоторые просто не согласны с этим и считают, что у них все нормально…
[Ответить]