Специализированный WordPress-хостинг

Авторизация

Скачать Joomla! RUS

Joomla 2.5

Joomla 1.7

Joomla 1.6

Joomla 1.5

Joomla 1.0

Рейтинг Пользователей

Поддержать сайт

webmoney R238869482245 U226678638823 Z265872396874 E217750470929 yandex money 41001327550911

Интересное

Загружается, подождите...

Joomla! Блог!

Блог посвящен системе Joomla!

Правильный robots.txt

Salkstudio Автор: Salkstudio Категория: Статьи  
Теги: robots.txt

С начала начнём с того что такое robots.txt:

 Файл robots.txt - один из самых важных файлов в техническом обеспечении вашего сайта, и от него будет зависеть дальнейшая судьба вашего сайта в мире, где рулят поисковые машины.

Что такое robots.txt? - это технический файл, который размещен в корневой папке вашего сайта. Его предназначение: - описание исключений для поисковых роботов, т.е. указание какие страницы, файлы не индексировать.

Подробнее: в тот момент, когда бот с поисковых систем входит на ваш сайт, то в первую очередь он ищет  robots.txt  и если он присутствует, то робот анализирует его и приступает к индексации согласно правилам указанных в файле robots.txt.

Важно знать:

  • файл robots.txt и его правила исключения используют только «культурные» роботы, а наряду с ними существует целая армия ботов, которые игнорируют правила исключений или вообще проходят мимо файла robots.txt на сайте

Из чего состоит файл:

User-agent: *
Disallow:

  • User-agent - эта директива указывает имя поискового бота, к которому применяются правила исключений на сайте.
  • User-agent может несколько раз прописываться с правилами для определенных ботов, в этом случае правила, будут применяться для указанных роботов.
  • Disallow - директива, прописывает полный или частичный путь к файлу, статье на сайте, посещение которого запрещено для робота.
  • Одно правило - одно Disallow. Пустое Disallow разрешает ботам индексировать весь сайт.
  • # - комментарии, пишутся только на новой строке

Примеры:

  • Если вы желаете чтоб весь сайт полностью сканировался, индексировался поисковиками, то можно удалить вообще файл  robots.txt  из корневой папки сайта или же создать пустой файл или прописать следующее:

User-agent: *
Disallow:

  • Если вы желаете запретить весь сайт к индексации, то пропишите следующее:

User-agent: *
Disallow: /

  • Если вы желаете запретить индексацию определенному боту, например Яндексу, то пропишите следующее:

User-agent: Yandex
Disallow: / 

  • Если вы желаете задать указание для нескольких  ботов, то прописывайте для каждого свой User-agent и обязательно должно присутствовать хотя бы одна Disallow

User-agent: Aport
Disallow: /gif/
User-agent: Googlebot
Disallow: /gif/
# запрещает ботам Aport и Googlebot индексировать все файлы формата gif

Символы директив:

* – любой набор символов
$ – конец строки
# – комментарий

В принципе в стандартной сборке Joomla имеется файл robots.txt  и вполне удовлетворительный, после небольших доработак его можно использовать.

Стандартный robots.txt  для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Добавляем:

Host:

Что такое Host? - это директива  является корректной только для робота Яндекса. подробнее
Директива Host поясняет поисковому роботу какой сайт является основным, а какой зеркалом .

  • Директива host пишется отдельной строкой и без  http:// и без закрывающего слеша /

User-agent: Yandex
Host: www.ваш сайт.ru
# пишете с www или без, вносите основной сайт

  • У Яндекса существует индексация изображений, так что на ваше усмотрение можете подкорректировать следующую строку:

Disallow: /images/
# удаляете, если желаете чтоб ваши изображения индексировались Яндексом
# или оставляете, для запрета индексации всех изображений

  • если у вас установлен компонент "карта сайта", то обязательно надо прописать в robots.txt  ссылку на Sitemap

Sitemap: http://ваш сайт.ru/ссылка карты сайта=xml
# посмотреть ссылку для поисковых роботов можно в компоненте "карта сайта", там будет их две - одна с поддержкой стилей CSS и она нужна для просмотра пользователям, а другая предназначена для ботов, вот ее и скопируйте и вставьте сюда.

  • если вы используете у себя на сайте поддержку SEO,  то Joomla  автоматически создает два вида ссылок на ваши страницы, что есть не очень хорошо. Вот для того, чтоб боты не индексировали не seo ссылки прописываем следующее:

Disallow: /index.php?*

  • или можно использовать это, для борьбы с дубликатами страниц

Disallow: /index2.php

  • величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов. Директива Crawl-delay позволяет указать индексирующему роботу минимальный интервал времени (в секундах) между запросами на индексирование страниц. Не все роботы поддерживают ее, стоит указывать для Яндекса.

Crawl-delay: n - вместо n указываем время в секундах

Примеры использования директивы Crawl-delay:


User-agent: Yandex
Crawl-delay: 3 # задает таймаут в 3 секунды

  • многие боты индексируют файлы PDF, что не есть хорошо. Так вот, что бы запретить PDF файлы, то прописываем следующее:


Disallow: *.pdf$

  • В Joomla существуют страницы для печати, так вот их надо убрать - запрет индексации переменной, например, страниц для печати

Disallow: /name.php?action=print

  • запрещаем индексацию новостных каналов

Disallow: /*rss.html
Disallow: /*atom.html

  • запрет индексации динамических ссылок

Disallow: /*?sl*

  • исключаем страницы "Отправить на e-mail"

Disallow: /index2.php?option=com_content&task=emailform

  • запрещаем индексацию трекбеков

Disallow: /trackback

  • для западных ботов:

Request-rate: 1/5

# загружать не более одной страницы за пять секунд
Visit-time: 0600-0845

# загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу

 

Что нам эти все манипуляции в итоге дадут? - вы же  обращали внимание на то, что при заходе в статистику Яндекс, а там такая вот информация о ваших страницах: Загружено роботом 490 страниц - Исключено роботом 165 страниц, хотя при этом у вас всего написано 50... сразу возникает вопрос, откуда Яндекс наидексировал столько страниц?

ответ прост, - робот нашел страницы, которые вовсе не нужно было индексировать - это скрипты, динамические страницы, страницы с не поддерживаемым стандартом данных – RSS, Atom, Trackbak, возможно старые страницы и т.д. вообще весь не нужный мусор. Так вот после нашего вмешательства в стандартный файл robots.txt Joomla мы исключим весь этот мусор, что в итоге приведет к благосклонному отношению к нам поисковых систем.

Названия ботов Поисковых Систем для robots.txt:

  • Yandex – user-agent: Yandex;
  • Google – user-agent: Googlebot;
  • Rambler – user-agent: StackRambler;
  • Yahoo! – user-agent: Yahoo! Slurp;
  • MSN – User-agent: MSNbot;
  • Все боты – User-agent: *

После небольшой доработки, ваш robots.txt должен выглядеть так:

Внимание! - для Яндекса нужно писать отдельно User-agent: Yandex и все директивы дублировать!

Правильный robots.txt для Joomla (скопируйте и вставьте к себе или скачайте готовый файл robots.txt):

 

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/ Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Crawl-delay: 5

Host: ваш сайт.ru
Sitemap: http://ссылка на карту сайта=xml

# можно и не вставлять для Яндекса, т. к. из правил для всех роботов бот поймет, что делать User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/ Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: *.pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /*rss.html
Disallow: /*atom.html
Crawl-delay: 5

Host: ваш сайт.ru
Sitemap: http://ссылка на карту сайта=xml

 

не забудьте изменить директивы Host: и Sitemap: на свои!

Проверить файл robots.txt на работоспособность:

скопируйте ссылку, вставляете в адресную строку браузера, вместо имя_сайта.ru подставьте свой адрес сайта

 http://webmaster.yandex.ru/robots.xml?host=www.имя_сайта.ru

Просмотров: 8792
Комментарии (21)Add Comment
OMEN
...
Автор: Алексей , Январь 07, 2011
Спасибо!
volod3000
...
Автор: volod , Январь 08, 2011
Спасибо , нужная тема ! smilies/smiley.gif
pers
...
Автор: pers , Январь 08, 2011
Какую прописывать ссылку на карту сайта?На тот файл что лежит в корне сайта: sitemap.xml?
Salkstudio
...
Автор: Onlyrap , Январь 10, 2011
Какую прописывать ссылку на карту сайта?На тот файл что лежит в корне сайта: sitemap.xml?

Ну у меня стоит так: Sitemap: http://www.onlyrap.ru/index.php/sitemap
0
...
Автор: Luciy-IN , Январь 15, 2011
ОЧень поМогла. СсСсСпасибо БбБбБольшое =) smilies/smiley.gif
Salkstudio
...
Автор: Onlyrap , Январь 16, 2011
Ответ для Luciy-IN:

ОЧень поМогла. СсСсСпасибо БбБбБольшое =) smilies/smiley.gif

Всегда пожалуйста)
Katarsis
...
Автор: Дмитрий , Март 22, 2011
Сегодня узнал что надо ещё Disallow: /search вписывать для запрета индексирования в результатах поиска. Фиг знает может бред но так эксперт по продвижению сказал.
Ещё он сказал что поисковые боты всё равно видят динамические ссылки несмотря на включённый SEF. В итоге дофига дублей получается и джумлу за это поисковики недолюбливают. smilies/sad.gif
0
...
Автор: newzon.ru , Март 30, 2011
а как же запретить ссылки типа:
/component/content/frontpage/frontpage.html?start=78 ?
/index.php?start=90?
/component/mailto/?tmpl=component?
директивы:
Disallow: /component/content/
Disallow: /frontpage/
Disallow: /content/
на моем http://newzon.ru/ не срабатывает и яндекс не удаляет подоные страницы
не работают
0
...
Автор: Irennnn , Май 17, 2011
Добрый день, подскажите, где этот robots.txt ???? smilies/kiss.gif

а то, как его написать - я уже поняла, а где написать - еще нет....
Delight
...
Автор: Денис , Май 29, 2011
Спасибо за статью! smilies/smiley.gif

p.s.
Добрый день, подскажите, где этот robots.txt ????

В директории твоего сайта- http://s55.radikal.ru/i147/110...7d2aec.png
0
...
Автор: vasiliy toporov , Май 30, 2011
Подскажите пожалуйста. Яндекс отображает дополнительные url это: название сайта/component/content/frontpage.html и название сайта/component/content/article/2-2011-03-19-17-52-35.html, как мне от них избавиться без вредя для сайта в его продвижении.? Зарание спасибо.smilies/grin.gif
OMEN
...
Автор: Алексей , Май 30, 2011
vasiliy toporov, добавьте в robots.txt следующее:

Disallow: /content/
Disallow: /component/*
Disallow: /frontpage/
Disallow: /index.php?option=com_content
Disallow: /index2.php?option=com_content
0
...
Автор: vasiliy toporov , Май 31, 2011
Спасибо. Но как я понял самой проблемы дублирования ссылок самой джмулы это не решит, как прищемить этот генератор?smilies/cry.gif Заранее спасиб.
OMEN
...
Автор: Алексей , Июнь 01, 2011
Спасибо. Но как я понял самой проблемы дублирования ссылок самой джмулы это не решит, как прищемить этот генератор? Заранее спасиб.
не решит, т.к. URL есть у всех страниц сайта. Частично может помочь сторонний SEF-компонент, но его использование связано уже со своими проблемами и ограничениями.
0
...
Автор: gvigser , Июль 22, 2011
Добрый день!
Скажите, а можно использовать один robots для нескольких поисковиков???
И, если да, то как примерно это будет выглядеть?
vomitting
...
Автор: Артем , Август 12, 2011
Огромное спасибо вам, человеческое! Очень мне помогли, не знаю правда что бы без вас делал, замечательный сайт, замечательные люди на сайте, я с вами! Создал прекрасный роботс, под фильтр яндекса попал уже как 4 месяца, думаю сейчас, после замены файлов роутер, артикл и категориес с форума сео энджинс, и вашего роботса, проблема исчезнет.

Благодарю вас дорогие мои! smilies/grin.gif
vomitting
...
Автор: Артем , Август 12, 2011
User-agent: *
Disallow: /administrator/
Disallow: /administrator/*
Disallow: /cache/
Disallow: /cache/*
Disallow: /frontpage/
Disallow: /components/content/
Disallow: /components/content/*
Disallow: /component/*
Disallow: /content/
Disallow: /content/*
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*frontPageAdsCount=
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /*?sl*
Disallow: *.pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /search/
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*type=atom
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*type=rss
Disallow: /*task=rss
Disallow: /index2.php?option=com_content
Disallow: /index.php?option=com_content
Disallow: /index.php?*
Disallow: /index2.php
Disallow: /index.php?option
Disallow: /index.php/*
0
...
Автор: Reactor , Октябрь 29, 2011
А можно поподробнее про файлы роутер, артикл и категориес?
0
...
Автор: Ruslan-baraban , Февраль 01, 2012
Мож кто небдуть подскажет есть робот.тхт:
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /trackback
Disallow: /index.php?*
Disallow: /index2.php
Disallow: *.pdf$
Crawl-delay: 10
в нем закрыто все, что связано с index.php? а карта в джумле как раз и начинается с index.php?option=com_xmap&view=xml&tmpl=component&id=1
Получается, что робот не может добраться до карты. Как сделать, что бы index.php?(и все возможные дубли начинающиеся с такого окончания) были закрыты, а доступ к карте был открытый...
0
...
Автор: Mixail , Февраль 22, 2012
Здрасте!
подскажите плз, а сам index.php закрывать надо???
получаются ведь дубли:
www.sait.ru
www.sait.ru/index.php
или тогда сайт вообще не будет индексироваться?
0
...
Автор: indox , Март 20, 2012

Disallow: /index.php

Написать комментарий
- | +

security code
Напишите отображаемые буквы


busy

Теги Блога

.htaccess 1.3.1 3 2010 404 Page not found ABRAX Admin Tools Professional ajax AJAX Register Artisteer AS Flash Media Player audio player Auto Responder Auto-Archive Autosave BackUp basic Best alias BIZUNIVERSE book library software BooKiT Gold booklibrary CB Incubator Plugins CB Premium CHMOD CMS Comments component Core Design Extensions Craft Map CSS Refresh Cервер deleter.php Dumper EasyBlog eset nod32 feedback Feedback Factory flash games FLV Alt Player FLV Player Forum SMF Frontpage SlideShow v2.4 Games google google map Grid Accordion Groupon Clone Hot Accordion Icecast2 IDoBlog Img Scroller Impact Menu iOS IPrice calculator PRO Iridium JA Voice javascript JB Type JCE jDownloads jomcomment ru 4.0 JomSocial JoomBah Joomisp 1.0.2 Rus joomla Joomla 1.5.18 Joomla 1.6.x Joomla 1.7 JOOMLA 2.5 Joomla 2.5. переход Joomla Optima Joomla! 1.5.22 Joomla1.5-2.0 Joomlart Extensions Joomposter jQuery Lightbox Evolution JSized Page Peel JV Inci K2 Ken Burns Effect KUNENA LayerSlider live estate Livezilla Love Factory MaaSlide maps media library component MiaFlv module Monitoring MyBlog Navigation System NinjaForge notepad offlajn opera OT Eminent Page Navigation PDO vs MySQLi PHPDesigner plugin popup PWeb AJAX Popup Contact Form realestatemanager reformal.ru Restaurant Menu robots.txt RSTickets! Pro SEF SEO SIMGallery Pro Site Sponsors Snow social Social Media Buttons Syndicate T3 Framework template Templatka Tetris TP Foto Plazza translate Uddeim Premium Plugins ukr_rus_allias Universal AjaxChat v1.7.3 Uptime. vBulletin video virtuemart VTEM Quick Contact wallpapers WebMoney Webmoney Merchant Widgetkit YJ Ajax Contact yootools Youretro Reader Youretro Slider Yt News Ajax Tabs ZT Headline Видео Видеокурс профессиональный сайт на Joomla Вывод новостей Голосование Защита Интеграция с Community Builder Интернет магазин на joomla Калькулятор Компоненты Копирайт Мy Blog Малый бизнес Модуль Joomla Обновления Joomla Обратная связь Прогноз Продвижение Расширеный поиск Руссий Руссификация СЕО Салют Сбербанк для VirtueMart Связь Скролинг изображений Таблицы Joomla Уроки Файловый менеджер Чат Шаблон Grid2 JoomlaBamboo Шаблон для community builder Яндекс аватар админка бегущая строка безопасность бесплатный блог для joomla бонусы браузер галерея галлерея дизайн длина поиска домен .RU доска объявлений доска обьявления индексация календарь калькулятор прайс каталог книга книги кнопка кодировка компонент компонента комментариев контент копирайтинг кэш меню мета тег модуль модуль K2 модуль новостей модуль тегов облако тегов jomsocial онлайн радио онлайн-бизнес оптимизация отпуск оффлайн страница плагин плагин галереи плагин для K2 плеер плохие подсказки показ изображений приватный чат программы продажа рабочий стол раскрутка расширения редактор рейтинг CMS реклама сайт сборка скрипт слайд joomla слайдшоу снег собственный модуль сортировка списков социальные закладки статус ICQ теги тех. работы убвалка сайта удаленное редактирования контента сайта флеш форма формат даты фото альбом фотогалерея шаблон шаблон Joomla шаблон админки шаблон админки на AJAX шаблоны