Управление индексацией на сайте через robots.txt
Раздел блога: SEO-приёмы | 16 августа 2007, 22:41Наверняка большинство из читающих мою заметку людей уже знают о существовании этого в общем-то незатейливого файла. Факт в том, что его незатейливость и простота может довольно корректно указать поисковой системе, что же всё-таки индексировать на вашем сайте, а что следует оставить "в тени".
Парадокс весь в том, что эта некоторая простота синтаксиса файла robots.txt скрывает в себе большие проблемы, если его не приручить, т. е. не научиться его правильно составлять. Ведь любая ошибка может стоить вам многого. В этой статье я расскажу вам, как использовать подобный файл с умом и избежать возможных проблем.
Начнём, пожалуй, с истории рождения стандарта robots.txt. Как гласит история, стандарт robots.txt был принят консенсусом 30 января 1994 года и опубликован, с тех пор используется большинством известных поисковых машин.
Позже этот стандарт начинали всячески модифицировать различные поисковые компании, которые внедряли новую функциональность в ранее созданный стандарт.
Как например, компания Yahoo, которая ввела для своего поискового бота YahooSlurp, дополнительную возможность запрета индексации типов файлов по их расширению, добавив возможность использования символов * и $ в полях Disallow. Позже эта возможность была одобрена Google, а затем и "Яндексом" в конце 2007 года. "Яндекс" также добавил возможность использования дополнительного поля Host для определения основного зеркала сайта.
Недавно была добавлена возможность использования ещё одного поля.
Sitemap: http://www.site.ru/sitemap.xml
Поле Sitemap позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask, MSN (Bing) и "Яндекс". Тут можно подробнее ознакомиться со стандартом Sitemaps.
Что такое robots.txt?
Robots.txt – это специальным образом оформленный текстовый файл, находящийся в корне сайта, в котором содержатся директивы, следуя которым поисковая система может понять стратегию индексирования информации на вашем сайте.
Структура robots.txt:
Файл состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или *, как рекомендация для всех поисковых систем), далее идёт поле Disallow, в котором указывается название объекта, который необходимо скрыть от индексирования.
Раздел рекомендаций между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent. В одном разделе может быть сразу несколько полей User-Agent, начинающихся с новой строки.
Стандарт robots.txt поддерживает комментарии. Всё, что начинается от символа # до конца строки, является комментарием.
Следует заметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью – запрета индексации, следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта. Однако поисковые системы постепенно вводят поле Allow, но пока официально оно не признано, хоть и используется некоторыми поисковыми системами (Например, "Яндексом", Google и MSN (Bing)).
Некоторые поисковые системы используют собственные "информационные" директивы. В MSN Live (Bing Live) и "Яндексе" через robots.txt реализована установка значения скорости индексации документа. Делается это так:
User-agent: MSNbot
Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.User-agent: Yandex
Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.
В начале 2009 года в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы. (Ознакомиться с ней можно здесь).
Пример одного из составленных файлов robots.txt:
User-agent: *
Disallow: /User-agent: Googlebot
Disallow: /text/
Это важно знать:
1) Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.
2) Называть файл необходимо robots.txt, Robots.txt будет уже ошибкой.
3) На каждой строке должно быть поле Disallow, запрещающее индексацию только одного объекта. Если нужно запретить несколько директорий или файлов, то для этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы одно поле Disallow. Также не забудьте про поле User-Agent - оно не должно быть пустым (либо *, либо имя робота).
4) Запомните простые комбинации:
Disallow: - разрешение индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name – запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии name.
Disallow: /name/ - запрет на индексацию папки name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif.
Disallow: /name.php – запрет на индексацию файла name.php.
Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.
# - при помощи решётки можно писать комментарии: они не учитываются роботами поисковых систем и носят сугубо информативный характер.
5) Поле Host используется "Яндексом" для определения основного зеркала сайта. Например, так: Host: www.site.ru. Это поле говорит поисковой системе "Яндекс", что в результатах поиска лучше выводить именно такую ссылку на ваш сайт (с www).
Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Важно помнить, что если вы хотите, чтобы поисковая система "Яндекс" приняла во внимание директиву Host в вашей файле, то создайте одинаковые файлы robots.txt на всех "зеркалах" сайта. Только тогда зеркальщик "Яндекс" выделит главное зеркало, согласно данным в Host.
6) Поле Sitemap используется для указания поисковой системе, где находится сгенерированная для поисковых систем карта сайта.(Sitemap: http://www.site.ru/sitemap.xml). Применяется в Google, Ask, Yahoo, MSN (Bing) и "Яндекс".
User-Agent: Yandex
http://www.site.ru/sitemap-main.xml
http://www.site.ru/folder/sitemap-second.xml
# В случае, когда на сайте используется несколько файлов Sitemap, то их желательно перечислить в файле robots.txt
7) Если инструкции задаются для нескольких поисковых систем, то поля User-Agent
должны вводиться через перевод строки (клавишу Enter).
Вот так:
User-Agent: msnbot
User-Agent: Slurp
Disallow: /admin/
Ошибки в файле robots.txt:
1) Неверный порядок расположения полей:
Неправильно:
Disallow: /
User-agent: *
Правильно:
User-agent: *
Disallow: /
2) Совершаются синтаксические ошибки:
Нет пустой строки:
Неправильно:
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:
Правильно:
User-agent: Googlebot
Disallow: /User-agent: *
Disallow:
Ошибки в синтаксисе Disallow:
Disallow: * (приводит к запрету на индексацию всего сайта).
Disallow: /text/ /text2/ (нельзя использовать одно поле для разных директорий).
Правильно:
Disallow: /text/
Disallow: /text2/
Поле User-Agent:
User-agent: (поле не должно быть пустым)
Поле Host:
Неправильно:
Host: http://www.site.ru/ # (нельзя использовать протокол и слеш в конце)
Host: .site.ru # (любые ошибки в написании доменных имён не допустимы)
Host: 200.114.47.5 # (указан IP вместо адреса)
Правильно:
Host: www.site.ru
или
Host: www.site.ru:8080
# - если ваш сайт доступен по какому-то другому порту (стандартный порт 80, если используется именно он, то его не указывают).
Желательно делать так:
Не пишите все поля с больших букв, комментарии лучше переносить на новую строку. Не используйте дополнительные директивы (Allow, Host) для всех поисковых систем: это может вызвать недопонимание тех систем, которые не используют эти поля, а также не забывайте, что поле Disallow должно быть даже тогда, когда некоторые поисковые системы игнорируют его. Не создавайте размер файла robots.txt больше, чем 256 килобайт.
На этом всё, спасибо за внимание.
Перейти в начало страницы
Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).

20 августа, 2007 г. в 9:16 pm
Написание этой статьи меня подтолкнуло к подключению информации о моей карте сайта в этом файле.
17 октября, 2007 г. в 8:37 am
Хороший материал, спасибо!
Только кажется в этом разделе ошибка:
"2) Совершаются синтаксические ошибки:
Нет пустой строки:
...
Правильно:
User-agent: Googlebot
Disallow: / User-agent: *
Disallow:"
а где пустая строка?
И еще тут:
"Правильно:
Host: www.site.ru/"
зачем слэш в конце?
2 марта, 2008 г. в 4:25 am
Не полностью раскрыта тема. Не показан запрет на индексацию ссылок.
17 мая, 2008 г. в 9:40 am
Как запретить индексацию только определённому роботу.
Например Яндексу?
31 мая, 2008 г. в 1:18 pm
А можно например разрешить индексацию сайта только Яндексом, Рамблером и Гуглей, а всем остальным типа МСН и Яху запретить? Как это правильно оформить?
15 июня, 2008 г. в 12:02 am
На последний вопрос ответа не будет?
27 июня, 2008 г. в 11:37 am
А как удалить уже попавшие в индекс Google страницы с помощью robots.txt?
30 июня, 2008 г. в 7:38 pm
13 июля, 2008 г. в 9:02 am
А можно просто в пхп код страницы вставить код который будет редирект ставить на другую страницу)
главное никто кроме яндекса небудет знать что его обманывают. вот такой своего рода клоакин)
23 ноября, 2008 г. в 7:14 am
Есть идея закрыть от поисковиков каталог, в котором лежит php файл с обратными линками на каталоги. Вычисляется ли данное действие ботами каталогов?
28 ноября, 2008 г. в 1:16 am
20 декабря, 2008 г. в 3:07 pm
Anti Вepressant:
27 июня 27, 2008 г. в 11:37 am
А как удалить уже попавшие в индекс Google страницы с помощью robots.txt?
Автор блога Виталий:
30 июня 30, 2008 г. в 7:38 pm
Anti Вepressant, вот так:
User-agent: Googlebot
Disallow: /
Ответ: НУ-НУ, это шутка? Закрыли весь сайт от индексаии гугла!
9 января, 2009 г. в 3:25 pm
И здесь ни слова о фреймовых сайтах.
13 января, 2009 г. в 2:28 am
16 января, 2009 г. в 11:22 pm
А для яндекса общего кода достаточно?
17 января, 2009 г. в 3:27 am
7 февраля, 2009 г. в 9:59 am
А помоему лучше вообще фреймовые сайты (по возможности, конечно) не использовать - это только запутывает роботы и усложняет индексацию
14 февраля, 2009 г. в 8:40 pm
mysoftmaster.ucoz.ru а почему этот(мой) сайт не хочет индексироватся?
23 февраля, 2009 г. в 5:46 pm
еще бы дописать о запрете индексирования ссылок,а так статья в целом не плохая.+1
14 марта, 2009 г. в 5:54 am
а как попасть в эту самую корневую директорию?
8 июня, 2009 г. в 10:11 am
Что будет если разместить Satemap не в корне сайта
25 августа, 2009 г. в 1:27 pm
Спасибо за статью! у меня вопрос:
почему страницы закрытые с помощью robots.txt попадают в дополнительные результаты? значит гугл эти страницы все таки индексирует?
30 августа, 2009 г. в 11:26 am
11 октября, 2009 г. в 6:17 pm
Подскажите пожалуйста, как через robots.txt запретить поисковикам и ндексацию вот этой категории(интернет магазин) bez-predela.net/shop.php/ яндекс пишет в вебмастере, что слишком много ссылок
и мне хотелось бы запретить индексацию этой категории, дабы не влететь в бан.
16 октября, 2009 г. в 3:30 pm
13 ноября, 2009 г. в 6:19 pm
Я в растерянности:Яндекс не хочет индексировать домены текелау,хоть убей
nstudio.tk
snflowers.tk
Они на бесплатных хостингах, но открыты к индексации, в нихесть файл роботс,но толку мало.
Что делать?
13 ноября, 2009 г. в 8:44 pm
14 ноября, 2009 г. в 11:35 pm
Автор блога Виталий: Спасибо!
26 ноября, 2009 г. в 10:48 am
Как проинтексировать в яндексе домен .tk (проблема как у Евгения)
28 ноября, 2009 г. в 3:47 pm
6 января, 2010 г. в 6:31 pm
Не так давно зарегил 3 сайта .tk, яндекс отлично все проиндексировал. Примерное неделю ждал.Помочь в индексации может следующее: делаем sitemap и на него 2-3 ссылки с сапы покупаем.
1 февраля, 2010 г. в 2:11 pm
Огромное спасибо!
А как закрыть от индексации в файле robots.txt счетчики, например, liveinternet или mail?
6 февраля, 2010 г. в 5:22 pm
8 февраля, 2010 г. в 5:32 pm
Скажите, а как запретить индексирование отдельных статей в каталоге?
9 февраля, 2010 г. в 1:07 pm
Подскажите пожалуйста с первым сайтом никаких проблем не было , а со вторым такая история, при анализе сайта определяется стандартный robots.txt закрывающий доступ на индексацию написал свой как на первом сайте, открывающий доступ для индексации всего сайта, но при просмотре все равно выскакивает стандартный, сайт на ucoz. В общем никак не могу изменить стандартный robots.txt на свой
11 февраля, 2010 г. в 8:49 pm
Ответ Алексею.На Ucoze, если сайт только создан, сайт находится на карантине в течении 30 дней. Поэтому Robots.txt изменить нельзя.
15 февраля, 2010 г. в 5:30 pm
Сегодня яндекс выкинул почти все страницы, что-то с файлом robots.txt, какая-то ошибка, что делать не знаю.
16 февраля, 2010 г. в 8:41 pm
1 марта, 2010 г. в 8:43 am
Хорошо, но если я хочу запретить индексацию внутренних поддиректорий - то какой будет синтаксис?
3 марта, 2010 г. в 1:58 pm
Всех женщин с наступающим женским днем.
Подскажите пожалуйста, как грамотно прописать robots.txt , чтобы исключить для индексации некоторые страницы только для Яндекса, а всем остальным сайтам дать добро на полную индексацию.
за ранее спасибо.
6 марта, 2010 г. в 4:29 pm
6 марта, 2010 г. в 8:28 pm
Помогите пожалуйста разобраться что мне на сайте запретить к индексации? И как правильно это сделать?
Мне многие говорят, что у меня много ненужно открыто к индексированию. И этим я порчу продвижение сайта.
Я вроде и так позакрывал что додумался.
11 марта, 2010 г. в 1:54 am
12 марта, 2010 г. в 8:50 am
И все-таки, какой максимальный размер SITEMAP на сегодня (в килобайтах, количестве URL, etc)? У меня есть новый сайт на 14000 страниц - на сколько файлов бить карту?
13 марта, 2010 г. в 11:35 am
Если не трудно, товарищи разясните. Сайт существует уже пол года ни разу не было поискового робота, посещяемость есть, сайт наполнен. В корневой дерриктории нет документа robots.txt
В адресную строку после своего сайта ввожу robots.txt
выдаёт
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
исправить не могу
Составлю и помещю robots.txt документ,
User-agent: *
Disallow:
будет правильно? Будут роботы индексировать? Или что сделать подскажите?
14 марта, 2010 г. в 2:53 am
14 марта, 2010 г. в 2:11 pm
Иногда приходится очень долго ждать пока страница проиндексируется, а иногда это происходит очень быстро.
С чем это связано и какие самые надёжные способы чтобы ускорить индексацию?
16 марта, 2010 г. в 8:42 pm
17 марта, 2010 г. в 12:19 pm
Здравствуйте!
У меня такой вопрос. Вот я хочу запретить все страницы, в URL которых есть знак вопроса. Нужно добавить директиву
Disallow: /?
Правильно?
***
Ну и вообще мне интересно выполнение правила вида "Запретить к индексации все страницы, содержащие XXX".
Как это реализовать? Спасибо
18 марта, 2010 г. в 10:53 am
Помогите пожалуйста как запретить индексацию динамической страници, например вот такой /product.php?view_product=10401 Заранее спасибо
18 марта, 2010 г. в 9:27 pm
Уважаемые пользователи 2 недели назад мой сайт перестал индексироваться написав в яндекс ответа уже 10 дней нет, делаю в яндекс-вебмастер запрос робот.тхт он выдает:
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
где он это берет ведь фаила нет и я его несоздавал???
я создал фаил и прописал внем вот это:
User-agent: *
Disallow:
и все правильно ли это для индексации всего сайта во всех поисковых системах или надо так:
User-agent: Yandex
Allow: /
и как создать сайт мап??? или он сам создается??? заранее спасибо буду очень признателен быстрому ответу и особенно в аську 115-00-14 заранее спасибо
20 марта, 2010 г. в 1:48 am
22 марта, 2010 г. в 1:02 pm
Спасибо, Виталий!
Меня просто смущает *name.php
User-agent: *
Disallow: /name.php?action=print
***
Я бы запретил так:
User-agent: *
Disallow: /?action=print
или так нельзя?
**********************
Оператор * я понимаю так
1) Например, мне нужно запретить всё, что заканчивается на index.php, тогда я пропишу так
Disallow: /*index.php
2) Для запрета того, что начинается на букву z, я бы прописал так:
Disallow: /z*
***
Много напутал?
23 марта, 2010 г. в 11:12 pm
24 марта, 2010 г. в 3:19 pm
Понял! Огромное спасибо.
Просто подбираю сейчас оптимальный роботс для Джумлы.
25 марта, 2010 г. в 4:57 pm
Вот это я понимаю, понятное объяснение.
Подскажи звездочка
User-agent: *
обозначает, что запрет относится к вышеназванному поисковику?
25 марта, 2010 г. в 8:45 pm
26 марта, 2010 г. в 3:59 am
хорошая статья, спасибо!
7 апреля, 2010 г. в 9:29 pm
Здорово объясняешь,
мы проделали с корпоративным сайтом перезеркаливание и редирект 301 на основной домен, но что-то долго ничего не происходит. Хотя я знаю, надо ждать...
23 апреля, 2010 г. в 11:37 am
Kак запретить к индексации дубли джумлы? Урлы страниц-дублей оканчиваются "=999999".
23 апреля, 2010 г. в 12:35 pm
25 апреля, 2010 г. в 3:25 pm
Можно ли делать запреты такого вида "Disallow: /index.php?" ?
25 апреля, 2010 г. в 7:16 pm
27 апреля, 2010 г. в 11:28 am
Долго искал статью о роботсе, где бы было доходчиво написано для таких чайников как я. Спасибо за доступное объяснение.
30 апреля, 2010 г. в 8:19 am
А какие права нужно поставить на файл robots.txt чтобы робот мог его прочитать, а остальные по запросу site.ru/robots.txt - нет?
1 мая, 2010 г. в 1:33 pm
11 мая, 2010 г. в 4:23 pm
Хорошая инструкция, спасибо! А то никак не могу из индекса ненужную страницу удалить..
11 мая, 2010 г. в 6:08 pm
Здравствуйте, очень интересная статья, но самое приятное что автор отвечает на вопросы без коронных фраз многих специалистов "Ищи и найдёшь", у меня такой вопрос на который я нигде не могу найти ответ, буду надеяться на Вашу подсказку. У меня есть интернет магазин на джумле 1.5, сложилась такая ситуация каждая страница товара имеет два урл адреса,
/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1
и
/component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0
оба индексируются,я хочу второй закрыть для индексации, подскажите пожалуйста как мне это сделать? всё обыскал, но ответа не нашёл(((
11 мая, 2010 г. в 9:05 pm
12 мая, 2010 г. в 1:58 am
понимаете,дело в том что это уже ссылки ЧПУ, у меня стоит sh404SEF (если я не ошибаюсь он так называется), и все ссылки у меня выглядят благородно вот так: "http://site.ru/press.html", а вот со страницами на которых находится товар, т.е. грубо говоря на страницах где есть кнопочка "Купить" существует такая проблема которую я описал в предыдущем сообщении.
Хочу заметить, что эти ссылки, которые я представил в прошлом сообщении гораздо понятнее и короче чем были до того как я установил ЧПУ, а были они такими: "http://site.ru/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1&vmcchk=1&option=com_virtuemart&Itemid=1"
Хочу заметить что таких страниц у меня всего девять.
Я как понимаю должен сейчас закрыть к индексации:
"http://site.ru/component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0"
Будет ли корректным и не будет ли закрывать к индексации ссылки "http://site.ru/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1"
Если я сделаю как было указанно у вас на примере, в роботс напишу такую строчку:
Disallow: /pop*
или как правильно сделать?
Я уже запутался, помогите пожалуйста разобраться
12 мая, 2010 г. в 12:19 pm
12 мая, 2010 г. в 2:34 pm
Спасибо Вам большое!
А скажите пожалуйста /component/virtuemart/ будет индексироваться тогда в других урлах?
в этом в том числе: "http://site.ru/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1".
А как у Гугла можно убрать из страницы из поиска?
12 мая, 2010 г. в 10:10 pm
16 мая, 2010 г. в 3:55 pm
Всё что Вы сказали сработало)
Но вот я хотел выяснить один интересующий меня момент!
Если я в Роботс пропишу вместо
Disallow: /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0
Disallow: /*pop*
или
Disallow: /pop
это будет правильным решение? или тогда тоже блокироваться будут ссылки в которых есть часть: /component/virtuemart/?page=shop.product_details&product_id=1
17 мая, 2010 г. в 10:34 pm
20 мая, 2010 г. в 8:33 pm
А если на сайте не 9, а ~700 страниц подобного вида /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0
И переделака/доработка cms это последний вариант решения проблемы, то как можно всё таки их закрыть одним правилом через robots.txt, или же это невозможно?
Спасибо!
22 мая, 2010 г. в 11:55 pm
24 мая, 2010 г. в 3:07 am
Спасибо большое, мне Ваши советы очень помогли!
Подскажите пожалуйста для общего развития, если есть ссылки подобного типа http://site.ru/vmchk/igri.html и http://site.ru/igri.html а хочу что бы первый вариант не индексировался можно в Робот прописать:
Disallow: /vmchk
при этом будут ли индексироваться ссылки http://site.ru/igri.html ?
24 мая, 2010 г. в 10:26 pm
28 мая, 2010 г. в 8:06 am
Скажите а такой файл правильный,
User-agent: *
Disallow:
29 мая, 2010 г. в 8:37 pm
14 июня, 2010 г. в 12:48 pm
Пожалуйста, помогите исправить ошибку - как раз по теме!
Яндекс-метрика пишет:
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Страницы с ошибкой
Документ запрещен в файле robots.txt
Файл robots.txt содержит директиву, запрещающую роботу Яндекса индексирование этого документа. Чтобы робот мог проиндексировать документ, удалите запрещающую директиву. Ничего не запрещала:(
Три страницы выпали из индекса.
Что делать?
16 июня, 2010 г. в 12:18 pm
25 июня, 2010 г. в 2:50 am
Здравствуйте, так и не понял из вашей статьи - можно ли запретить индексацию url адресов, содержащих определенный символ?
Например, у меня имеется очень много url адресов содержащих символ " = ", все эти адреса я хотел бы запретить к инднксации. Вот примеры таких url -
www.site.ru/index.php?option=com_virtuemart&Itemid=1&
www.site.ru/index.php?page=shop.product_details&
www.site.ru/index.php?category_id=32&
www.site.ru/index.php?flypage=flypage_images_1.tpl
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
Это не все возможные варианты, вариантов очень много, всех их объединяет одно, в каждом url есть символ " = ".
Скажите пожалуйста, можно ли одной строчкой запретить индексацию всех url адресов, содержащих этот символ?
30 июня, 2010 г. в 12:39 pm
30 июня, 2010 г. в 9:03 pm
Спасибо за ответ, скажите, а как же быть с адресами такого вида? :
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
Здесь после html идут ненужные символы, такие страници нужно тоже запретить к индексу, наверное это делается так?
Disallow: /.html?
По поводу целесообразности - на моем сайте установлен ЧПУ и все страници имеют такой вид:
http://site.ru/index.php?/Detskie_kolyaski.html
http://site.ru/index.php?/Detskie_kolyaski/Detskie_kolyaski_2_v_1.html
http://site.ru/index.php?/Detskaya_kolyaska_2_v_1_ABC_Design_Turbo_3_S_Germaniya.html
Другие, левые страницы я (и уверен что и Яндекс
) видить не хотим. Сайтом управляет joomla, это такая СМС, которая может генерить такие страници десятками в течении месяца. Если делать, так как вы советуете, а именно -
Disallow: /index.php?option
Disallow: /index.php?page
Disallow: /index.php?category_id
Disallow: /index.php?flypage
То я боюсь, что просто не смогу быть уверен, что указал все возможные варианты в робот.тхт, поэтому целесообразней будет как раз запретить все url содержашие символ " = ", этот вариант удалит все текущие, не нужные страници и не даст попасть в индекс новосгенеренным. Скажите пожалуйста, как это можно реализовать?
1 июля, 2010 г. в 1:37 am
1 июля, 2010 г. в 2:17 am
Виталий, прошу уточнить послдний момент, вы написали -
"Disallow: /*fontstyle$
В этом случае будут заблокированы все файлы с переменной fontstyle, а также файлы, которые в своих именах будут содержать эту комбинацию символов."
Вы пишете, что будут заблокированы ФАЙЛЫ, а мне бы хотелось заблокировать URL адреса, или вы это и имели ввиду?
То есть, при выражении "Disallow: /*fontstyle$", будут заблокированы страници с адресами, например -
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
и
www.site.ru/index.php?fontstyle=f-smaller&pop=0
/>
и
www .fontstyle.ru/бла-бла-бла
и
www.site.ru/index.php?fontstyleblablabla.html
Все ли я правильно понял? спасибо за ваши ответы!
1 июля, 2010 г. в 9:41 pm
Gelik:
При использовании Disallow: /*fontstyle$ будут заблокированы любые символы в URL после первого символа /. Извините, в прошлом комментарии неправильно выразился, запрет касается URL. Под запрет попадает и индексация файлов с такой комбинацией, и переменных.
Т. е.
www .site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0 - будет заблокировано
www .site.ru/index.php?fontstyle=f-smaller&pop=0 - будет заблокировано
www .fontstyle.ru/ - к доменам это не относится, блокировка касается только содержания конкретного сайта с корневой директории (т. е. с символа "/").
www .site.ru/index.php?fontstyleblablabla.html - будет заблокировано
2 июля, 2010 г. в 12:38 am
Здравствуйте!!Пожалуйста помогите!!!Я новичок в это деле!Создал сайт на плаформе "ucoz" ,зарегистрировался в гугл , сайт досих пор не появился в поисковике,даже когда вбиваешь сам сайт / не могу снять запрет индексации для гугл.Заранее спасибо)
3 июля, 2010 г. в 8:23 pm
5 июля, 2010 г. в 3:40 pm
Здравствуйте. Подскажите, пожалуйста.
Есть ссылки типа:
www.site.ru/magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=29&category_id=4
www.site.ru/magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=27&category_id=4
magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=21&category_id=4
Такие ссылки нужно запретить к индексации. Подойдет ли такая запись?
Disallow: /*shop.ask$
Заранее, спасибо за ответ.
5 июля, 2010 г. в 9:08 pm
5 июля, 2010 г. в 10:48 pm
Благодарю! Спасибо за помощь)
5 июля, 2010 г. в 10:50 pm
Автор блога Виталий:
Можно вашим способом, можно и таким:
Disallow: /magazin.html?page=shop.ask
А случайно не надо после всей строчки знака $ или * ?
6 июля, 2010 г. в 12:50 am
Проверил через вебмастер.яндекс, вроде все работает правильно, еще раз спасибо!
7 июля, 2010 г. в 1:23 am
12 июля, 2010 г. в 2:39 pm
Отличная статья. Но у меня вопрос!
Если я включил в джумле свой (встроенный) ЧПУ, как можно удалить запретить стары урлы типа /index.php?com=comp&bla=bla... Достаточно ли
Disallow: index.php
или нужно Disallow: index.php*
?
И еще.
В этом же случае (при встроенном чпу). передается партнерский ID. Вида site.ru/?pid=2. Правильно ли (и нужно ли?) Ставить:
Clean-param: bns /*
?
И еще!
Disallow: /*component/page,shop.product_details/
Disallow: /*flypage,shop.flypage/
Disallow: /*vmcchk,1/
Это я хочу поставить, т.к. flypage я удалил из кода и теперь все внутренние ссылки БЕЗ него. И "component/page,shop.product_details/option,com_virtuemart" теперь тоже нет. Везде теперь "component/option,com_virtuemart/page,shop.browse/"
т.е. привел в порядок последовательность в урл. В джумле не имеет значения порядок, а для поисковиков, как известно, имеет.
Джумла и VM у меня старые... каюсь. Но обновлятся пока не планирую (слишком много кода исправлено). Жду полноценного релиза VM.
И вообще нужны ли какие-то подобные манипуляции, если гуглу и яндексу "скормлен" SiteMap?
Заранее огрооомное спасибо!
12 июля, 2010 г. в 3:09 pm
Ну и в догонку:
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /components/
Яндекс/Гугл "доберутся" до картинок?
16 июля, 2010 г. в 1:50 pm
16 июля, 2010 г. в 4:00 pm
Да ничего страшного, если index.php не будет индексироваться. ЧПУшные ссылки-то "съедятся". А для чего $ в конце Disallow: /*component/page,shop.product_details$ ?
"page,shop.product_details" может стоять и в середине URL. Или я чего не понимаю?
+ Clean-param: pid /* будет работать только для Яндекса, имеет ли смысл добавить "Disallow: /*?pid" для Гугла?
18 июля, 2010 г. в 11:08 pm