Управление индексацией на сайте через robots.txt
Раздел блога: SEO-приёмы | 16 августа 2007, 22:41Наверняка большинство из читающих мою заметку людей уже знают о существовании этого в общем-то незатейливого файла. Факт в том, что его незатейливость и простота может довольно корректно указать поисковой системе, что же всё-таки индексировать на вашем сайте, а что следует оставить "в тени".
Парадокс весь в том, что эта некоторая простота синтаксиса файла robots.txt скрывает в себе большие проблемы, если его не приручить, т. е. не научиться его правильно составлять. Ведь любая ошибка может стоить вам многого. В этой статье я расскажу вам, как использовать подобный файл с умом и избежать возможных проблем.
Начнём, пожалуй, с истории рождения стандарта robots.txt. Как гласит история, стандарт robots.txt был принят консенсусом 30 января 1994 года и опубликован, с тех пор используется большинством известных поисковых машин.
Позже этот стандарт начинали всячески модифицировать различные поисковые компании, которые внедряли новую функциональность в ранее созданный стандарт.
Как например, компания Yahoo, которая ввела для своего поискового бота YahooSlurp, дополнительную возможность запрета индексации типов файлов по их расширению, добавив возможность использования символов * и $ в полях Disallow. Позже эта возможность была одобрена Google, а затем и "Яндексом" в конце 2007 года. "Яндекс" также добавил возможность использования дополнительного поля Host для определения основного зеркала сайта.
Недавно была добавлена возможность использования ещё одного поля.
Sitemap: http://www.site.ru/sitemap.xml
Поле Sitemap позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask, Bing и "Яндекс". Тут можно подробнее ознакомиться со стандартом Sitemaps.
Что такое robots.txt?
Robots.txt – это специальным образом оформленный текстовый файл, находящийся в корне сайта, в котором содержатся директивы, следуя которым поисковая система может понять стратегию индексирования информации на вашем сайте.
Структура robots.txt:
Файл состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или *, как рекомендация для всех поисковых систем), далее идёт поле Disallow, в котором указывается название объекта, который необходимо скрыть от индексирования.
Раздел рекомендаций между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent. В одном разделе может быть сразу несколько полей User-Agent, начинающихся с новой строки.
Стандарт robots.txt поддерживает комментарии. Всё, что начинается от символа # до конца строки, является комментарием.
Строки файла robots.txt являются регистрозависимыми (primer.html и Primer.html - разные файлы).
Следует заметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью – запрета индексации, следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта. Однако поисковые системы постепенно вводят поле Allow, которое всегда должно стоять раньше директивы Disallow, но пока официально оно не признано, хоть и используется некоторыми поисковыми системами (Например, "Яндексом", Google и Bing).
Некоторые поисковые системы используют собственные "информационные" директивы. В Bing Live и "Яндексе" через robots.txt реализована установка значения скорости индексации документа. Делается это так:
User-agent: MSNbot
Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.
User-agent: Yandex
Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.
В начале 2009 года в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы. (Ознакомиться с ней можно здесь).
Пример одного из составленных файлов robots.txt:
User-agent: *
Disallow: /User-agent: Googlebot
Disallow: /text/
Это важно знать:
1) Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.
2) Называть файл необходимо robots.txt, Robots.txt будет уже ошибкой.
3) На каждой строке должно быть поле Disallow, запрещающее индексацию только одного объекта. Если нужно запретить несколько директорий или файлов, то для этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы одно поле Disallow. Также не забудьте про поле User-Agent - оно не должно быть пустым (либо *, либо имя робота). Если используется директива Allow, то она всегда должна стоять раньше Disallow.
4) Запомните простые комбинации:
Disallow: - разрешение индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name – запрет на индексацию любых файлов и директорий, которые называются или имеют в своём названии name.
Disallow: /name/ - запрет на индексацию директории name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif.
Disallow: /name.php – запрет на индексацию файла name.php.
Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.
Allow: / - всё наоборот (разрешается индексировать), синтаксис такой же, как и с Disallow
# - при помощи решётки можно писать комментарии: они не учитываются роботами поисковых систем и носят сугубо информативный характер.
5) Поле Host используется "Яндексом" для определения основного зеркала сайта. Например, так: Host: www.site.ru. Это поле говорит поисковой системе "Яндекс", что в результатах поиска лучше выводить именно такую ссылку на ваш сайт (с www).
Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Важно помнить, что если вы хотите, чтобы поисковая система "Яндекс" приняла во внимание директиву Host в вашей файле, то создайте одинаковые файлы robots.txt на всех "зеркалах" сайта. Только тогда зеркальщик "Яндекс" выделит главное зеркало, согласно данным в Host.
6) Поле Sitemap используется для указания поисковой системе, где находится сгенерированная для поисковых систем карта сайта.(Sitemap: http://www.site.ru/sitemap.xml). Применяется в Google, Ask, Yahoo, Bing и "Яндекс".
User-Agent: Yandex
http://www.site.ru/sitemap-main.xml
http://www.site.ru/folder/sitemap-second.xml
# В случае, когда на сайте используется несколько файлов Sitemap, то их желательно перечислить в файле robots.txt
7) Если инструкции задаются для нескольких поисковых систем, то поля User-Agent
должны вводиться через перевод строки (клавишу Enter).
Вот так:
User-Agent: msnbot
User-Agent: Slurp
Disallow: /admin/
Ошибки в файле robots.txt:
1) Неверный порядок расположения полей:
Неправильно:
Disallow: /
User-agent: *
Правильно:
User-agent: *
Disallow: /
2) Совершаются синтаксические ошибки:
Нет пустой строки:
Неправильно:
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:
Правильно:
User-agent: Googlebot
Disallow: /User-agent: *
Disallow:
Ошибки в синтаксисе Disallow:
Disallow: * (приводит к запрету на индексацию всего сайта).
Disallow: /text/ /text2/ (нельзя использовать одно поле для разных директорий).
Правильно:
Disallow: /text/
Disallow: /text2/
Поле User-Agent:
User-agent: (поле не должно быть пустым)
Поле Host:
Неправильно:
Host: http://www.site.ru/ # (нельзя использовать протокол и слеш в конце)
Host: .site.ru # (любые ошибки в написании доменных имён не допустимы)
Host: 200.114.47.5 # (указан IP вместо адреса)
Правильно:
Host: www.site.ru
или
Host: www.site.ru:8080
# - если ваш сайт доступен по какому-то другому порту (стандартный порт 80, если используется именно он, то его не указывают).
Желательно делать так:
Не пишите все поля с больших букв, комментарии лучше переносить на новую строку. С осторожностью используйте дополнительные директивы (Host, Crawl-Delay): убедитесь, что поисковые системы способны их правильно трактовать. Неправильные действия могут вызвать недопонимание тех систем, которые не используют эти поля, а также не забывайте, что поле Disallow должно быть даже тогда, когда некоторые поисковые системы игнорируют его. Не создавайте размер файла robots.txt больше, чем 256 килобайт.
На этом всё, спасибо за внимание.
Перейти в начало страницы
Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).
20 августа, 2007 г. в 9:16 pm
Написание этой статьи меня подтолкнуло к подключению информации о моей карте сайта в этом файле.
17 октября, 2007 г. в 8:37 am
Хороший материал, спасибо!
Только кажется в этом разделе ошибка:
"2) Совершаются синтаксические ошибки:
Нет пустой строки:
...
Правильно:
User-agent: Googlebot
Disallow: / User-agent: *
Disallow:"
а где пустая строка?
И еще тут:
"Правильно:
Host: www.site.ru/"
зачем слэш в конце?
2 марта, 2008 г. в 4:25 am
Не полностью раскрыта тема. Не показан запрет на индексацию ссылок.
17 мая, 2008 г. в 9:40 am
Как запретить индексацию только определённому роботу.
Например Яндексу?
31 мая, 2008 г. в 1:18 pm
А можно например разрешить индексацию сайта только Яндексом, Рамблером и Гуглей, а всем остальным типа МСН и Яху запретить? Как это правильно оформить?
15 июня, 2008 г. в 12:02 am
На последний вопрос ответа не будет?
27 июня, 2008 г. в 11:37 am
А как удалить уже попавшие в индекс Google страницы с помощью robots.txt?
30 июня, 2008 г. в 7:38 pm
13 июля, 2008 г. в 9:02 am
А можно просто в пхп код страницы вставить код который будет редирект ставить на другую страницу)
главное никто кроме яндекса небудет знать что его обманывают. вот такой своего рода клоакин)
23 ноября, 2008 г. в 7:14 am
Есть идея закрыть от поисковиков каталог, в котором лежит php файл с обратными линками на каталоги. Вычисляется ли данное действие ботами каталогов?
28 ноября, 2008 г. в 1:16 am
20 декабря, 2008 г. в 3:07 pm
Anti Вepressant:
27 июня 27, 2008 г. в 11:37 am
А как удалить уже попавшие в индекс Google страницы с помощью robots.txt?
Автор блога Виталий:
30 июня 30, 2008 г. в 7:38 pm
Anti Вepressant, вот так:
User-agent: Googlebot
Disallow: /
Ответ: НУ-НУ, это шутка? Закрыли весь сайт от индексаии гугла!
9 января, 2009 г. в 3:25 pm
И здесь ни слова о фреймовых сайтах.
13 января, 2009 г. в 2:28 am
16 января, 2009 г. в 11:22 pm
А для яндекса общего кода достаточно?
17 января, 2009 г. в 3:27 am
7 февраля, 2009 г. в 9:59 am
А помоему лучше вообще фреймовые сайты (по возможности, конечно) не использовать - это только запутывает роботы и усложняет индексацию
14 февраля, 2009 г. в 8:40 pm
mysoftmaster.ucoz.ru а почему этот(мой) сайт не хочет индексироватся?
23 февраля, 2009 г. в 5:46 pm
еще бы дописать о запрете индексирования ссылок,а так статья в целом не плохая.+1
14 марта, 2009 г. в 5:54 am
а как попасть в эту самую корневую директорию?
8 июня, 2009 г. в 10:11 am
Что будет если разместить Satemap не в корне сайта
25 августа, 2009 г. в 1:27 pm
Спасибо за статью! у меня вопрос:
почему страницы закрытые с помощью robots.txt попадают в дополнительные результаты? значит гугл эти страницы все таки индексирует?
30 августа, 2009 г. в 11:26 am
11 октября, 2009 г. в 6:17 pm
Подскажите пожалуйста, как через robots.txt запретить поисковикам и ндексацию вот этой категории(интернет магазин) bez-predela.net/shop.php/ яндекс пишет в вебмастере, что слишком много ссылок и мне хотелось бы запретить индексацию этой категории, дабы не влететь в бан.
16 октября, 2009 г. в 3:30 pm
13 ноября, 2009 г. в 6:19 pm
Я в растерянности:Яндекс не хочет индексировать домены текелау,хоть убей
nstudio.tk
snflowers.tk
Они на бесплатных хостингах, но открыты к индексации, в нихесть файл роботс,но толку мало.
Что делать?
13 ноября, 2009 г. в 8:44 pm
14 ноября, 2009 г. в 11:35 pm
Автор блога Виталий: Спасибо!
26 ноября, 2009 г. в 10:48 am
Как проинтексировать в яндексе домен .tk (проблема как у Евгения)
28 ноября, 2009 г. в 3:47 pm
6 января, 2010 г. в 6:31 pm
Не так давно зарегил 3 сайта .tk, яндекс отлично все проиндексировал. Примерное неделю ждал.Помочь в индексации может следующее: делаем sitemap и на него 2-3 ссылки с сапы покупаем.
1 февраля, 2010 г. в 2:11 pm
Огромное спасибо!
А как закрыть от индексации в файле robots.txt счетчики, например, liveinternet или mail?
6 февраля, 2010 г. в 5:22 pm
8 февраля, 2010 г. в 5:32 pm
Скажите, а как запретить индексирование отдельных статей в каталоге?
9 февраля, 2010 г. в 1:07 pm
Подскажите пожалуйста с первым сайтом никаких проблем не было , а со вторым такая история, при анализе сайта определяется стандартный robots.txt закрывающий доступ на индексацию написал свой как на первом сайте, открывающий доступ для индексации всего сайта, но при просмотре все равно выскакивает стандартный, сайт на ucoz. В общем никак не могу изменить стандартный robots.txt на свой
11 февраля, 2010 г. в 8:49 pm
Ответ Алексею.На Ucoze, если сайт только создан, сайт находится на карантине в течении 30 дней. Поэтому Robots.txt изменить нельзя.
15 февраля, 2010 г. в 5:30 pm
Сегодня яндекс выкинул почти все страницы, что-то с файлом robots.txt, какая-то ошибка, что делать не знаю.
16 февраля, 2010 г. в 8:41 pm
1 марта, 2010 г. в 8:43 am
Хорошо, но если я хочу запретить индексацию внутренних поддиректорий - то какой будет синтаксис?
3 марта, 2010 г. в 1:58 pm
Всех женщин с наступающим женским днем.
Подскажите пожалуйста, как грамотно прописать robots.txt , чтобы исключить для индексации некоторые страницы только для Яндекса, а всем остальным сайтам дать добро на полную индексацию.
за ранее спасибо.
6 марта, 2010 г. в 4:29 pm
6 марта, 2010 г. в 8:28 pm
Помогите пожалуйста разобраться что мне на сайте запретить к индексации? И как правильно это сделать?
Мне многие говорят, что у меня много ненужно открыто к индексированию. И этим я порчу продвижение сайта.
Я вроде и так позакрывал что додумался.
11 марта, 2010 г. в 1:54 am
12 марта, 2010 г. в 8:50 am
И все-таки, какой максимальный размер SITEMAP на сегодня (в килобайтах, количестве URL, etc)? У меня есть новый сайт на 14000 страниц - на сколько файлов бить карту?
13 марта, 2010 г. в 11:35 am
Если не трудно, товарищи разясните. Сайт существует уже пол года ни разу не было поискового робота, посещяемость есть, сайт наполнен. В корневой дерриктории нет документа robots.txt
В адресную строку после своего сайта ввожу robots.txt
выдаёт
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
исправить не могу
Составлю и помещю robots.txt документ,
User-agent: *
Disallow:
будет правильно? Будут роботы индексировать? Или что сделать подскажите?
14 марта, 2010 г. в 2:53 am
14 марта, 2010 г. в 2:11 pm
Иногда приходится очень долго ждать пока страница проиндексируется, а иногда это происходит очень быстро.
С чем это связано и какие самые надёжные способы чтобы ускорить индексацию?
16 марта, 2010 г. в 8:42 pm
17 марта, 2010 г. в 12:19 pm
Здравствуйте!
У меня такой вопрос. Вот я хочу запретить все страницы, в URL которых есть знак вопроса. Нужно добавить директиву
Disallow: /?
Правильно?
***
Ну и вообще мне интересно выполнение правила вида "Запретить к индексации все страницы, содержащие XXX".
Как это реализовать? Спасибо
18 марта, 2010 г. в 10:53 am
Помогите пожалуйста как запретить индексацию динамической страници, например вот такой /product.php?view_product=10401 Заранее спасибо
18 марта, 2010 г. в 9:27 pm
Уважаемые пользователи 2 недели назад мой сайт перестал индексироваться написав в яндекс ответа уже 10 дней нет, делаю в яндекс-вебмастер запрос робот.тхт он выдает:
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
где он это берет ведь фаила нет и я его несоздавал???
я создал фаил и прописал внем вот это:
User-agent: *
Disallow:
и все правильно ли это для индексации всего сайта во всех поисковых системах или надо так:
User-agent: Yandex
Allow: /
и как создать сайт мап??? или он сам создается??? заранее спасибо буду очень признателен быстрому ответу и особенно в аську 115-00-14 заранее спасибо
20 марта, 2010 г. в 1:48 am
22 марта, 2010 г. в 1:02 pm
Спасибо, Виталий!
Меня просто смущает *name.php
User-agent: *
Disallow: /name.php?action=print
***
Я бы запретил так:
User-agent: *
Disallow: /?action=print
или так нельзя?
**********************
Оператор * я понимаю так
1) Например, мне нужно запретить всё, что заканчивается на index.php, тогда я пропишу так
Disallow: /*index.php
2) Для запрета того, что начинается на букву z, я бы прописал так:
Disallow: /z*
***
Много напутал?
23 марта, 2010 г. в 11:12 pm
24 марта, 2010 г. в 3:19 pm
Понял! Огромное спасибо.
Просто подбираю сейчас оптимальный роботс для Джумлы.
25 марта, 2010 г. в 4:57 pm
Вот это я понимаю, понятное объяснение.
Подскажи звездочка
User-agent: *
обозначает, что запрет относится к вышеназванному поисковику?
25 марта, 2010 г. в 8:45 pm
26 марта, 2010 г. в 3:59 am
хорошая статья, спасибо!
7 апреля, 2010 г. в 9:29 pm
Здорово объясняешь,
мы проделали с корпоративным сайтом перезеркаливание и редирект 301 на основной домен, но что-то долго ничего не происходит. Хотя я знаю, надо ждать...
23 апреля, 2010 г. в 11:37 am
Kак запретить к индексации дубли джумлы? Урлы страниц-дублей оканчиваются "=999999".
23 апреля, 2010 г. в 12:35 pm
25 апреля, 2010 г. в 3:25 pm
Можно ли делать запреты такого вида "Disallow: /index.php?" ?
25 апреля, 2010 г. в 7:16 pm
27 апреля, 2010 г. в 11:28 am
Долго искал статью о роботсе, где бы было доходчиво написано для таких чайников как я. Спасибо за доступное объяснение.
30 апреля, 2010 г. в 8:19 am
А какие права нужно поставить на файл robots.txt чтобы робот мог его прочитать, а остальные по запросу site.ru/robots.txt - нет?
1 мая, 2010 г. в 1:33 pm
11 мая, 2010 г. в 4:23 pm
Хорошая инструкция, спасибо! А то никак не могу из индекса ненужную страницу удалить..
11 мая, 2010 г. в 6:08 pm
Здравствуйте, очень интересная статья, но самое приятное что автор отвечает на вопросы без коронных фраз многих специалистов "Ищи и найдёшь", у меня такой вопрос на который я нигде не могу найти ответ, буду надеяться на Вашу подсказку. У меня есть интернет магазин на джумле 1.5, сложилась такая ситуация каждая страница товара имеет два урл адреса,
/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1
и
/component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0
оба индексируются,я хочу второй закрыть для индексации, подскажите пожалуйста как мне это сделать? всё обыскал, но ответа не нашёл(((
11 мая, 2010 г. в 9:05 pm
12 мая, 2010 г. в 1:58 am
понимаете,дело в том что это уже ссылки ЧПУ, у меня стоит sh404SEF (если я не ошибаюсь он так называется), и все ссылки у меня выглядят благородно вот так: "http://site.ru/press.html", а вот со страницами на которых находится товар, т.е. грубо говоря на страницах где есть кнопочка "Купить" существует такая проблема которую я описал в предыдущем сообщении.
Хочу заметить, что эти ссылки, которые я представил в прошлом сообщении гораздо понятнее и короче чем были до того как я установил ЧПУ, а были они такими: "http://site.ru/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1&vmcchk=1&option=com_virtuemart&Itemid=1"
Хочу заметить что таких страниц у меня всего девять.
Я как понимаю должен сейчас закрыть к индексации:
"http://site.ru/component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0"
Будет ли корректным и не будет ли закрывать к индексации ссылки "http://site.ru/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1"
Если я сделаю как было указанно у вас на примере, в роботс напишу такую строчку:
Disallow: /pop*
или как правильно сделать?
Я уже запутался, помогите пожалуйста разобраться
12 мая, 2010 г. в 12:19 pm
12 мая, 2010 г. в 2:34 pm
Спасибо Вам большое!
А скажите пожалуйста /component/virtuemart/ будет индексироваться тогда в других урлах?
в этом в том числе: "http://site.ru/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1".
А как у Гугла можно убрать из страницы из поиска?
12 мая, 2010 г. в 10:10 pm
16 мая, 2010 г. в 3:55 pm
Всё что Вы сказали сработало)
Но вот я хотел выяснить один интересующий меня момент!
Если я в Роботс пропишу вместо
Disallow: /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0
Disallow: /*pop*
или
Disallow: /pop
это будет правильным решение? или тогда тоже блокироваться будут ссылки в которых есть часть: /component/virtuemart/?page=shop.product_details&product_id=1
17 мая, 2010 г. в 10:34 pm
20 мая, 2010 г. в 8:33 pm
А если на сайте не 9, а ~700 страниц подобного вида /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0
И переделака/доработка cms это последний вариант решения проблемы, то как можно всё таки их закрыть одним правилом через robots.txt, или же это невозможно?
Спасибо!
22 мая, 2010 г. в 11:55 pm
24 мая, 2010 г. в 3:07 am
Спасибо большое, мне Ваши советы очень помогли!
Подскажите пожалуйста для общего развития, если есть ссылки подобного типа http://site.ru/vmchk/igri.html и http://site.ru/igri.html а хочу что бы первый вариант не индексировался можно в Робот прописать:
Disallow: /vmchk
при этом будут ли индексироваться ссылки http://site.ru/igri.html ?
24 мая, 2010 г. в 10:26 pm
28 мая, 2010 г. в 8:06 am
Скажите а такой файл правильный,
User-agent: *
Disallow:
29 мая, 2010 г. в 8:37 pm
14 июня, 2010 г. в 12:48 pm
Пожалуйста, помогите исправить ошибку - как раз по теме!
Яндекс-метрика пишет:
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Страницы с ошибкой
Документ запрещен в файле robots.txt
Файл robots.txt содержит директиву, запрещающую роботу Яндекса индексирование этого документа. Чтобы робот мог проиндексировать документ, удалите запрещающую директиву. Ничего не запрещала:(
Три страницы выпали из индекса.
Что делать?
16 июня, 2010 г. в 12:18 pm
25 июня, 2010 г. в 2:50 am
Здравствуйте, так и не понял из вашей статьи - можно ли запретить индексацию url адресов, содержащих определенный символ?
Например, у меня имеется очень много url адресов содержащих символ " = ", все эти адреса я хотел бы запретить к инднксации. Вот примеры таких url -
www.site.ru/index.php?option=com_virtuemart&Itemid=1&
www.site.ru/index.php?page=shop.product_details&
www.site.ru/index.php?category_id=32&
www.site.ru/index.php?flypage=flypage_images_1.tpl
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
Это не все возможные варианты, вариантов очень много, всех их объединяет одно, в каждом url есть символ " = ".
Скажите пожалуйста, можно ли одной строчкой запретить индексацию всех url адресов, содержащих этот символ?
30 июня, 2010 г. в 12:39 pm
30 июня, 2010 г. в 9:03 pm
Спасибо за ответ, скажите, а как же быть с адресами такого вида? :
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
Здесь после html идут ненужные символы, такие страници нужно тоже запретить к индексу, наверное это делается так?
Disallow: /.html?
По поводу целесообразности - на моем сайте установлен ЧПУ и все страници имеют такой вид:
http://site.ru/index.php?/Detskie_kolyaski.html
http://site.ru/index.php?/Detskie_kolyaski/Detskie_kolyaski_2_v_1.html
http://site.ru/index.php?/Detskaya_kolyaska_2_v_1_ABC_Design_Turbo_3_S_Germaniya.html
Другие, левые страницы я (и уверен что и Яндекс ) видить не хотим. Сайтом управляет joomla, это такая СМС, которая может генерить такие страници десятками в течении месяца. Если делать, так как вы советуете, а именно -
Disallow: /index.php?option
Disallow: /index.php?page
Disallow: /index.php?category_id
Disallow: /index.php?flypage
То я боюсь, что просто не смогу быть уверен, что указал все возможные варианты в робот.тхт, поэтому целесообразней будет как раз запретить все url содержашие символ " = ", этот вариант удалит все текущие, не нужные страници и не даст попасть в индекс новосгенеренным. Скажите пожалуйста, как это можно реализовать?
1 июля, 2010 г. в 1:37 am
1 июля, 2010 г. в 2:17 am
Виталий, прошу уточнить послдний момент, вы написали -
"Disallow: /*fontstyle$
В этом случае будут заблокированы все файлы с переменной fontstyle, а также файлы, которые в своих именах будут содержать эту комбинацию символов."
Вы пишете, что будут заблокированы ФАЙЛЫ, а мне бы хотелось заблокировать URL адреса, или вы это и имели ввиду?
То есть, при выражении "Disallow: /*fontstyle$", будут заблокированы страници с адресами, например -
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
и
www.site.ru/index.php?fontstyle=f-smaller&pop=0
/>
и
www .fontstyle.ru/бла-бла-бла
и
www.site.ru/index.php?fontstyleblablabla.html
Все ли я правильно понял? спасибо за ваши ответы!
1 июля, 2010 г. в 9:41 pm
Gelik:
При использовании Disallow: /*fontstyle$ будут заблокированы любые символы в URL после первого символа /. Извините, в прошлом комментарии неправильно выразился, запрет касается URL. Под запрет попадает и индексация файлов с такой комбинацией, и переменных.
Т. е.
www .site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0 - будет заблокировано
www .site.ru/index.php?fontstyle=f-smaller&pop=0 - будет заблокировано
www .fontstyle.ru/ - к доменам это не относится, блокировка касается только содержания конкретного сайта с корневой директории (т. е. с символа "/").
www .site.ru/index.php?fontstyleblablabla.html - будет заблокировано
2 июля, 2010 г. в 12:38 am
Здравствуйте!!Пожалуйста помогите!!!Я новичок в это деле!Создал сайт на плаформе "ucoz" ,зарегистрировался в гугл , сайт досих пор не появился в поисковике,даже когда вбиваешь сам сайт / не могу снять запрет индексации для гугл.Заранее спасибо)
3 июля, 2010 г. в 8:23 pm
5 июля, 2010 г. в 3:40 pm
Здравствуйте. Подскажите, пожалуйста.
Есть ссылки типа:
www.site.ru/magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=29&category_id=4
www.site.ru/magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=27&category_id=4
magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=21&category_id=4
Такие ссылки нужно запретить к индексации. Подойдет ли такая запись?
Disallow: /*shop.ask$
Заранее, спасибо за ответ.
5 июля, 2010 г. в 9:08 pm
5 июля, 2010 г. в 10:48 pm
Благодарю! Спасибо за помощь)
5 июля, 2010 г. в 10:50 pm
Автор блога Виталий:
Можно вашим способом, можно и таким:
Disallow: /magazin.html?page=shop.ask
А случайно не надо после всей строчки знака $ или * ?
6 июля, 2010 г. в 12:50 am
Проверил через вебмастер.яндекс, вроде все работает правильно, еще раз спасибо!
7 июля, 2010 г. в 1:23 am
12 июля, 2010 г. в 2:39 pm
Отличная статья. Но у меня вопрос!
Если я включил в джумле свой (встроенный) ЧПУ, как можно удалить запретить стары урлы типа /index.php?com=comp&bla=bla... Достаточно ли
Disallow: index.php
или нужно Disallow: index.php*
?
И еще.
В этом же случае (при встроенном чпу). передается партнерский ID. Вида site.ru/?pid=2. Правильно ли (и нужно ли?) Ставить:
Clean-param: bns /*
?
И еще!
Disallow: /*component/page,shop.product_details/
Disallow: /*flypage,shop.flypage/
Disallow: /*vmcchk,1/
Это я хочу поставить, т.к. flypage я удалил из кода и теперь все внутренние ссылки БЕЗ него. И "component/page,shop.product_details/option,com_virtuemart" теперь тоже нет. Везде теперь "component/option,com_virtuemart/page,shop.browse/"
т.е. привел в порядок последовательность в урл. В джумле не имеет значения порядок, а для поисковиков, как известно, имеет.
Джумла и VM у меня старые... каюсь. Но обновлятся пока не планирую (слишком много кода исправлено). Жду полноценного релиза VM.
И вообще нужны ли какие-то подобные манипуляции, если гуглу и яндексу "скормлен" SiteMap?
Заранее огрооомное спасибо!
12 июля, 2010 г. в 3:09 pm
Ну и в догонку:
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /components/
Яндекс/Гугл "доберутся" до картинок?
16 июля, 2010 г. в 1:50 pm
16 июля, 2010 г. в 4:00 pm
Да ничего страшного, если index.php не будет индексироваться. ЧПУшные ссылки-то "съедятся". А для чего $ в конце Disallow: /*component/page,shop.product_details$ ?
"page,shop.product_details" может стоять и в середине URL. Или я чего не понимаю?
+ Clean-param: pid /* будет работать только для Яндекса, имеет ли смысл добавить "Disallow: /*?pid" для Гугла?
18 июля, 2010 г. в 11:08 pm
8 августа, 2010 г. в 8:47 pm
я тоже сделал домен этот на сайт strikestar.tk/ , но пока ничего не индексируется(((
30 августа, 2010 г. в 1:51 pm
Как запретить индексацию всего домена?
1 сентября, 2010 г. в 5:18 pm
13 сентября, 2010 г. в 5:32 pm
Автор блога Виталий:
Спасибо...
6 октября, 2010 г. в 1:51 pm
а как запретить индексацию всего html сайта (150 страниц), кроме нескольких ?
11 октября, 2010 г. в 4:33 pm
14 октября, 2010 г. в 3:47 am
Здравствуйте, ситуация следующая:
в движке урлы имеют вид:
/index.php?option=com_content&task=view&id=283&Itemid=1
Можно ли с помощью robots.txt сделать так, чтобы все урлы индексировались без последней части &Itemid=n
то есть поисковик воспринимал урл
/index.php?option=com_content&task=view&id=283&Itemid=1
как
/index.php?option=com_content&task=view&id=283 и все подобные урлы соответственно?
Данный вариант
Disallow: /*&Itemid=$
не подходит для этого, я прав?
14 октября, 2010 г. в 5:17 pm
26 октября, 2010 г. в 10:49 pm
Добрый день. Очень надеюсь на вашу помощь. Яндекс посчитал за дубли странички блогов категорий и разделов, в которых по одной превьюшке статей и сами статьи и выкинул из индекса статьи. Как правильно закрыть от индексации все страницы разделов и категорий, оставив только главную и собственно, сами статьи. Отдельно по имени перечислять - нет возможности, нужно что-то универсальное((((
27 октября, 2010 г. в 10:35 pm
Здравствуйте, Виталий! Подскажите, пожалуйста, если знаете. Почему статью, которая относится к определенной категории, можно открыть во всех категориях (по разным ссылкам)? Сайт на Joomla.
Например, статья primer.html открывается по ссылкам:
kategoria1/primer.html
kategoria2/primer.html
kategoria3/primer.html
И это относится ко всем статьям.
28 октября, 2010 г. в 4:08 pm
Здравствуйте, Виталий!
Мне необходимо исключить некоторые страницы, к примеру:
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=316
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=345
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=353
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=354
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=355
Правильна ли такая запись, и, может быть, можно как-нибудь упростить?
29 октября, 2010 г. в 2:01 am
Виталий, доброго времени суток!
Подскажите такой момент: в магазине на индексацию попало куча страниц "задать вопрос по товару" с вот такими адресами (меняются только цифры) - site.ru/index.php?page=shop.ask&flypage=flypage.tpl&product_id=124&category_id=16&option=com_virtuemart&Itemid=54
Хотел бы все их исключить из поиска. И сделал так:
Disallow: /index.php?page=shop.ask
Правильный ли сей вариант? И будут ли нормально индексироваться страницы с самими товарами?
2 ноября, 2010 г. в 1:42 am
3 ноября, 2010 г. в 2:52 am
Уважаемый Виталий, Вы писали, что в файл robots.txt можно помещать не больше 256 000 символов
У меня не простая задача. Нужно закрыть от индексации раздел сайта, но оставить 2000 определенных страниц.
И видимо мне придется перечислить все эти 2000 страниц, вида http://agrealt.ru/base.php?sort=datetime&sort_type=desc&page=19 в роботсе
Поймут ли поисковые системы, что все эти страницы нужно оставить ?
Нет ли ограничений у robots.txt по размеру файла ? Или по кол-ву строк ?
Заранее благодарен за ответ!
4 ноября, 2010 г. в 7:16 pm
7 ноября, 2010 г. в 7:04 pm
8 ноября, 2010 г. в 1:16 pm
Как закрыть от индексации Гуглом, в роботс, зеркало сайта?
У меня сейчас вот так, но все равно 3 страницы зеркала Гугл видит и индексирует (даже учитывая, что редирект с зеркала стоит на основной домен)
User-Agent: *
Disallow: /admin.php
Disallow: /p.php?typ=
Disallow: /http://хххх.com/
Основной сайт ххх.com.ua
8 ноября, 2010 г. в 11:04 pm
9 ноября, 2010 г. в 11:21 am
Да. По сути это один и тот же сайт.
9 ноября, 2010 г. в 1:52 pm
16 ноября, 2010 г. в 1:03 pm
Помогите!!!
Сайт на Ucoze,Файл robots.txt cделал,а как его затолкать в корневую дирректорию сайта не понимаю.
Заранее Всем Спасибо.
16 ноября, 2010 г. в 8:01 pm
19 ноября, 2010 г. в 10:21 am
у меня непонятно откуда взялся дубль главной страницы , хотя все страницы статические ...
В общем я написал Disallow: /index.php?C=M;O=A то есть просто запретил эту страницу ее полный адрес
А вебмастер яндекс пишет мне ошибку "Возможно, был использован недопустимый символ" как мне запретить эту страницу правильно site.ru?C=M;O=A
29 ноября, 2010 г. в 6:25 pm
Думаю, что это мне поможет...
1 декабря, 2010 г. в 7:10 pm
Спасибо за статью, отличная!
У меня страницы с товарами вида:
первая
www.сайт/catalog/194
последующие в этой же категории
www.сайт/catalog/194?page=1
www.сайт/catalog/194?page=2
...
Я хочу оставить для индекса только первую страницу в каджой категории и убрать все, которые в адресной строке содержат "?page="
Директива
Disallow: *?page=*
Мне поможет?
4 декабря, 2010 г. в 2:33 pm
Будет ли правильно следующее правило?
User-agent: *
Allow: /index.html
Disallow: /
Нужно разрешить индексацию только главной страницы.
5 декабря, 2010 г. в 1:56 pm
5 декабря, 2010 г. в 10:34 pm
А как можно запретить индексацию пары страниц без указания их в роботе или разрешить индексацию только определенных?
6 декабря, 2010 г. в 4:56 pm
Приветствую!
На своём сайте (каталоге сайтов) разместил ситемап в трёх экземпляров с разными расширениями, хотя нужен только один:
| sitemap.xml | sitemap.xml.gz | sitemap.txt |
И в роботсе их всех прописал!
Все поисковые машины их успешно читают!
Это может помешать, или я переборщил?
19 декабря, 2010 г. в 12:53 am
19 декабря, 2010 г. в 1:20 pm
Спасибо вам большое за объяснения. Нашла для себя много полезного.
У меня вопрос. Недавно Яндекс стал индексировать страницы служебного адреса mail.www.мой-сайт.com. Мне это совершенно не нужно. Это один и тот же сайт www.мой-сайт.com, только выдается по служебному адресу.
Было в роботе прописано
User-agent: *
Disallow: /includes/
...
Disallow: #form
Host: www.мой-сайт.com - Это не помогло
может быть нужно не так? А вот так?
Disallow: /includes/
...
Disallow: #form
User-agent: Yandex
Disallow:
Host: www.personal-trening.com
Но тогда Яндекс не будет сканировать все, что ему попадется? В общем, ищу ответ на этот вопрос уже неделю и никак не найду. Заранее благодарна за ответ!
19 декабря, 2010 г. в 1:21 pm
Извините, пожалуйста! Скопировала из робота и не заменила название сайта. Измените, пожалуйста.
19 декабря, 2010 г. в 2:06 pm
Я уже проверила, если внизу, после всех запретов указать
User-agent: Yandex
Disallow:
Host: www.мой-сайт.com
то Яндекс индексирует все подряд. Тогда у меня вопрос. Почему индексируется mail.www.мой-сайт.com, если с самого начала у меня было указано в роботе
User-agent: *
Disallow: /includes/
...
Disallow: #form
Host: www.мой-сайт.com
и на mail.www.мой-сайт.com в вебмастере не указано ни одной ссылки? Спасибо заранее за ответ
23 декабря, 2010 г. в 12:50 pm
23 декабря, 2010 г. в 3:00 pm
Спасибо большое за ответ. mail.www.мой-сайт.com и www.мой-сайт.com - это по сути один и тот же сайт. Так что все, что прописывается в одном - автоматом отображается и в другом.
И перенести, как вы понимаете, я в поддомен не могу. Это просто служебная конструкция. Как я поняла, с роботом здесь ничего не сделаешь.
Что я сделала? В .htaccess указала редирект не только без www на www, но и с mail туда же. Посмотрим результат. Пока прошло несколько дней - результата нет.
24 декабря, 2010 г. в 8:21 pm
25 декабря, 2010 г. в 2:50 pm
Да, 301. Обновление поисковой базы Яндекса уже было не раз - но второй адрес не изчезает и страниц в поиске не становится меньше. Но пока жду.
В принципе, можно было бы и не сильно переживать - страницы-то все равно в поиске. Но у меня стоит поиск от Яндекса (он очень удобен для моего сайта). Все было отлично, и вдруг стали появлятся адреса в виде mail.www.мой-сайт.com/... Опять же, и это можно было пережить, но страницы иногда дублируются - что мне совсем не нравится. И что, главное, это может не понравится, в конце концов, Яндексу
14 января, 2011 г. в 9:07 pm
Как можно сделать чтобы основным был сайт.ру а не www.сайт.ру?
Если написать Host: сайт.ru/ то пишет
Некорректное имя главного зеркала сайта
27 января, 2011 г. в 2:59 pm
1 февраля, 2011 г. в 11:20 am
У меня вопрос про запрет index.php на Joomla
Как мне дубли закрыть такого типа?
www.сайт.ru/страница#1 (оригинал)
www.сайт.ru/index.php/страница#1 (дубль)
Disallow: /index.php
Такое закрытие повлияет на индексацию главной страницы www.сайт.ru?
5 февраля, 2011 г. в 2:29 pm
4 марта, 2011 г. в 7:14 am
Здравствуйте. У меня партнерский сайт с общей базой.
Яндекс такие сайты, полностью открытые для индексации банит. Разрешается открыть только главную страницу. По этому у меня такой robots.txt:
User-agent: *
Disallow:
User-agent: Yandex
Disallow: /a
Disallow: /p
Как мне добавить еще одну страницу с моим уникальным контентом к индексации яндекса?
moysite.ru/a-freeadds/articles
Я чегото никак не соображу.
6 марта, 2011 г. в 12:56 am
Добрый день!
У сайта появилось много дублей
Подскажите пожалуйста, Виталий, Как закрыть странички типа ..
/catalog/index.php/?SECTION.......
/catalog/?SECTION.........
В общем интересует именно закрыть страницы с слеш+вопрос подряд
Подойдет ли такое
Disallow: / */?*
Заранее спасибо
11 марта, 2011 г. в 5:34 pm
11 марта, 2011 г. в 5:39 pm
15 марта, 2011 г. в 9:48 am
Правельно ли я написал текст в robot.txt?
Разрешаю индекс всего сайта (Allow: /) по тому что недавно запретил (Disallow: /)
User-agent: *
Allow: /
Host: tk-skarabey.ru.ru
18 марта, 2011 г. в 3:09 am
Здравствуйте, на ваш сайт последняя надежда! Прочитал все коменты но конкретно ответа на свою проблему не нашёл. а проблема в следующем 13.03 мой сайт выпал из индекса - Документ запрещен в файле robots.txt Я нефиига сайту не делал, только сменил название,помогите как решить проблему!?
вот мой robots.txt;
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
18 марта, 2011 г. в 4:35 pm
18 марта, 2011 г. в 6:36 pm
Я менял тег title(Название сайта)В "я масиер" пишется; Страниц в поиске 0
Внешних ссылок на страницы сайта 2840
Дата последнего посещения сайта роботом 13.03.2011
Загружено роботом 14
Исключено роботом 1
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Документ запрещен в файле robots.txt
18 марта, 2011 г. в 6:59 pm
Вот ещё , может это что вам прояснит;
Список страниц, исключённых роботом при обходе сайта. Причиной исключения может быть ошибка при загрузке или обработке страницы. Кроме того, в поисковый индекс не попадают страницы, запрещённые в файле robots.txt и т.п.
Раздел
pitomic.moy.su/index/
Причина
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
19 марта, 2011 г. в 1:06 pm
""Сергей:
Лучше написать так:
User-agent: *
Disallow:
Host: tk-skarabey.ru""
Так мне нужно разрешить, а не запретить....
19 марта, 2011 г. в 2:21 pm
Спасибо Сергей!!! Маленькое уточнение, я написал вместо tk-skarabey.ru свой адрес сайта и ещё, что значит в конце адреса""
20 марта, 2011 г. в 5:51 pm
Привет)
Можно ли заменить:
Disallow: /uploads/images/gallery/prikoly_zhenschiny/thumb/
Disallow: /uploads/images/gallery/toilet_bowl/thumb/
Disallow: /uploads/images/gallery/pyanye_muzhiki/thumb/
Disallow: /uploads/images/gallery/zabavnye_zhivotnye/thumb/
Disallow: /uploads/images/gallery/amusing_dogs/thumb/
на:
Disallow: /uploads/images/gallery/*/thumb/
Так сработает? (нужно запретить к индексации каталог /thumb/)
20 марта, 2011 г. в 6:01 pm
Вот, что у меня получилось:
Allow: /uploads/images/*/
Disallow: /uploads/images/*/thumb/
Disallow: /uploads/images/gallery/*/thumb/
23 марта, 2011 г. в 5:39 pm
Сергей, как ты и советовал я поменял свой robots.txt на данный, но 20.03 2011 снова пишет что сайт запрещен в файле robots.txt
User-agent: *
Disallow:
Host: имя.moy.su
Sitemap: http://имя.moy.su/sitemap.xml
Sitemap: http://имя.moy.su/sitemap-forum.xml
Sitemap: http://имя.moy.su/sitemap-shop.xml
В чём ошибка, почему пишет запрещен в файле robots.txt
23 марта, 2011 г. в 8:42 pm
24 марта, 2011 г. в 1:59 am
В чём же тогда дело , чё сайт в "бане" помогите кто нибудь!!!
24 марта, 2011 г. в 3:27 pm
25 марта, 2011 г. в 5:18 pm
Огромное спасибо, плюс я наконецто достучался до "Платона Щукина" Оказывается 1.01.2011 Яша банит почти всех кто продвигается по системе "сео"
25 марта, 2011 г. в 5:20 pm
Обещали через месяц вернуть
29 марта, 2011 г. в 3:23 pm
У меня форум запрещен к индексации в robots.txt, сделал все как рекомендовали на сайте форума, форум находится в папке forum в корне сайта.
Что неправильно сделал:
User-agent: *
Disallow: /forum/faq.php
Disallow: /forum/mcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/search.php
Disallow: /forum/style.php
Disallow: /forum/ucp.php
Clean-param: sid /forum/index.php
30 марта, 2011 г. в 9:34 am
Вот собственно сайт...http://weldingsite.com.ua
3 апреля, 2011 г. в 7:17 am
Виктор:
Запретить массово индексацию документов по типичным URL можно через регулярные выражения. Допустим, нам не нужны документы, содержащие в адресе thumb, то для этого можно прописать следующую директиву:
Disallow: /*thumb$
Виталий, может так правильнее будет:
Disallow: *thumb
Ведь мне необходимо запретить к индексации все каталоги thumb вместе с вложенными файлами.
3 апреля, 2011 г. в 6:04 pm
3 апреля, 2011 г. в 6:08 pm
6 апреля, 2011 г. в 7:26 pm
Подскажите, пожалуйста! На главной странице и на главной странице архива каждый день меняется материал. затем он по постоянному адресу переносится в архив. нужно, чтобы поисковики индексировали архив. Такое чувство, что яндексу не нравится такая неразбериха. сегодня статья - на главной, завтра - она на главной архива. и только потом у нее постоянный адрес. // или ничего страшного в этом нет?
8 апреля, 2011 г. в 1:43 pm
10 апреля, 2011 г. в 8:12 pm
Здравствуйте, Виталий ! Мне очень понравился ваш блог и ваши грамматные ответы на комментарии. Не могли бы вы мне помочь ? Есть сайт timflair.ru (не уверен, можно ли писать тут адрес своего сайта). На сайте порядка 900 видео (с ютюба) и около 50 статей (из них только 10 (пока)) уникальные, ост. копии с других сайтов (людям в озноком. целях). Яндекс же проиндексировал 19000 страниц !!!! По началу не парило, но в последнее время начал терять позиции по главным запросам. Прочитав вашу инфо (и др. статьи), сделал свой файл robots. Не могли вы его посмотреть и сказать правильно ли я запретил к индексации каталоги и статьи (две последнии) ?? И может посоветуете,что еще следут скрыть от роботов ??? Копированные статьи я скрываю через noindex,nofollow .... Буду вам безмерно благодарен !! Я сайт сам делал, но далеко не ас))) все методом тыка и помощи яндекса )))
10 апреля, 2011 г. в 8:19 pm
Да, и еще забыл спросить, являются ли мои видео ролики с ютюба (по средствам компонента hwdVideoShare) плагиатом (или как правильно...дублем )) ??? И если да, то Может есть смысл закрыть полностью от индексации компонент и продвигать лишь уникальные статьи... а если закрыть, то как ????
13 апреля, 2011 г. в 1:22 am
14 апреля, 2011 г. в 12:05 am
Спасибо огромное за помощь !!! Виталий, а вы не занимаетесь оптимизацией и продвижением ??? если да, то сообщите ваши цены, пожалуйста. У меня на сайте есть все мои координаты. Или может кого посоветуете? И еще раз СПАСИБО !
14 апреля, 2011 г. в 10:44 am
Файл sitemap я что то не найду... где вы посмотрели инфо о нем и где его редактировать - не знаю ?? Я делал карту сайта пошагово с помощью компонента xmap (joomla). Уменя там две карты сайта, одна по идеи индекс. только нужные мне каталоги, которые отоброжаются здесь - http://www.timflair.ru/index.php/site-menu.html, вторая вроде просм. только в html формате (для удобства ползов. сделал её как меню видео "ALL CATEGORIES" и поиск. не индексируется...я ошибаюсь ?? На обе поставил галочку :"Сжать XML карту сайта, для увеличения пропускной способности".
14 апреля, 2011 г. в 11:06 am
по файлу robots.txt - так мне на одном форуме посаветовали, но я читал по этому поводу и тоже засомневался... я правильно понимаю: Disallow: /index.php/timflair запретит и эту категорию - index.php/videoflair/viewcategory/18/timflair.html (так как там есть "timflair"), а /index.php/timflair/ запретит эту категорию и все её файлы, вида - index.php/timflair/viewvideo/9/timflair/timflair.html или index.php/timflair/viewcategory/18/timflair.html для примера ????
Также закрыл, как посоветовали страницы с неуникальным контентом через robots.txt:
Disallow: /index.php/konkursi
Disallow: /index.php/sobitiya
все дубли в этих категориях... видимо тоже со слешом надо.
1 мая, 2011 г. в 4:40 pm
29 мая, 2011 г. в 2:56 pm
классная статья, но комменты круче! наконец-то понял как запретить роботам индексировать страницы с сортировкой в опенкарте, оказывается достаточно было поставить Disallow: *параметр_сортировки
2 июня, 2011 г. в 4:24 pm
User-agent: *
Disallow: /dealers/*
Disallow: almaty.chtk.ru/
Disallow: astana.chtk.ru/
Disallow: belgorod.chtk.ru/*
Disallow: cheboksary.chtk.ru/*
Disallow: chelyabinsk.chtk.ru/*
Disallow: ekaterinburg.chtk.ru/*
Хочу чтобы главная страница поддоменов только проиндексировалось, а внутренние страницы были закрытыми от индексации, подскажите пожалуйста как можно их сделать?
3 июня, 2011 г. в 4:38 pm
Так существует директива allow или нет? Я тут нагуглила, что Роботс только запрещает все, а разрешать не может. И что директивы allow нет. Или уже что-то поменялось???
7 июня, 2011 г. в 7:10 pm
Что бы это значило:
О╩©User-agent: *
Disallow: /*ru
Disallow: /*en
Disallow: /*city
Disallow: /*login
Disallow: /*register
Disallow: /*new
Disallow: /*search
Disallow: /*goto
Disallow: /*cpanel
После анализа Яндекс.Вебмастером результат:
1: О╩©User-agent: *
Обнаружена неизвестная директива
2: Disallow: /*ru
Перед правилом нет директивы User-agent
14 июня, 2011 г. в 11:37 am
Как с помощью robots.txt основного сайта запретить индексацию поддомена основного сайта? У меня гугл начал mail.site.ru индексировать o_O
25 июня, 2011 г. в 7:41 pm
Здравствуйте, подскажите, пожалуйста. Прочитала, что если есть проиндексированные страницы с УРЛ имеющим pageN/, то это прямая дорога под АГС. Это правда? Ведь в блогах на первой странице, если она динамическая собираются все записи и получается много страниц. Их нужно закрывать от индексации? Если да, то как правильно прописывать запрет?
8 июля, 2011 г. в 11:39 pm
19 сентября, 2011 г. в 12:20 am
User-agent: Yandex
Disallow:
Host: stroy-obzor.com
Sitemap: http://stroy-obzor.com/sitemap.xml
Есть ли ошибки?
19 сентября, 2011 г. в 10:43 pm
Уважаемый Админ, видно, что Вы спец по robots.txt!
Подскажите пожалуйста, как можно закрыть от индексации определенный модуль, например "Последних новостей", который находится на всех страницах и часто Яндекс хватает заголовки от туда и индексирует их, а не нужную страницу.
Какой синтаксис для закрытия модуля в файле robots.txt в Joomla 1.5?
С уважение Александр
27 сентября, 2011 г. в 3:40 pm
Такой вопрос!
В поиске Яндекса есть морда (сайт.ру) моего сайта и сайт.ру/index.html Как убрать index.html ??? Или же так и оставить? Не мешает ли это роботам (они же одинаковые)???
27 сентября, 2011 г. в 4:04 pm
У меня такой же вопрос как у Филипа!
Такая запись подойдёт?
User-agent: *
Disallow: /index.html
Host: мой_сайт.ru
12 октября, 2011 г. в 7:38 am
А можно закрыть через роботс от индексации только часть страницы? Например, комментарии. Или придётся использовать ноиндекс-нофолоу?
21 октября, 2011 г. в 9:10 am
Доброго времени суток!
Ситуация такая: Есть главный сайт и целая куча зеркал. Причем при правке роботса одного из сайтов – автоматически эти изменения происходят в роботсе всех остальных. Т.е. закрывая зеркала я перекрываю основной сайт. Подскажите, как тут быть. 301 редирект не хочу настраивать, т.к. зеркала приносят трафик из гугла хороший. Настройка же редиректа удалит зеркала из гугла. Спасибо!
3 ноября, 2011 г. в 1:14 pm
Вычисляется ли данное действие ботами каталогов?
20 февраля, 2012 г. в 7:34 am
Только что настраивал одной девушке роботс.... одна ошибка и запрещен от индексации весь сайт!
14 июня, 2012 г. в 12:01 pm
Я robots.txt вообще не использую и все нормально работает.
25 ноября, 2012 г. в 12:39 am
24 января, 2013 г. в 2:18 pm
Здравствуйте, я хотела бы спросить у вас про свой сайт FotoNiceDay.ru
Страниц сайта в результатах поиска выдает очень много 271, причем там в основном страницы картинок. Например, такие ссылки FotoNiceDay.ru/fotografii/gvido-daniele-handimals/attachment/hand_animals_017
Как мне сделать, чтобы этих страниц картинок не было в поиске?
4 февраля, 2013 г. в 4:31 pm
проблемы такая был файл links.php, я его удалил, а эта пакость оставила хвосты вида:
/links.php?rz=0
/links.php?rz=1
..
/links.php?rz=a
/links.php?rz=z #всего 41 ссылка
Чем вылечить? меня яндекс в позициях скинул
пробовал Disallow: /links.php?rz* + в файле robots
Disallow: /*.php?
7 февраля, 2013 г. в 7:45 pm
7 февраля, 2013 г. в 7:48 pm
16 мая, 2013 г. в 10:27 am
мне в вебмастере яндекс и гугл пишет мол вот эти страницы дают ошибку /.html и /internet-magazini-so-skidk
как их закрыть? посоветуйте.
если вот так, будет правильно?:
Disallow: /.html
Disallow: /internet-magazini-so-skidk
5 июля, 2013 г. в 3:53 pm
Добрый день! Тут есть знатоки? Значит так, порставил запрет в robots.txt дублей страниц joomla (Disallow: /index.php/), после этого весь сайт исчез из яндекса. Попробовал удалить крайний слэш (Disallow: /index.php), результат тот же!!! HELP товарищи!!! В дублях страниц моего сайта присутствует (ibdex.php), хотелось , что бы подобных дублей не было. Посоветуйте!!!
----------мой роботс.тхт-----
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /images/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Allow: /index.php?option=com_xmap&view=xml&id=1
Disallow: /index.php
Host: tverbaza.ru
Sitemap: http://tverbaza.ru/index.php?option=com_xmap&view=xml&id=1
5 июля, 2013 г. в 3:56 pm
Уважаемые!!! Забыл указать свой сайт :tverbaza.ru Если есть мастера, зацените, что с ним не так. Уже третий раз за два месяца вылетает из индекса Яндекса, затем через неделю опять появляется.... мистика какая-то!!!
5 июля, 2013 г. в 3:57 pm
С профи готов поделиться денежкой....
16 октября, 2013 г. в 5:39 pm
16 октября, 2013 г. в 5:41 pm
25 октября, 2013 г. в 4:03 am
Вот еще интересная статья по теме http://naotvet.ru/indeksatsiya-tolko-glavnoy-stranitsi
18 октября, 2014 г. в 11:15 pm
fizruk http://hdishka.net/61-fizruk.html online
12 ноября, 2014 г. в 12:26 pm
У меня есть много дублей страниц, которые заканчиваются вот так ?p=2, ?p=3, ?p=4 и т.д. чтобы закрыть эти страницы прописал в pobots.txt так
Disallow: /*?*
но ничего не произошло. Подскажите что делаю не так. Спасибо!
26 марта, 2015 г. в 10:52 pm
Как снизить нагрузку на сайт от робота?
Можно ли как то прописать лимит посещений робота в сутки? на сайте тысячи страниц и хостинг жалуется на нагрузку от роботов.
Что делать?
20 июня, 2015 г. в 1:54 pm
Спасибо прочитал в онлайне и все посмотрел
17 сентября, 2015 г. в 3:38 pm
Друзья, подскажите, кто то сталкивался с сервисом http://www.mymeizu.net ?
Советую всем воспользоватся данным инет магазином, тем кто решил заказать себе телефон
но не знает где. Здесь цены самые демократические, покупал там несколько раз,
все шустро и лаконично! Рекомендую!
6 марта, 2016 г. в 12:20 am
http://vk.com/vizaza - Viza Plus in Dnepropetrovsk 80 EURO Poland Work
10 марта, 2016 г. в 2:59 am
У меня сайт про игры, фильмы и сериалы, где пишутся полноценные статьи. Но иногда приходится делать кратенькие статьи, типа как на КиноПоиске с краткой инфой, трейлером и небольшой аннотацией. Так вот, когда я опубликовываю эти маленькие мини-статейки, резко прерывается активность на сайте и просмотры почти полностью останавливаются.
Инфу с других сайтов не копирую, пишу сам, как и аннотации. Хотя они во многом похожи, ведь нельзя же поменять имя режиссёра или актёров. По своему объёму статейки около 150 слов, может с этим связано?
Помогите, уже нет сил разбираться, надоела вся эта фигня до чёртиков.
1 апреля, 2016 г. в 12:29 pm
вот такой роботс есть у меня на одном из сайтов videosecurity.md/robots.txt - возможно его как то уменьшить??
24 июля, 2016 г. в 10:11 am
Все просто и понятно спасибо!
15 января, 2017 г. в 1:45 pm
Всем привет!
Вчера зашел на кинопрталы, привычные мне, удивленно нашел что они не работают, то есть их киношки не показывают, типо в вашей стране видео запрещенно!
Теперь фильмы не посмотреть онлайн по всюду фильмы заблокированы, что снова назад на торренты?
14 июня, 2017 г. в 8:08 am
Доброго времени суток. Уже который день подряд не могу понять, почему яндекс вебмастер показывает вот такую штуку
https://uploads.disquscdn.com/images/74c19609fcb394f5da1db59c0fbe9f8d684d823af78822218f2d45e313cc5a00.png
Мол весь сайт закрыт от индекса, хотя в самом файле robots.txt кажется проблем нет. Помогите советом, сайт молодой, да и я новичок в этом деле. https://uploads.disquscdn.com/images/497b88b7e42a449f8cbf8f8b8acd4fb62fa5b9620ce491ce3923e4a3e2c28b41.png Как же мне его таки открыть для индексации?
22 августа, 2017 г. в 11:51 am
variant5
25 августа, 2017 г. в 10:49 pm
variant5
10 февраля, 2018 г. в 1:53 pm
????? ?????? ? ??????? ????????? http://hdfilm.pro
27 августа, 2018 г. в 8:26 am
Основные плюсы погрузчиков DISD
Помимо очевидных достоинств по качеству вдобавок стоимости день-деньской специальная строительная техника данного бренда отличается максимальной производительностью. Спецтехника южнокорейского бренда короче эффективная. Надежность техники обеспечена улучшением технических характеристик как и совершенствованием ранее существующих погрузчиков. Конструкция погрузчика рассчитана на долгосрочную работу. Спецтехника проста в эксплуатации, к тому же эксплуатационные затраты вполне приемлемы.
Две модели DISD - это DISD SD200 в свой черед DISD SD300
12 ноября, 2018 г. в 1:38 pm
heloo