Документ формата PDF и его индексация поисковыми системами | О раскрутке сайта простым языком

DATAWORD - наблюдения оптимизатора
Раскрутка сайта и поисковая оптимизация

 
  

Документ формата PDF и его индексация поисковыми системами

Раздел блога: SEO-приёмы | 13 февраля 2010, 02:07

Версия для печати Версия для печати

PDF документФормат PDF был разработан фирмой Adobe Systems, чтобы решить проблему единства отображения и обработки полиграфической продукции в различных информационных средах (его кроссплатформенность) и довольно успешно справляется с этой задачей и по сегодняшний день. Однако со временем у этого формата появилось и иное предназначение. Универсальность этого формата спровоцировала рост его популярности, а, следовательно, увеличилось и количество публикаций, доступных в этом формате в электронном виде в Интернете.

Изначально файлы формата PDF в сознании многих людей ассоциировались именно с качественным уникальным контентом, т. к. с его помощью часто публиковались и публикуются различные отчёты, доклады, статьи, руководства и другая полезная информация. Конечно, было бы глупо упускать такой источник полезной информации. Со временем все популярные поисковые системы научились индексировать файлы PDF и ранжировать их, что автоматически поставило их наравне с привычными для нас файлами в формате HTML (веб-страницами).

Нам же важно не упустить возможную выгоду и научиться правильно оптимизировать файлы подобного рода для поисковых систем, чтобы обеспечить их лучшую видимость в результатах поиска. Долгое время файлы PDF воспринимались исключительно как файлы-архивы, для открытия которых необходимо было их загружать на компьютер и читать в сторонней программе (Например, в Adobe Reader – программе для просмотра формата PDF). Так было раньше, сейчас же многое меняется: значительно увеличиваются скорости Интернета, появляются встроенные в браузер плагины для чтения формата PDF, позволяющие просматривать файлы сразу же в браузере. Например, уже сегодня в браузере Opera можно читать файлы PDF прямо на сайте онлайн. А это всё прямое свидетельство того, что популярность этого формата в обозримом будущем будет только расти. Это теперь не только универсальный формат для хранения и редактирования полиграфии, но также и способ передачи информации в Интернете (выполняющий функции обычной веб-страницы).

В этой статье я старался систематизировать информацию, осветив как можно больше фактов, влияющих на индексацию поисковыми системами документов этого формата в Интернете, а также ответив на самые распространённые вопросы, которые возникают у веб-мастеров, использующих эти файлы на своих сайтах.

Любой веб-мастер и seo-оптимизатор должен понимать, что файл PDF - это такая же страница сайта, как и файл в формате HTML. Как правило, на этот файл ссылаются так, что он является тупиковым для поисковой системы, т. к. в нём почти никогда не содержатся ссылки на другие страницы сайта, а зря. Каждый PDF-файл (как и страница HTML) находится в индексе поисковых систем, следовательно, имеет и свой поисковый вес, передаваемый по  ссылкам (вИЦ или PR, если хотите). Я настоятельно рекомендую вам в любом файле PDF, выложенным на сайте, делать ссылки на обычные HTML-страницы сайта и на другие страницы PDF (можно даже продублировать навигацию основного сайта). В данном случае вы будете только в выигрышном положении, т. к. помимо передачи поискового веса по ссылке, посетитель, скачав файл PDF с вашего сайта и ознакомившись с информацией в нём, может к вам вернуться, щёлкнув по ссылке, ведущей на ваш сайт из скачанного документа. К тому же файл PDF редко редактируется, поэтому часто сохраняется в первоначальном виде, а также как файловый архив может стремительно распространяться  через различные файловые хостинги, а это, опять же, новые пользователи для вашего сайта (тот редкий случай, когда поисковая оптимизация напрямую влияет на непоисковое продвижение).           

ПРОГРАММЫ ДЛЯ РАБОТЫ С ФАЙЛАМИ PDF

Для создания файлов PDF используйте программу Adobe Acrobat, т. к. она имеет  целый арсенал средств, которые способны максимально качественно оптимизировать наши файлы. Несмотря на это, можно (но не рекомендуется) использовать и другие программы. Например,  для создания файлов PDF вы можете использовать связку программ Adobe Pagemaker и Adobe InDesign или текстовые редакторы наподобие Word из пакета Microsoft Office или Write - из OpenOffice. Когда будете использовать текстовый редактор Word для создания документа формата PDF, то используйте теги H1, H2, H3 и другие подобные для оптимизации текста документа. Вы должны сделать полученный текст базирующимся на языке HTML, чтобы поисковые системы эффективно его индексировали.

Не используйте программы типа Photoshop и Illustrator, т. к. после обработки документа на выходе информация превращается в одно большое изображение, текст на котором не распознать поисковым системам. Однако часто случается и то, что у веб-мастера уже есть большое количество PDF-файлов, полученных от заказчика, или же специфика темы на сайте такая, что по ней есть информация в электронном виде только в этом формате. Если у вас именно такой случай, то не отчаивайтесь. Сейчас активно разрабатываются программы, способные распознавать текст на изображениях, что позволяет модифицировать текст на изображениях в обычный текст, который индексируется поисковыми системами. В России довольно успешно распознаванием текстов занимается компания ABYY.  К примеру, вы можете воспользоваться их конвертером Abbyy PDF Transformer. Хочу сразу заметить, что это довольно уникальный продукт, аналогов которому почти нет. В его возможности входит конвертирование текста на картинках PDF в текст, способный индексироваться поисковыми системами.

 Несколько слов, я думаю, можно сказать и про программы конвертеры. Если же вы решили, что по каким-то причинам формат PDF на сайте вас не очень устраивает, а контент вашего сайта состоит, в основном, из файлов PDF, то у вас есть возможность переконвертировать эти файлы в формат HTML, используя различные бесплатные и платные PDF конвертеры.

 Вот небольшой список таких конвертеров:

 Теперь, я думаю, самое время поделиться с вами секретами оптимизации файла PDF для поисковых систем. 

ИЗОБРАЖЕНИЯ

Не используйте слишком много изображений или изображения большого размера. Картинки хоть и улучшают внешний вид, однако также увеличивается размер файла и время его загрузки. Как и на HTML-странице, если вы поставите много изображений (особенно неоптимизированных), то это потребует больше времени для их загрузки в браузер. Но помимо оптимизации размера изображений PDF-документа, необходимо также оптимизировать и подписи (альтернативный текст) к ним. У каждого изображения документа должна быть своя подпись, как к картинкам обычной HTML-страницы. 

РАЗМЕР ФАЙЛА

Нужно всегда помнить, что поисковые системы не индексируют файлы, которые слишком много весят. Например, поисковая система "Яндекс" не будет индексировать файлы весом больше, чем 10 Мб, отсюда следует правило, что файл PDF не может быть больше 10 Мб.

Если говорить про оптимальный размер PDF-файла, то многие seo-оптимизаторы считают его величину в пределах 500 - 1000 Кб, т. к. с файлами именно таких размеров происходит меньше всего ошибок, связанных с индексацией файлов.

Для оптимизации размера в программе Adobe Acrobat есть специальная функция:  Advanced > PDF Optimizer.

Внимание! При создании PDF-документа в любом редакторе обращайте внимание на версию получаемого файла. Рекомендуемая версия – 1.5 и ниже, т. к. такой файл гарантированно будет читаться всеми программами для просмотра PDF и роботами поисковых систем. Формат PDF позволяет оптимизировать также и копию документа, поэтому по возможности оптимизируйте и её. 

ТЕКСТ ФАЙЛА

Старайтесь избегать большого количества текста в одном файле PDF, дробите один файл на несколько файлов, причём, линкуйте их ссылками внутри каждого такого документа (так, как бы вы это делали с обычными HTML-документами).

Оптимизируйте текст файла PDF под конкретные ключевые запросы, а здесь надо уделять внимание таким же показателям, как и на обычной веб-странице (плотность ключевых слов не выше 5% и прочим). Если вы хотите получить хорошо индексируемый и релевантный поисковым запросам контент PDF-документа, вы должны стараться избегать нагромождения страниц в нём. При внутренней оптимизации текста, а именно: заголовков и подзаголовков, ключевых слов и фраз, необходимых для вашего документа, - будьте очень осторожны, чтобы файл не выглядел заспамленным и не вылетел, в итоге, из индекса поисковых систем.

Если ваш файл PDF разбит на несколько частей, то настройте порядок отображения этих частей. От порядка чтения документа зависит то, какая информация будет предоставлена поисковому роботу сначала, а какая - потом. Помните, что наибольшую поисковую значимость имеют ключевые слова, находящиеся ближе к началу документа, поэтому если в документе обратное, то вам стоит перестроить логическую последовательность частей вашего PDF документа, чтобы выделить наиболее важные части и улучшить их поисковую видимость в Интернете.

Сделайте оглавление (поисковую карту документа), каждый пункт этого оглавления оформите ссылкой (закладкой) внутри PDF документа, для каждой ссылки пропишите ключевые слова в описании ссылки. Этот приём наиболее эффективен для документов, состоящих из нескольких логический частей и с большим количеством страниц – он обеспечивает качественную внутреннюю перелинковку документа, позволяющую эффективно индексировать документ поисковым роботам.

Если вы хотите создать справочник, руководство или другой документ, предполагающий большой объём информации в одном файле, то я рекомендую создавать подобные документы в формате DjVu. Страницы документов (контент) в этом формате не индексируются поисковыми системами. Но если по каким-то причинам у вас не получается уменьшить размер PDF-файлов и разбить их на несколько отдельных файлов, то можно воспользоваться очень удобной функцией в программе Adobe Reader -  Optimize for Fast Web View, позволяющей просматривать уже загрузившиеся страницы документа, не дожидаясь его окончательной загрузки. Это удобно для тех пользователей, кто будет просматривать ваш PDF-файл непосредственно на вашем сайте в режиме онлайн.  

ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ (МЕТАПОЛЯ)

Очень важно заполнить всю дополнительную информацию о вашем файле PDF. Уделите особое внимание таким тегам как: Title (заголовок), Author (автор материала), Subject (тема), Keywords (ключевые слова документа), Descriptions (описание PDF-документа) и Copyright (авторские права). Все эти настройки можно найти в программе Adobe Acrobat  в меню File > Document Properties. Метаданные файла PDF имеют схожее происхождение с метатегами файлов HTML, так что уделяйте им особое внимание при оптимизации. 

КОДИРОВКА, ШРИФТЫ И РАСПОЛОЖЕНИЕ ФАЙЛА

Несколько слов нужно сказать и про оптимизацию шрифтов. Не забывайте включать в сам файл все необходимые (нестандартные) шрифты. Довольно часто для декоративных целей используются самые разнообразные и редкие полиграфические шрифты, которые могут плохо восприниматься поисковыми системами, поэтому, по возможности, старайтесь пользоваться стандартными шрифтами (Arial, Helvetica, Sans-Serif, Times New Roman и другими), которые хорошо индексируются поисковыми системами. Их плюс в том, что они присутствуют по умолчанию в любой операционной системе, поэтому из документа PDF их можно спокойно исключить, уменьшив тем самым размер файла.

Шрифты, которые не были добавлены в PDF-документ или отсутствуют в операционной системе, будут отображаться тем шрифтом, который имеется (самым близким по значению), что может привести к нежелательным последствиям, а именно  к увеличению или уменьшению числа страниц, количества символов в строках, межстрочного интервала и других проблем метрики.

Довольно болезненный параметр для поисковых систем - кодировка файла. Если поисковая система не сумеет определить кодировку вашего PDF файла самостоятельно, то документ вообще не будет проиндексирован, поэтому всегда проверяйте, указана ли она. Желательно использовать самые известные и популярные кодировки.

Ваш файл PDF, как и обычная страница файла, должен быть максимально близок к корню сайта. Ссылайтесь на них ближе к главной странице, не пытайтесь засунуть его глубоко в структуру сайта, чтобы не понизить поисковую значимость вашего PDF документа.

Не давайте вашим документам в формате PDF слишком сложные имена. Упрощайте их. Несколько слов в названии самого файла разделяйте символом "_". Например: imya_documenta.pdf. Также для разделителя можно использовать и символ "-", но я рекомендую использовать первый вариант.

 После всех проделанных операций по оптимизации можете выкладывать файл на сайт. Поисковые системы найдут файл, проиндексируют его и начнут выводить в результатах поиска, и если материал интересен, начнётся самораскрутка его среди посетителей - на файл начнут ссылаться, скачивать и публиковать его в других местах (а сам файл будет с ссылками на ваш сайт). Неплохо, не правда ли?  

Напоследок, предоставлю вам пару ссылок, которые могут быть полезны в связи с опубликованным материалом:

http://ru.wikipedia.org/wiki/PDF - общая информация о файле PDF
http://get.adobe.com/reader/ - последняя версия Adobe Reader
http://www.adobe.com/products/acrobat/ - последняя версия Adobe Acrobat
http://www.abbyy.ru/pdftransformer/ - последняя версия Abbyy PDF Transformer
http://www.taurion.ru/acrobat - самоучитель работы в программе Adobe Acrobat

  В этом обзоре я постарался ответить на наиболее распространённые вопросы по оптимизации файла PDF, которые задают люди, занимающиеся раскруткой сайтов. Но если у вас появились вопросы или что-то осталось непонятным, то, пожалуйста, сообщайте об этом! Буду рад любым отзывам от вас! Спасибо!



Перейти в начало страницы

Подписаться на rssНравится этот блог?
Подпишитесь на обновления блога (RSS)
.
Подпишитесь на комментарии (RSS).



Количество комментариев: 26

  1. Антон:

    Обычно файлы PDF - это не уникальные тексты. У меня есть пара автомобильных сайтов. Инструкция по эксплуатации - наверняка PDF. В Joomla есть плагины для конвертации pdf. Но имеет ли смысл прикручивать неуникальный pdf ? Ещё хотелось бы обсудить такой вопрос. Есть программа по подбору запчастей. Её можно интегрировать в сайт. Пример - подбор автомобиля на сайте по продаже подержанных авто. Насколько хуже будет проиндексирован такая начинка по сравнению с вываливанием того же но на страницы ?

  2. Автор блога Виталий:

    Конечно, если PDF неуникален, то на сайте его лучше не публиковать. Но если документ ранее не был опубликован в Интернете, то разместить его на сайте было бы целесообразно.

    Всё зависит от начинки. По сути же любая начинка генерирует HTML-код для браузера. А этот код и индексируют поисковые системы. Исполняемый код PHP и тому подобное поисковая система не видит. Для того, чтобы определить, насколько хуже будет индексироваться контент, который будет генерироваться этой начинкой, нужно смотреть на тот код, который она выдаёт для браузера и уже на основе этого делать выводы.

  3. roman:

    ПДф - это кроме всего прочего, ещё дырка в безопасности системы, так что это направление может немного подпортить его будущее, если найдётся хорошая замена для этого формата.

  4. Автор блога Виталий:

    roman:
    Недавно в Google Chrome была реализована функция просмотра документов PDF онлайн в изолированной среде. Особенностью этого метода является то, что браузер в автоматическом режиме устанавливает необходимые обновления для оперативного решения проблем безопасности.

  5. Блогов:

    А можете порекомендовать браузер, где pdf просматривался бы нормально или конвертировался бы в html внутри браузера? В Опере и Мозилле такие файлы дико тормозят при прокрутке.

  6. Автор блога Виталий:

    Блогов:
    Попробуйте Google Chrome.

  7. vitalik:

    Статья познавательная. Прочитал с удовольствием. Спасибо

  8. Andrey:

    Как, PDF'ки разве индексируются?! Часть файлов в портфолио, кроме jpg, выкладываю именно в этом формате, дабы именно не выдавалась инфа поисковиками поперек сайтов заказчиков :(((

  9. Автор блога Виталий:

    Andrey:
    Да, файлы PDF индексируются поисковыми системами, но только если на них стоят ссылки. Но вы можете запретить индексацию этих файлов через robots.txt.

  10. nic:

    Сейчас как раз думаю как уменьшить пдф файлы, и теперь получается надо доустанавливать программы, сейчас буду пытаться уменьшить файлы..

  11. Юрий:

    Спасибо за информацию по мета тегам в PDF. буду заполнять

  12. Сергей:

    Здравствуйте.
    Я использовал для конвертации документа из Ворда в ПДФ программку doPDF v.7
    Будет ли индексироваться такой ПДФ при наличии в нем ссылок? И как эти ссылки должны быть оформлены? Как надпись html://site.ру, или можно оставить гиперссылки, бывшие до этого в тексте?

    Спасибо

  13. Автор блога Виталий:

    Сергей:
    Если в документе формата PDF есть возможность скопировать текст, то такой текст с большой вероятностью будет индексироваться и поисковыми системами. Если гиперссылки сконвертированного в формат PDF документа работают корректно, то и поисковые системы их тоже будут учитывать при ранжировании сайтов.

  14. Сергей:

    Про мета-теги ценная инфа. Спасибо!

  15. Владимир:

    Сомневаюсь, что pdf перспективен как веб формат. Не проще ли сразу готовить документ для интернета в html. А те кто готовит, отчет и тд в pdf не думает о сео оптимизации, а скорей о ней и не знает. А вот идея использовать pdf в целях вирусной рекламы, действительно перспективно. Удобнее чем сохраненные веб страницы. И учитывая не особую известность факта индексации pdf можно и ворованные доки разместить на сайте с большей отдачей :smile:

  16. Вера:

    Интересно, автоматические оптимизаторы с такими файлами тоже работают?..
    у меня маремото стоит, до этой статьи что-то не задумывалась

  17. Mitrofanov Sergey:

    Спасибо огромное за такую замечательную статью, наконец-то стало понятно, как же поисковые роботы индексируют PDF-ки!

  18. Сергей:

    Виталий подскажите как убрать в документе метатэги на copyright. Не могу загрузить pdf файл на сервис scribd.

  19. Таня:

    Подскажите, кто знает ПРАВИЛЬНО настроить pdf optimizer в Adode Acrobat 9 для публикации в инете?? (те нужно журнал в Pdf выложить на хосты, но перед этим его опитимизировать под них, сжатие там, разрешение и прочее)
    у меня настройки слетели( и я боюсь не там галочек понаставитьв Discard(

  20. Александр:

    Спасибо. В Вашей статье я нашел ответы на все свои вопросы.

  21. Автор блога Виталий:

    Владимир:
    Пока люди будут выкладывают в сеть PDF-файлы, перспективность формата вряд ли можно ставить под сомнение.

    Таня:
    Заполняйте все возможные текстовые описания документа дозированным текстом с ключевыми словами. Сам контент документа, естественно, должен быть текстовым, а не из фотографий. При возможности разбейте документ на более мелкие составляющие, озаглавьте ключевыми словами в названии документа и метатегах. Можете вообще по главам разбить книги и загружать каждую статью в отдельности. Это даёт ещё больший эффект. Ну и руководствуйтесь этой статьёй.

  22. Инна:

    Подскажите пожалуйста как изменить размер в PDF файлах

  23. Автор блога Виталий:

    Инна:
    для этого достаточно переформатировать файл при помощи различных онлайн и оффлайн утилит, выбирая в настройках максимальную оптимизацию документа. Если есть исходные файлы (не PDF), то можно сохранять документ частями и выкладывать эти части на сайте в виде файлов PDF, небольших по размеру. Это наиболее предпочтительный с точки зрения продвижения вариант.

  24. Валерий:

    А как на практике индексируются метаданные PDF? Я опытным путем не заметил, чтобы какая-нибудт поисковая система обращала внимание на ключевые слова в PDF-файле... Или я все же неправ?

  25. Автор блога Виталий:

    Валерий:
    документы PDF индексируются поисковыми системами. Можно даже сформировать специальный поисковый запрос и искать только файлы PDF.
    Важно понимать, что файлы PDF должны содержать текст. Сканированные изображения текста (нераспознанные их сканы)индексироваться не будут по понятным причинам.

  26. Мария:

    Подскажите, куда можно залить pdf файл (не на свой сайт, а сторонний), чтобы он индексировался поисковиками? Дело в том, что мне нужно продвинуть одно аналитическое исследование, но при этом завуалировать авторство. Чтобы файл был в отрыве от каких-либо имен, но находился по ключевым запросам.

www.liex.ru - автоматическое размещение статей с прямыми ссылками

Хотите высказать своё мнение по теме? Пишите!

ВНИМАНИЕ!
Комментарии, которые не несут смысловую нагрузку, могут быть удалены! В URL можно использовать только ссылку на ваш блог или Twitter, ссылки на другие ресурсы могут быть удалены.

Поля, помеченные *, обязательны для заполнения.


Наши партнёры:


Потребление памяти: 7.3MB