GetInfo.Ru – Компьютерная библиотека
Последние поступления
Как выбрать систему управления базы данных
Базы данных03/09/14
Этапы загрузки UNIX (в схеме)
Unix27/03/12
Gatewall Antispam: тотальный контроль электронной почты
Спам21/04/11
Мастер-класс: создаем Интернет-магазин (Часть 1)
Обзоры ПО20/04/11
CorelDRAW Graphics Suite X5: Что нового?
Обзоры ПО20/07/10
Добавить статью
Самые читаемые материалы
DOM для Web-сервисов, часть 1(11512)
XML и базы данных? Доверьтесь своей интуиции(10221)
XML-формат обмена данными Сбалансированной системы показателей: практический пример (часть II)(10208)
XML Viewer (IBM alphaWorks)(9421)
Обзор XML-стандартов, часть 2(9091)
Всего статей: 793Всего авторов: 364Подразделов: 47Добавлено за сутки: 0
Статьи  СТАТЬИ Форум  ФОРУМ Рейтинг  РЕЙТИНГ Поиск  ПОИСК Контакты  КОНТАКТЫ
» Главная » XML » Экспорт новостных заголовков с сайтов. Стандарт RSS.

Экспорт новостных заголовков с сайтов. Стандарт RSS.


RsK
rskorg@mail.ru
http://www.isoft.spb.ru/

Содержание

Небольшое вступление

Прежде, чем переходить к рассмотрению темы статьи, позволю себе небольшое вступление. Последнее время все большее распространение получает технология XML и стандарты, основанные на нем. RSS один из них. RSS расшифровывается как Rich Site Summary или Really Simple Syndication (а по-русски формат для обмена новостными заголовками и заголовками статей). Основная его функция – это экспорт блочных структур данных (новостных заголовков, форумов, каталогов и др.), хотя первоначально он был создан для экспорта новостей и анонсов с новостных сайтов. Центральная идея XML – это описание не оформления документа, а его структуры, что позволяет обрабатывать этот документ различными программами, при этом вид представления информации зависит уже от самой программы. Таким образом, XML решает проблему неупорядоченности данных в сети. Что же может дать RSS? А дает это следующее: используя RSS вы можете иметь заметки с множества новостных сайтов, например с 2000 сайтов (сколько сайтов вы сможете посетить за час в поисках нужной информации 10-30?), при этом у вас под рукой будут инструменты поиска и группировки по темам. Это то, что касается пользователей. По поводу сайтов использующих RSS можно сказать следующее: они смогут увеличить свою аудиторию, так человек зайдя на какой-либо сайт не обязательно добавит его в закладки, но, увидев значок XML вполне может добавить себе ссылку на этот RSS файл. Если вам интересно узнать о программах для работе с RSS, то вы можете отправиться сюда.

Основы

Все файлы XML имеют определенную структуру, она несколько похожа на разметку html файлов, но служит совсем другим целям. Основными элементами XML являются элементы (nodes – узлы). Каждый элемент обязан иметь открывающий и закрывающий тег (есть также краткая форма записи тегов, не содержащих в себе текстовых узлов). Элементы могут иметь атрибуты, которые должны заключаться в кавычки. Также в XML есть инструкции обработки и комментарии. А теперь я приведу пример простого XML файла:

<?xml version=”1.0” encoding=”widows-1251”?><!--Инструкции обработки (а это комментарий)-->
<data>
<item attr=”value”> <!--Элемент с атрибутом-->
</item>
</data>

Это что касается формата XML, а так как RSS основан на нем, то и его структура имеет тот же вид.

RSS – Really Simple Syndication

Начнем разбор этого стандарта сразу с рассмотрения примера:

<?xml version="1.0" encoding="windows-1251"?><!--1-->
<rss version="2.0"<!--2-->
  xmlns:yandex="http://news.yandex.ru">
  <channel><!--3-->
     <title>Новости</title><!--4-->
     <link>http://www.my_news.ru/</link><!--5-->
     <discription>Новости, которые не стоит пропускать</discription><!--6-->
     <image><!--7-->
         <url>http://www.my_news.ru/my_news.gif</url><!--8-->
         <title>Новости</title><!--9-->
         <link>http://www.my_news.ru/</link><!--10-->
     </image><!--11-->

     <item><!--12-->
            <title>Новость №1</title><!--13-->
                        <link>http://www.my_news.ru/my_new.php?nn=1</link><!--14-->
                        <description>Что-то произошло и мы вам об этом расскажем</description><!--15-->
                        <pubDate>Fri, 23 Jan 2004 15:13:01 +0400</pubDate><!--16-->
            </item><!—см. 11-->

    <item><!--см. 12-->
            <title>Новость №2</title><!--см. 13-->
                        <link>http://www.my_news.ru/my_new.php?nn=2</link><!--см. 14-->
                        <description>Что-то произошло и мы вам об этом расскажем</description><!--см. 15-->
                        <pubDate>Fri, 23 Jan 2004 15:13:01 +0400</pubDate><!--см. 16-->
            </item><!--см. 17-->

</channel></rss><!--см. 11-->

Все элементы структуры файла пронумерованы, теперь по порядку рассмотрим, что они означают:

  1. XML - Начало любого XML-документа, содержит атрибуты version (версия) и encoding (кодировка, указывается кодировка файла);
  2. RSS - Корневой элемент, содержит версию RSS-документа;
  3. CHANNEL - Обязательный элемент, говорящий о том, что дальше идут данные RSS-потока;
  4. TITLE – Заголовок канала;
  5. LINK – Ссылка на сайт;
  6. DESCRIPTION – Краткое описание RSS-потока;
  7. IMAGE – Картинка для представления канала (необязательный элемент);
  8. URL – Ссылка на файл изображения;
  9. TITLE – заменяющий текст для изображения;
  10. LINK – Ссылка для перехода при щелчке по изображению;
  11. - Все теги файла XML, а соответственно и RSS должны иметь закрывающие теги!
  12. ITEM – Отдельный новостной заголовок;
  13. TITLE – Название новости;
  14. LINK – Ссылка на страничку, содержащую соответствующую новость;
  15. DESCRIPTION – Краткое описание новости;
  16. PUBDATE – Дата публикации новости;

Если вы хотите увидеть живой пример, то он здесь.

Вот теперь, когда мы рассмотрели структуру RSS-файла, вы можете приступать к созданию собственного RSS-канала. RSS-файл можно создавать как динамически, так и размещать на сайте статический html-файл, но это уже зависит от ваших возможностей и требований.

Версии RSS. (описание стандартов взято из журнала Chip 01.04, из статьи Андрея Белецкого)

  • 0.90 – самый первый стандарт, который разработала компания Netscape для своего портала Netcenter.com. После отказа компании от «портального» направления стандарт был передан компании UserLand Software, сделавшей имя на технологиях веб-сервисов.

  • 0.91 – незначительно упрощенная версия стандарта 0.90. Как было упомянуто выше, развитием ветки 0.9х занимается UserLand. Самый простой и доступный стандарт; должен применяться в тех ситуациях, когда требуется несложный экспорт заголовков.

  • 0.92-0.94 – несколько усложненные и улучшенные версии 0.91. Позволяют передавать в потоке метаданные.

  • 1.0 – ветвь, продолжающая 0.90. Ее поддержкой занимается группа независимых разработчиков RSS-DEV. Стандарт основан на RDF и является более сложным, чем все предыдущие, однако предоставляет и больше возможностей, например расширение при помощи модулей.

  • 2.0 – не новая версия RSS 1.0, как может показаться, а логическое продолжение ветви 0.9х. В ней также добавлена поддержка модулей.

  • Dublin Core (url) – расширение, созданное специалистами по хранению и каталогизации систематической информации. Этот модуль описывает, например, дату (dc:date), тему (dc:subject), авторские права (dc:rights) каждого элемента потока.

На этом все, со всеми вопросами обращайтесь по адресу rskorg@mail.ru.

 
04.03.2004
Версия для печати Версия для печати Запомнить ссылку Запомнить ссылку
Ваша оценка:  1   2   3   4   5     

 О проектеПерепечаткаАвторамПартнерыО нас пишут
Наверх
©2003—2007. GETINFO.RU. ВСЕ ПРАВА ЗАЩИЩЕНЫ.