Veille d’information documentaire basée sur la syndication de contenu Web avec Spip

UNIVERSITE CHEIKH ANTA DIOP DE DAKAR

LOGO309U

ECOLE DE BIBLIOTHECAIRES, ARCHIVISTES ET DOCUMENTALISTES (EBAD)

Produit documentaire réalisé dans le cadre de L’UE 2.1.5

Technologie de l’information du master professionnel

 

VEILLE D’INFORMATION DOCUMENTAIRE BASEE SUR LA SYNDICATION DE CONTENU WEB AVEC Spip

Par

Simon Florentin Adjatan

Encadreur : Moustapha MBENGUE

Mars 2013






CMS : Content Management System, 8, 16

CSS : Cascading Style Sheets, 11

HTML : HyperText Markup Language, 11

MCF : Meta Content Framework, 2

Meta Content Framework, 4

PHP : Hypertext Preprocessor, 9

RSS : Really Simple Syndication, 1, 3, 4, 5, 6, 7, 18

URL, 3 ; Uniform Resource Locator, 13, 16, 17, 18

XML : Extensible Markup Language, 1, 4, 5, 6, 7, 16



 I. Introduction

Lorsque le 13 mars 2013, Google a annoncé la fermeture de son service Reader pour le 1er Juillet 2013, les utilisateurs du célèbre agrégateur de flux RSS, désorientés, ont lancé des pétitions sur change.org[1], récoltant en quelques jours plus de 127.000 signatures. A ce sujet, la rédaction de ZDNet.fr écrivait que Google « vient nous rappeler une fois de plus qu’un service en ligne peut être fermé d’un claquement de doigts, obligeant à trouver une alternative »[2].

Ces faits récents constituent la preuve que de nos jours, les habitudes ont changé sur la toile et que les éléments comme les flux de syndication jouent un rôle de plus en plus grandissant. Ils montrent également les limites et contraintes du Cloud Computing gratuit offert en général par les majors et les startups : possibilités de changement des termes d’utilisation, possibilités d’exploitation des données privées, suspension.

Nous proposons un outil « maison », pouvant permettre de gérer sur une plateforme unifiée, des flux (ou fils) de syndication provenant de plusieurs origines et abordant des thématiques différentes. Afin de rendre cette étude réaliste et opérationnelle en peu de temps, nous avons choisi de la circonscrire à l’étude d’un cas : Comment faire de la veille documentaire basée sur la syndication de contenu Web avec Spip. Cette étude dont les différentes composantes sont consignées ici, s’accompagne de la réalisation de la plateforme visible à l’adresse http://360infodoc.ilemi.net.

 II. Les fils de syndication

La syndication de contenu Web est une forme de syndication dans laquelle des objets éditoriaux sont rendus accessibles à d’autres sites. Le plus souvent, les flux de syndication proposent un sommaire des nouveautés du site, par exemple les articles récents, les commentaires récents, les vidéos récentes ou les images récentes.

1. Historique

La syndication de contenus, bien que le plus souvent considérée comme une technique récente, remonte à 1995, lorsque Ramanathan V. Guha et d’autres du Groupe Apple ont développé MCF (Meta Content Framework). Son usage s’est confirmé plus tard en 1999 lorsque Studio One Networks a produit et distribué des programmes destinés à être distribués sur Internet pour le compte de son sponsor américain, Honda. De nos jours, de nombreux types de contenu sont syndiqués et plusieurs éditeurs ont adopté cette technique.

2. Intérêts

Les raisons d’être de la syndication sont multiples. Voyons d’une part, les avantages pour le fournisseur et d’autre part les bénéfices pour les abonnés.

 i. Pour les fournisseurs de flux 

Il existe au moins huit raisons pour lesquelles les fournisseurs de flux acceptent d’adopter la technologie :

- Augmenter le trafic internet vers le site et gagner en notoriété

- Améliorer son positionnement dans les classements des moteurs de recherche, grâce aux liens retour et aux références externes donnant de la crédibilité au site.

- Améliorer les relations entre le site et les utilisateurs du site : l’expérience des newsletters peut être négative lorsque les utilisateurs reçoivent des messages indésirables après inscription. Alors que dans le cas de la syndication, ils se sentent « responsables » des contenus générés.

- Permettre à d’autres de développer des technologies connexes dans le but d’améliorer le service. (Par exemple une application Androïd peut tirer ses sources de fils de syndication)

- Faire de l’Internet une place riche en information : le flux diffusé par un site tiers peut attirer un public qui n’était pas fidèle. Diffusé par plusieurs sites, le flux conférera un gain de popularité au site

 ii. Pour les abonnés

Certaines technologies peinent à décoller. D’autres sont adoptées par la communauté juste à leur sortie. En général, cela fonctionne sur la base de l’utilité des technologies, ainsi que de l’accueil que le public leur réserve. Tel fut le cas pour les flux de syndication dont les avantages sont évidents.

- Regrouper les informations en une place : En souscrivant aux flux et en les agrégeant en un endroit unique, les abonnés n’ont plus besoin d’aller par jour, d’un site à l’autre afin de voir les mises à jour opérées après leur dernière visite. Toutes ces informations sont générées dans l’agrégateur et leur mise à jour est automatisée.

- Voir les informations quand l’on veut : les newsletters nécessitent que l’administrateur du site les expédie. Les flux sont générés à la demande et l’abonné est maître de son agrégateur et peut consulter les informations hors-connexion s’il le désire.

- Gagner en sélectivité : Les flux arrivent souvent de façon sommaire (titre, introduction, date, etc.). L’utilisateur peut choisir suivant ses intérêts, l’information qui l’intéresse afin d’afficher des détails.

- Republier facilement : lorsque l’on récupère le contenu d’un flux, il est aisé de le publier à nouveau sur son propre site, souvent, sans intervention humaine.

3. Les techniques de syndication

La technique de syndication, même si elle peut s’adapter aux sites statiques, concerne avant tout les sites dynamiques. Ces derniers ont l’avantage de différencier la forme du contenu, et de ce fait, rendent plus facile la génération de la page devant contenir la description des derniers éléments publiés. Suivant les choix, les titres, l’auteur, l’URL, la date de publication, le nom du site, une introduction ou tout le contenu de l’article peuvent apparaître pour chacun des articles.

Un site tiers, ou un agrégateur destiné à afficher le contenu en question doit récupérer le fichier et le traiter de telle sorte que les informations s’affichent avec élégance, et épousent la charte graphique du site d’arrivée.

Il existe différents formats de syndication. Les plus connus sont les formats RSS et Atom.

 i. Les formats précurseurs de RSS

Le format RSS a été précédé par plusieurs autres formats similaires. Seulement, aucun d’entre eux n’avait connu la grande popularité du RSS du fait de leur caractère fermé et à orientation unique. Backweb, Pointcast, MCF, RDF, HotSauce sont des exemples de précurseurs. Ils ont été développés pour des besoins spécifiques ou pour un type de service.

 ii. Création de RSS

C’est en 1999 que, pour la première fois, Netscape a rendu public RSS (au départ, RDF Site Summary). Cette version de RSS est aujourd’hui connue sous le nom de RSS 0.9. Puis en Juillet 1999, suite à des commentaires et suggestions reçus, Dan Libby développe un prototype dénommé RSS 0.91. Encore une fois, le développement du sigle change pour Rich Site Summary. Ce prototype apportait plus de simplicité dans le format tout en incorporant les modifications apportées par Dave Winer à son format basé sur XML.

Plus tard en Avril 2001 lorsqu’AOL devait acquérir Netscape, le format fut retiré de la nouvelle conception du site MyNetscape.

Figure 1- Exemple de RSS 0.91 en langage XML

 iii. Adoption initiale de RSS (2000-2003)

Un groupe de travail ainsi qu’une liste de mailing (RSS-DEV) avaient été créés par plusieurs utilisateurs et développeurs XML afin de continuer le développement du format RSS. Pendant ce moment, Dave Winer avait unilatéralement publié sa version modifiée du format, à une version 0.91. Ce fut la voie ouverte à plusieurs personnalisations (fork) jusqu’à la sortie, en 2000, de RSS 1.0 par RSS-DEV. Cette version se basait sur les spécifications RDF tout en étant modulable et incorporant plusieurs termes provenant du standard Dublin Core.

Plusieurs lancements ont suivi, à savoir RSS 0.92, 0.93, 0.94 de Winer. Mais c’est en 2002 que l’on connaitra RSS 2.0 qui est, en fait, RSS 0.92 de Winer, et qui spécifie que RSS représente Really Simple Syndication. Le format fut alors adopté par plusieurs éditeurs dont The New York Times qui se mit à s’en servir pour publier plusieurs flux.

Figure 2- Exemple de RSS 2.0 en langage XML

 iv. Développement de Atom

Jusqu’en 2003, la principale méthode de syndication de contenu Web était restée la famille de formats RSS. Certains membres de la communauté, estimant que cette famille comportait des lacunes n’ont pas été en mesure d’y apporter des corrections, vu que RSS 2.0 était devenu la propriété de l’Université de Harvard. C’est par le biais d’un wiki mis en place par Sam Ruby en juin 2003 que fut discutée la possibilité de création d’une nouvelle famille, cette fois-ci, libre et ouverte. Le projet qui en est sorti, s’est appelé successivement Pie, Echo, Necho puis est devenu Atom. De nos jours, Atom cohabite avec RSS 2.0 et ces deux familles de formats sont les plus connues et utilisées.

4. Les agrégateurs de fils

Un agrégateur, encore appelé agrégateur de news ou de fils, lecteur de fils, lecteur de news, ou lecteur RSS[3] est un logiciel-client ou une application web permettant d’agréger du contenu syndiqué en une seule place pour un meilleur suivi.

 i. Fonctionnalités des agrégateurs

Devoir visiter de nombreux sites distincts de façon fréquente pour savoir s’il y a eu des mises à jour est une activité épuisante et une perte de temps. Surtout avec la croissance exponentielle du nombre de sites web naissant par jour.

La solution réside dans l’intégration de la technique d’agrégation. Elle permet de regrouper en une place, les mises à jour effectuées sur plusieurs sites. Pour cela, il suffit de collecter et d’organiser les flux dont l’on a besoin en visitant les portails et sites internet.

 ii. Les types d’agrégateurs

Grâce à la souplesse du format XML utilisé par les flux de syndication, il existe plusieurs agrégateurs. Il existe par exemple, en ligne, des sites se consacrant exclusivement à l’agrégation de contenus. Ce sont des sites ayant répertorié et déclaré plusieurs flux. C’est le cas de Google Actualités[4] qui en réalité, ne rédige aucun des articles présentés. Il se contente de se nourrir des fils de syndication offert par les sites producteurs. C’est exactement la même chose pour Drudge Report[5] et WorldNews[6]. Il faut noter que ces sites se consacrent plus souvent à l’actualité, laissant une grande marge des autres types d’information.

Il est aussi possible d’utiliser d’autres services web pour ajouter et catégoriser ses propres fils. Ces services sont le plus souvent gratuits et les plus connus sont Bloglines, Feedly, Google Reader, Netvibes etc. La gratuité sur le web ayant un prix, à savoir l’affichage de publicité, le risque de suspension de service (cela sera le cas pour Google Reader dès le 1er juillet 2013) et l’obligation d’accepter les termes d’utilisation sans les discuter au préalable.

Il existe également des applications que l’on installe en local sur un ordinateur, un téléphone intelligent ou une tablette. Elles jouent exactement le même rôle que les applications web précédemment vues. L’inconvénient ici réside dans le fait que l’application ne suit pas son utilisateur si ce dernier ne prend pas son terminal avec lui.

Afin de se rendre indépendant des géants du web qui peuvent suspendre leurs services du jour au lendemain, afficher de la publicité, imposer leurs conditions d’utilisation, l’on peut développer son propre outil d’agrégation. Dans le cas présent, nous verrons comment le faire en utilisant un CMS comme Spip.

III. Spip

Spip (Système de publication pour l’Internet) est un logiciel libre destiné à la production de sites web. Il est largement utilisé dans le monde (surtout francophone) comme CMS, Système de gestion de contenu.

1. Historique

A l’origine, Spip fut développé pour gérer le site uzine.net[7] avant de passer sous licence GPL sur l’initiative des créateurs. Dès son lancement en 2001, il connut une grande popularité dans le monde francophone, bénéficiant de son statut de CMS français, et fut adopté par Le Monde diplomatique[8]et Vacarme[9].

Afin de rester accessible au plus grand nombre (utilisateur débutant ou averti) tout en restant performant, Spip intègre un mécanisme de cache, une authentification, un module d’installation automatique, ainsi qu’une interface d’administration et de saisie des articles. Spip a pour caractéristique principale de permettre la création de pages dynamiques sans connaissance de PHP, grâce à un mécanisme de templates relativement simple dit de « squelettes ».

Il a intégré le multilinguisme dans sa version 1.6 en 2003, les modules de recherche et indexation dans la 1.7 en 2004. C’est également à partir de cette version que fut intégrée la possibilité d’incorporer le contenu d’autres sites via la syndication[10]. Des versions fork ont bien vu le jour mais n’ont pas duré de le temps, c’est le cas de Spip-Agora par exemple. La version 1.8 d’avril 2005 présente un toilettage complet de l’interface privée, suite aux remarques d’ergonomie effectuées par Diala Aschkar[11] dans le cadre de son Master En avril 2005, l’interface privée de la version 1.8 a été remaniée afin de prendre en compte l’analyse ergonomique effectuée par Diala Aschkar dans le cadre de son master. La version 1.8 apporte de nouvelles fonctionnalités au cœur du noyau de Spip, et dès lors, il devint possible d’intégrer des complexités dans ses squelettes sans devoir recourir à PHP. Jusqu’à cette version, les fichiers étaient au format .php3. C’est à partir de la version 1.9 sortie le 1er juillet 2006 que l’on note le passage de l’extension des fichiers à .php. Cette branche apporte un système de plugins, de nouveaux filtres, les modèles et l’utilisation systématique d’Ajax dans l’espace privé.

Le passage à la branche 2.x fit de Spip à la fois, un système de publication de contenu, mais aussi une plate-forme de développement générale où plusieurs portes sont laissées ouvertes : l’apparition des CVT (Charger, vérifier, traiter), la personnalisation de l’espace privé, l’apparition des extensions etc.

Puis l’actuelle branche, 3.x parue le 19 mai 2012, qui étend le principe des plugins-dist (distribués-verrouillés, anciennement extensions) à l’ensemble des fonctionnalités des objets éditoriaux. En conséquence, au-delà des formulaires CVT (et grâce à une gestion avancée des autorisations), il devient facile d’utiliser Spip comme CMF (Content Management Framework), c’est-à-dire un outil de développement de sites et d’applications Web personnalisées (et personnalisables, grâce aux "thèmes" intégrables a posteriori), sans nécessiter de connaissance PHP avancées.

2. Spip comme agrégateur de flux

Par défaut, Spip permet de publier des articles, des brèves, d’ajouter des sites partenaires pour en afficher éventuellement les articles syndiqués (nécessite de personnaliser les squelettes). Les fonctionnalités de recherche, quoi que s’étendant aux contenus syndiqués, ne présentent pas ces derniers dans les résultats par défaut. Les fichiers de squelettes par défaut sont proposés dans le dossier squelettes-dist à la racine de l’installation.

Par défaut, voici le contenu d’un dossier squelettes-dist :

Figure 3- Fichiers par défaut du dossier squelettes-dist

Afin de pouvoir nous servir de Spip comme d’un agrégateur de flux, nous allons le personnaliser et y ajouter de nouvelles fonctionnalités.

 i. Préparation de l’espace de travail

Afin que Spip puisse gérer les nouvelles fonctionnalités que nous souhaitons, nous avons besoin d’une installation fonctionnelle en ligne (pas en local parce que la syndication ne fonctionne par défaut qu’en ligne sous Spip)[12].

 ii. Développement des fonctionnalités nécessaires

Nous devons ensuite créer à la racine du site, un dossier appelé squelettes. Comme dans le fonctionnement de Spip, au chargement, l’application cherchera le fichier de traitement nécessaire dans le dossier squelettes puis, s’il n’existe pas, dans le dossier squelettes-dist.

Dans ce dossier, nous créerons un fichier sommaire.html qui va gérer l’affichage de la page d’accueil de notre portail. Sans nous pencher sur les balises graphiques de mise en forme (HTML, CSS, JavaScript et autres)[13], nous passerons directement aux fonctionnalités que nous souhaitons ajouter à notre pas d’accueil.

Nous voulons d’une part, que l’information y soit présentée de façon organisée. Par exemple, s’il existe des rubriques, que ces dernières soient listées. Ensuite, si des fils de syndication ont été déclarés pour ces rubriques, afficher le titre des dix articles syndiqués les plus récents.

Figure 4- Boucles d’affichage des rubriques et des derniers articles syndiqués

Ces boucles nous donneront un résultat de ce genre[14] :

· Rubrique 1

o Article 10

Descriptif de l’article en 300 caractères maxi

Date de publication de l’article sur Site de provenance

o Article 09

Descriptif de l’article en 300 caractères maxi

Date de publication de l’article sur Site de provenance

(Jusqu’à dix articles)

· Rubrique 2

o Article 10

Descriptif de l’article en 300 caractères maxi

Date de publication de l’article sur Site de provenance

o Article 09

Descriptif de l’article en 300 caractères maxi

Date de publication de l’article sur Site de provenance

(Jusqu’à dix articles)

Au cas où l’utilisateur souhaite afficher tous les articles d’une rubrique, un lien prévu sur le nom de chaque rubrique. En modifiant les boucles précédentes, nous pourrons afficher, à l’intérieur de chaque rubrique, tous les articles syndiqués, par date inversée, avec une pagination de 18 éléments par page.

Figure 5- Boucles d’affichage des articles syndiqués sur la page rubrique, avec pagination

Puis en cas de recherche sur le site, nous souhaiterions lui présenter les résultats en les tirant des articles syndiqués, et non des articles internes.

Figure 6- Boucles d’affichage des résultats de recherche

Techniquement, nous avons fini les personnalisations de Spip, afin qu’il puisse nous servir d’agrégateur. Cependant il nous reste quelques configurations dans la partie privée.

 iii. Configuration de l’espace privé

Nous aurons besoin de nous connecter à l’espace privé, en ajoutant /ecrire à notre URL de base. Après l’authentification, nous devons utiliser le menu configuration afin de changer l’identité du site, ainsi que la nature de son contenu.

Figure 7- Capture d’écran de l’espace privé

Le lien identité du site permet de gérer les paramètres comme le nom du site (360 InfoDoc), le slogan du site (Agrégateur en information documentaire) – parce que nous souhaitons faire de ce portail, un agrégateur orienté information documentaire ; tous les usages sont permis, toutefois. – la description du site, l’adresse mail du webmaster, puis le logo du site.

Figure 8- Capture d’écran du formulaire de saisie de l’identité du site

Ensuite, le menu Contenu du site nous permet de configurer plusieurs options, dont notamment, la syndication.

Figure 9- Capture d’écran d’activation de la syndication

 iv. Création des rubriques

Nous avons retenu dix principales rubriques pour classer les informations provenant des flux de syndication en information documentaire. Ce choix reste personnel, et surtout tourné vers les types de contenus connaissant une mise à jour fréquente, voire abondante. Ces rubriques sont :

· Archives : pour tous les flux en rapport avec les archives, l’archivistique, l’archivage, les archivistes.

· Associations : pour tous les flux en rapport avec les associations en information documentaires.

· Bibliothèques : pour tous les flux en rapport avec les bibliothèques, la bibliothéconomie, et les bibliothécaires.

· Blogs : pour tous les flux provenant des blogs animés par des spécialistes de l’information documentaire ou portant sur cette thématique.

· Classifications : pour tous les flux provenant des structures fixant les normes de classification.

· Conférences : pour tous les flux provenant de sites spécialisés en annonces d’événements dans le domaine de l’information documentaire.

· Emplois : pour tous les flux provenant de sites spécialisés en annonces d’emplois ou d’opportunités de stages dans le domaine de l’information documentaire.

· Enseignement et formation : pour tous les flux provenant des sites des universités et centres de formation en information documentaire.

· Généralités : c’est un peu la rubrique des « inclassables » et des sujets passe-partout dans le domaine de l’information documentaire.

· Listes : Ici, l’on reprend tous les messages de forums, listes de discussion…

· Logiciels : pour tous les flux portant sur les logiciels d’information documentaire.

· Photos : Le multimédia faisant partie du web, plusieurs services consacrés aux images existent. Comme l’on publie un article, certains postent des images comme moyen d’expression. Nous les prenons donc en compte ici, tant que ces images sont décrites par un mot-clef correspondant à archiviste, documentaliste, bibliothécaire (liste extensible).

· Twitter : Syndique les tweets par hashtag #archiviste, #bibliothécaire, #bibliothèque, #archivage, #documentaliste, ou #archiviste.

· Vidéos : syndique le vidéos dont les descripteurs sont archiviste, documentaliste, bibliothécaire

 v. Identification et ajout des adresses de flux

Afin de trouver des adresses de flux pour ces rubriques, il suffit de faire une recherche thématique. Dans notre cas, nous allons nous limiter au contenu francophone. Etant donné que notre recherche porte sur les flux, nous n’utiliserons pas un moteur de recherche, mais un moteur de recherche spécialisé comme http://ctrlq.org/rss/ ou http://www.rssmicro.com/. Mais l’expérience en syndication est un meilleur outil. Au fur et à mesure que l’on visite les sites web, un peu d’attention vous fera remarquer l’icône de syndication, le lien de syndication ou le lien vers feedburner. Pouvoir détecter les CMS est aussi un atout pour deviner le chemin vers le fichier XML de syndication au cas où l’éditeur ne l’affiche pas. En dernier recours, l’on peut afficher le code source de la page et rechercher dans l’entête, le chemin vers le fichier XML.

Voici la liste des flux que nous utilisons (extensible à tout moment).

* Généralités
- Nom du site : Archive Ouverte en Sciences de l’Information et de la Communication, URL de syndication : http://archivesic.ccsd.cnrs.fr/rss.php
- Nom du site : EchosDoc, URL de syndication : http://www.echosdoc.net/feed/

* Photos
- Nom du site : Flickr, URL de syndication : http://www.degraeve.com/flickr-rss/rss.php?tags=archiviste+documentaliste+bibliothecaire+bibliotheque+archiviste&tagmode=any&sort=date-posted-desc&num=25
- Nom du site : Photos "archivist" sur Instagram, URL de syndication : http://instagram.com/tags/archivist/feed/recent.rss

* Vidéos
- Nom du site : Youtube Archiviste, URL de syndication : http://gdata.youtube.com/feeds/base/videos/-/archiviste?v=2&orderby=published&client=ytapi-youtube-rss-redirect&alt=rss
- Nom du site : Youtube Bibliothécaire, URL de syndication : http://gdata.youtube.com/feeds/base/videos/-/bibliotheque?v=2&orderby=published&client=ytapi-youtube-rss-redirect&alt=rss
- Nom du site : Youtube Documentaliste, URL de syndication : http://gdata.youtube.com/feeds/base/videos/-/documentaliste?v=2&orderby=published&client=ytapi-youtube-rss-redirect&alt=rss
- Nom du site : Dailymotion - Archiviste, URL de syndication : http://www.dailymotion.com/rss/tag/archiviste

* Associations
- Nom du site : ADADB, URL de syndication : http://www.adadb.bj.refer.org/spip.php?page=backend
- Nom du site : Association des archivistes français, URL de syndication : http://www.archivistes.org/backend
- Nom du site : Association des archivistes du Québec (AAQ), URL de syndication : http://www.archivistes.qc.ca/spip.php?page=backend
- Nom du site : ICA actualités, URL de syndication : http://www.ica.org/rss.php?id=60
- Nom du site : L’association des professionnels de l’information et de la documentation, URL de syndication : http://www.adbs.fr/adminsite/webservices/export_rss.jsp

* Enseignement et formation
- Nom du site : Universités numériques, URL de syndication : http://www.universites-numeriques.fr/ressources/thematic-search.rss?menuKey=unt&id=un_310&submenuKey=thematic_un&sort_field=title&sort_field_ascending=true&lang=fr&rssPageSize=100
- Nom du site : Association des archivistes français > Rubrique Formations, URL de syndication : http://www.archivistes.org/spip.php?page=backend&id_secteur=8

* Archives
- Nom du site : Archives de l’État en Belgique, URL de syndication : http://arch.arch.be/component/option,com_rss/feed,RSS2.0/no_html,1/lang,fr_BE/
- Nom du site : Les Archives Nationales de Tunisie, URL de syndication : http://www.archives.nat.tn/index.php?id=80&type=100&L=0
- Nom du site : Archives fédérales suisses, URL de syndication : http://www.bar.admin.ch/rss/index.html?lang=fr&rssfeed=1
- Nom du site : Archives nationales du Luxembourg, URL de syndication : http://www.anlux.lu/multi/fr/component/ninjarsssyndicator/?feed_id=1&format=raw
- Nom du site : Piaf - Portail International Archivistique Francophone, URL de syndication : http://www.piaf-archives.org/rss.xml
- Nom du site : Archimag, URL de syndication : http://www.archimag.com/rss.xml

* Bibliothèques
- Nom du site : BnF - Actualités de la Bibliothèque, URL de syndication : http://www.bnf.fr/Satellite?c=Page&cid=1237374444944&locale=1194947514616&p=1237374444944&pagename=bnf_dev%2FRss&typeRss=Biblio
- Nom du site : BnF - Actualités culturelles, URL de syndication : http://www.bnf.fr/Satellite?c=Page&cid=1237374444944&locale=1194947514616&p=1237374444944&pagename=bnf_dev%2FRss&typeRss=culturelles
- Nom du site : BnF - Actualités professionnelles, URL de syndication : http://www.bnf.fr/Satellite?c=Page&cid=1237374444944&locale=1194947514616&p=1237374444944&pagename=bnf_dev%2FRss&typeRss=professionnelles
- Nom du site : Bibliothèque Bernheim, URL de syndication : http://www.bernheim.nc//index.php?format=feed&type=rss
- Nom du site : Bibliothèque et Archives Canada, URL de syndication : http://www.collectionscanada.gc.ca/rss/quoi-de-neuf/qn-bac-f.rss
- Nom du site : Bibliothèque Nationale Suisse, URL de syndication : http://www.nb.admin.ch/rss/index.html?lang=fr&rssfeed=3
- Nom du site : Bibliothèque d’Alexandrie, URL de syndication : http://bibalex.org/Rss/RSS.aspx?category=News_fr

* Emplois
- Nom du site : Association des archivistes français > Rubrique Emploi, URL de syndication : http://www.archivistes.org/spip.php?page=backend&id_secteur=7
- Nom du site : Biblioemplois, URL de syndication : http://feeds2.feedburner.com/Biblioemplois
- Nom du site : Cepid - Annonces emploi, URL de syndication : http://www.cepid.eu/rss/rss.xml

* Listes
- Nom du site : ADBS, URL de syndication : http://listes.adbs.fr/sympa/rss/latest_arc/adbs-info?count=20&for=100
- Nom du site : Archives-fr, URL de syndication : http://rss.groups.yahoo.com/group/archives-fr/rss

* Twitter
- Nom du site : Twitter, URL de syndication : http://search.twitter.com/search.atom?q=archiviste%20OR%20biblioth%C3%A9caire%20OR%20biblioth%C3%A8que%20OR%20documentaliste%20OR%20archivage%20OR%20archivistique%20lang%3Afr&src=typd

* Blogs
- Nom du site : Bibliobsession 2.0, URL de syndication : http://feeds.feedburner.com/bibliobsession/TKHz?format=xml
- Nom du site : Archivistique, URL de syndication : http://archivistique.wordpress.com/feed/
- Nom du site : Blog de veille archivistique, URL de syndication : http://feeds.feedburner.com/BlogDeVeilleArchivistique
- Nom du site : SENBIBDOC, URL de syndication : http://antoninbenoitdiouf.com/feed/

* Logiciels
- Nom du site : RéCIF : Réseau CDS/ISIS Francophone, URL de syndication : http://recifweb.free.fr/spip.php?page=backend
- Nom du site : Communauté francophone Koha, URL de syndication : http://koha-fr.org/rss.xml

Figure 10- Boucles pour lister l’ensemble des sites syndiqués par rubrique

Enfin, il est possible d’ajouter les sites retenus en procédant rubrique par rubrique. Il convient de cocher l’option de syndication pour chacun des sites ajoutés.

Figure 11- Capture d’écran des options d’ajout de site

IV. Résultats de l’agrégation

Lancé depuis le 5 mars 2013, le site http://360infodoc.ilemi.net comporte plus de 40 sites référencés (peut changer selon les mises à jour), et 1727[15] articles répartis dans dix rubriques.

Le site offre plusieurs possibilités de consultation.

1. L’accueil

A l’accueil, http://360infodoc.ilemi.net, l’on a une vue d’ensemble des dix rubriques, avec pour chacune d’elles, les dix articles syndiqués les plus récents. Un clic sur le lien de la rubrique donne accès à cette dernière. Le curseur posé sur le titre d’un article développe une boîte de détails : titre complet, description, date de publication, site éditeur. Un clic sur l’article lance une nouvelle fenêtre pointant vers l’adresse de l’article sur le site éditeur.

Le formulaire de recherche permet de rechercher un mot-clef particulier afin de voir l’ensemble des articles qui en traitent. Lorsqu’un mot rare comme « affiche » est entré, certaines rubriques afficheront le peu d’articles trouvés, tandis que d’autres afficheront « Aucun article trouvé pour affiche ».

Lorsqu’un mot-clef populaire tel que « information » est entré, les rubriques afficheront les articles trouvés, et s’il y en a plus de 10, une pagination apparaîtra.

2. Les rubriques

En accédant à une rubrique, l’on liste par défaut les 18 articles les plus récents, et les liens de pagination si nécessaire. A ce niveau, les boîtes affichent directement les détails de chaque article : titre cliquable, description, date de publication, site éditeur.

3. Le Balayage

Il est possible de balayer l’ensemble des articles, par date de publication inverse, afin de les parcourir par lots, voir les plus vieux, etc. Le lien est présent dans le menu horizontal.

4. Problèmes issus de l’automatisme

Au cours d’une opération de ce type, il est possible que l’on rencontre des problèmes liés à l’automatisme de traitement. Parmi ces problèmes, l’on peut citer l’indisponibilité de fil de syndication sur certains sites. Ce filtre les disqualifie dès l’entrée de la sélection. Ensuite, certains sites sont hébergés sur un serveur dont l’horloge est configurée dans une zone horaire différente, mal configurée, ou appelant mal la fonction d’affichage de la date et de l’heure. Cela peut créer des articles dans le futur, ou le passé. Les derniers articles de notre portail datent par exemple de 1969, ce qui correspond bien entendu à une date erronée. Par ailleurs, le système de syndication de Spip se déclenche en fonction des requêtes. Plus il y a des visiteurs, et plus fréquente sera l’exécution du CronJob commandant l’extraction des articles distants.

Toutefois, l’on peut remédier à ces problèmes en poussant loin le développement. Par exemple, il doit être possible de surcharger une fonction pour extraire plus fréquemment les articles, une autre pour la réécriture des dates, et même un script pouvant générer des fils de syndication pour les sites qui n’en proposent pas.

 V. Conclusion

Alors que nous avions commencé à nous pencher sur ce sujet, un événement majeur s’était produit dans le monde de la syndication, à savoir l’annonce de fermeture de Google Reader[16]. Avant même que nous finissions cette réflexion, un autre événement de taille s’est produit dans le monde de la syndication lorsque Nick D’Aloisio, un adolescent de 17, revend son appli à Yahoo !, empochant au passage 23,6 millions d’euros[17]. L’appli en question, était un programme qui fédérait (syndiquait) du contenu provenant de plusieurs sites, en se basant sur un algorithme pour présenter des résumés de contenu plutôt que des extraits ou le contenu brut.

L’intérêt pour les fils de syndication, après plus de dix ans d’existence, ne s’est donc pas émoussé. Au contraire, les fils deviennent un élément incontournable du Web et représenteront certainement un pourcentage élevé dans les technologies futures. Les spécialistes de l’information ne devraient pas rester en marge de cet outil ; ils ne devraient pas compter sur le Cloud afin d’utiliser un outil d’une aussi grande importance. Au contraire, ils devraient aller à sa rencontre, l’adapter, l’améliorer, afin d’en faire un outil de veille efficace.

Le cas présenté dans ce produit exploite la force des fils de syndication en combinaison avec une utilisation détournée d’un CMS, Spip. Au-delà d’une simple syndication, nous avons bâti les fonctionnalités suivantes :

- Syndiquer le contenu par filtres

- Syndiquer les conversations

- Syndiquer du contenu multimédia

- Catégoriser l’information syndiquée

- Constituer une base de données de l’information syndiquée, l’indexer et y effectuer des recherches.

- Regrouper des informations publiées par des sites différents et les parcourir suivant un ordre voulu.

Bien entendu, ces fonctionnalités peuvent être reprises par d’autres collègues, étendues et portées si possible vers d’autres CMS. Au-delà du produit documentaire, voici une démarche pédagogique pour se libérer des agrégateurs de flux offerts par des services tiers, appelés soit à rendre leurs services payants dans le futur, soit à fermer sans avis, ou alors à nous imposer leurs conditions d’utilisation.


Bibliographie

Finkelstein, E. (2005), Syndicating web sites with RSS feeds for dummies, Wiley Publishing, Indianapolis.

Hammersley, B. (2003), Content Syndication with RSS, O’Reilly Media, Sebastopol.

Hammersley, B. (2005), Developing Feeds with RSS and Atom, O’Reilly Media, Sebastopol

Lash, A. (1997), W3C takes first step toward RDF spec, CNET News, http://news.cnet.com/2100-1001-203893.html (Consulté le 14 mars 2013)

Wikipedia, History of Web syndication technology, http://en.wikipedia.org/wiki/History_of_web_syndication_technology (Consulté le 24 mars 2013)

ZDNet.fr, Google fermera Google Reader le 1er juillet, http://www.zdnet.fr/actualites/google-fermera-google-reader-le-1er-juillet-39788211.htm (Consulté le 14 mars 2013)



[1]Google : Keep Google Reader Running https://www.change.org/petitions/google-keep-google-reader-running 127,084 supporters au 18 mars 2013.

[3] Cette dernière appellation est abusive, parce que utilisée même s’il s’agit de la famille Atom.

[7] uZine est un espace d’expression, d’information, d’échange et de pédagogie autour des enjeux de l’internet. Créé par des militants du Web indépendant, il fonctionne pour et grâce à la participation des utilisateurs. http://www.uzine.net

[10] Remarquer que cela fait echo au fait que le format soit rendu libre avec la sortie de Atom.

[11] Mémoire de Master conception en nouveaux média, Ecole nationale supérieure de création industrielle (ENSCI). Le sujet du mémoire était « L’Ergonomie du logiciel Spip ».

[12] Les détails sur la configuration nécessaire ainsi que la procédure sont à cette adresse http://www.spip.net/fr_article402.html

[13] La documentation en ligne traite largement de ce sujet et des squelettes prêts à l’emploi existent.

[14] Voir le code en action sur http://360infodoc.ilemi.net

[15] Au 26 mars 2013

[17]27 mars 2013 : Internet : un lycéen vend une appli à Yahoo ! et devient millionnaire http://www.liberation.fr/economie/2013/03/27/internet-un-lyceen-vend-une-appli-a-yahoo-et-devient-millionnaire_891647

1157 visites depuis le 24 juin 2013. Pour citer cet article :
Simon Florentin Adjatan, Veille d’information documentaire basée sur la syndication de contenu Web avec Spip. [En ligne : http://adjatan.org/publications/article/veille-d-information-documentaire-basee-sur-la] Consulté le 19-10-14

Vos commentaires