Solr 1.4 accepte plus que le XML
Avec la nouvelle version du moteur de recherche open source Solr, attendu prochainement, le XML ne sera plus le seul format accepté en entrée du moteur.
01net.
le 02/11/2009 à 18h28
La version 1.4 du moteur open source Solr, de la fondation Apache, devrait sortir dans les semaines qui viennent, mais selon Damien Tournoud, directeur des activités Drupal de la web agency AF83 et utilisateur de ce moteur, « cette version est déjà robuste depuis longtemps ». Inutile d'attendre la sortie officielle pour commencer à s'y mettre...
Principale fonctionnalité ajoutée : le support de formats autres que le XML, comme le PDF, les documents Microsoft Office ou OpenOffice, etc. Les applications utilisant Solr doivent, pour l'instant, extraire les données et les métadonnées des documents et les convertir en XML avant de les fournir au moteur open source. La nouvelle version 1.4 de ce dernier utilise le projet Apache Tika pour effectuer lui-même les conversions. Il est donc inutile de fournir du XML au moteur.
L'autre évolution importante se situe au niveau des performances. Solr est basé sur le moteur Lucene, autre projet de la fondation Apache qui s'occupe de l'indexation et de la recherche. Solr fournit des fonctionnalités plus haut niveau mais bénéficie des améliorations de performance apportées à Lucene. Ce dernier vient de passer en version 2.9, et « la version 2.9.1 ne devrait pas tarder », précise Damien Tournoud.
Parmi les autres fonctionnalités, on note des changements au niveau du mécanisme recherche par facettes (classification des résultats de recherche en sous-rubriques), ainsi qu'une réimplémentation du mécanisme de gestion des accès concurrents.