Tout trouver avec SharePoint Enterprise Search
Vue d'ensemble:
Architecture d'une solution de recherche de contenu d'entreprise
Indexation et interrogation des données de l'entreprise
Données métier et connaissance des utilisateurs
Vous vous passez probablement beaucoup de temps à vous inquiéter à propos de facteurs tels que la durée d'exécution et la disponibilité des serveurs, les mises à jour de logiciel et la sécurité. Mais même si votre infrastructure fonctionne parfaitement, c'est à dire chaque application et
fichier sur l'ensemble du réseau, vos utilisateurs n'en perdent peut-être pas moins de la productivité. Bien sûr, toutes les données dont ils ont besoin sont disponibles, mais combien de temps leur faut-il pour y accéder ?
Il a beaucoup été fait pour aider les utilisateurs souffrant d'un excès d'informations. Les outils de recherche de bureau facilitent la recherche d'informations dissimulées parmi toutes les autres données stockées sur votre système. (Voir mon article d'août 2006 « Find Anything with Windows Desktop Search » (Tout trouver grâce à Windows Desktop Search. Mais qu'en est-il de toutes les données contenues sur les portails, stockées dans les partages, emprisonnées dans les applications professionnelles, ou tout simplement présentes dans la tête des employés et nulle part ailleurs ? Ces informations sont vitales à vos utilisateurs. Ils en ont besoin pour effectuer leur travail, et vite, pour prendre des décisions rapides en tout connaissance de cause. Mais songez au temps qu'il faut à ces utilisateurs pour rechercher et assembler des données disséminées à travers le réseau. Songez maintenant à l'impact potentiel de ce temps de recherche sur les performances de votre entreprise.
Vous devez réduire le temps que consacrent vos utilisateurs à traquer les informations stockées à travers l'entreprise. Comment ? Tout simplement, en utilisant un moteur disposant de fonctionnalités de recherche de contenu à l'échelle de l'entreprise.
Ce système est capable de rechercher des informations stockées presque n'importe où dans votre organisation. Qu'il s'agisse de rechercher une information stockée sur le bureau, logée sur un site intranet, enfermée dans une application métier ou dans la tête d'un employé, un outil de recherche de contenu d'entreprise peut aider. (Pas d'inquiétude, il ne sera pas question ici d'implantation de puce électronique dans la tête de vos employés !)
Une solution de recherche de contenu d'entreprise combine recherche de bureau et fonctionnalités de recherche rapide dans l'intranet. Enfin, un outil de recherche de contenu d'entreprise doit pouvoir effectuer des recherches fédérées, c'est-à-dire capables d'accéder à plusieurs sources de données à partir d'une seule requête. L'utilisateur dispose d'une interface unique pour entrer sa requête. Toutefois, derrière cette interface, la requête est envoyée à différents moteurs de recherche, puis les résultats sont affichés dans une vue agrégée.
Dans cet article, je vais montrer en quoi Microsoft® Office SharePoint® Server 2007 (MOSS 2007), la nouvelle génération de solutions Microsoft SharePoint, offre un moteur de recherche puissant qui vous aidera à vous frayer un chemin parmi les silos d'information de votre organisation. MOSS 2007 offre de nombreuses améliorations par rapport aux versions précédentes, des composants entièrement redéveloppés, ainsi que des fonctionnalités inédites. Je vais présenter ici certains de ces composants clés, tels que l'indexation, la propagation, la pertinence et les sources de contenu, en précisant comment ils vous permettront de fournir des fonctions de recherche plus efficaces à vos utilisateurs.
Rechercher des contenus d'entreprise avec SharePoint
La recherche de contenu d'entreprise sera proposée sous quatre versions qui se distinguent pas les différences clés suivantes : Microsoft Office SharePoint Server 2007 for Search (Standard Edition), Microsoft Office SharePoint Server 2007 for Search (Enterprise Edition), Microsoft Office SharePoint Server 2007 Standard et Microsoft Office SharePoint Server 2007 Enterprise.
La différence principale entre les deux éditions Search et les éditions complètes SharePoint Server réside dans le fait que les deux éditions Search n'incluent pas la fonctionnalité de recherche de personnes (qui comprend également l'intégration à Knowledge Network for MOSS 2007), le catalogue de données métier ou le centre de recherche amélioré, avec ses onglets personnalisables. La figure 1 illustre les différences clés.
L'interface graphique offre plusieurs nouvelles fonctionnalités, notamment « Voulez-vous dire ? ». Cette fonctionnalité très utile sur les moteurs de recherche Internet vous permet de confirmer l'objet de votre recherche en cas d'ambiguïté orthographique (voir figure 2). L'interface dispose également de fonctionnalités de mise en surbrillance des résultats et de prise en charge des « meilleures probabilités ». Mais nous n'en sommes encore qu'à gratter la surface des nouvelles capacités de recherche.
Figure 2 Nouvelle fonctionnalité « Voulez-vous dire... » Fonctionnalité dans les recherches SharePoint
Accéder aux connaissances des personnes
L'une des nouvelles options les plus intéressantes réside dans la possibilité de rechercher des personnes possédant des connaissances ou des compétences particulières. Cela permet aux utilisateurs de puiser dans la somme de connaissances accumulées par les employés de l'entreprise - une étape importante dans le débroussaillage des silos.
Pour ce faire, l'indexation et la recherche peuvent être effectuées sur n'importe quel répertoire LDAP (Lightweight Directory Access Protocol), y compris les listes de distribution Active Directory® et les groupes d'utilisateurs SharePoint. En réalité, MOSS ne recherche pas directement dans les annuaires LDAP ; pour permettre la recherche des personnes, les informations LDAP doivent être importées dans MOSS. (Les recherches peuvent également être menées sur l'ensemble de l'infrastructure de l'entreprise).
Les résultats des recherches peuvent être groupés par « distance sociale » des individus, c'est-à-dire la distance entre le poste d'un utilisateur (un assistant commercial n'appellera probablement pas directement le directeur financier de l'entreprise) et les intérêts communs. La figure 3 illustre les résultats d'une recherche de personnes.
Figure 3 Recherche de collègues possédant des connaissances pertinentes
Recherche de données d'entreprise
SharePoint peut également indexer différents types de données d'entreprise, notamment les applications métier (telles que les applications RH, CRM, de notes de frais, etc.). Ces types de données sont traditionnellement difficiles d'accès en dehors de l'interface normale de l'application métier, ce qui ne facilite pas leur consultation ou leur utilisation par la majorité des employés.
Désormais, MOSS est capable d'extraire des données de n'importe quelle application métier, telle qu'une base de données relationnelle ou Lotus Notes, accessible par l'intermédiaire de services Web ou ADO.NET. La particularité de ce système est qu'il ne nécessite pas de code personnalisé. Grâce à la fonction Business Data Catalog (Catalogue des données métier), Il est aussi facile d'obtenir les données d'entreprise que d'accéder à n'importe quel document ou site Web. L'option (Business Data Catalog) peut être simplement intégrée à la gestion de propriété et aux zones de recherche personnalisées du Centre de recherche.
Indice de pertinence
Bien sûr, quel que soit le nombre de nouvelles fonctionnalités, celles-ci n'auraient pas beaucoup d'intérêt si elles ne produisaient pas des résultats précis. Heureusement, MOSS a fait l'objet d'améliorations spectaculaires en termes de pertinence. Toutefois, avant d'aborder ces améliorations, il est important de souligner que la pertinence des recherches en entreprise n'est pas comparable à celle des recherches sur Internet.
Peut-être vous demandez-vous pourquoi les recherches en intranet ne reposent pas sur les mêmes outils (et la même précision) que les recherches Internet. En deux mots, il s'agit d'environnements très différents, présentant des besoins et des spécifications très différentes. Ces différences peuvent être groupées en trois catégories principales : sécurité, structure et hiérarchie.
L'aspect sécurité concerne la nature d'Internet par opposition à celle de l'entreprise. Sur Internet, les données sont communément accessibles de manière anonyme, l'indexation et les recherches ne nécessitant aucune authentification ou limitation de sécurité. L'environnement de l'entreprise, en revanche, doit se conformer à un modèle de sécurité strict, notamment en matière de filtrage des résultats par rapport aux droits de l'utilisateur qui effectue la recherche.
L'impact de la structure est lié à la densité. Le réseau Internet est extrêmement riche et profond, chaque site étant lié à d'autres pour augmenter son contenu. Dans l'entreprise, les liens sont généralement utilisés pour la navigation, et la structure beaucoup moins dense.
Le facteur hiérarchie du site n'est que vaguement lié à la structure des liens. Sur Internet, il n'existe généralement aucune hiérarchie entre les sites, et très peu de sites de haut niveau. En revanche, les intranets d'entreprise suivent normalement d'un plan précis et sont hiérarchiques par nature. Même lorsqu'une entreprise possède plusieurs niveaux racines, il n'existe généralement qu'un seul portail pour l'organisation.
Ces différences fondamentales modifient la façon dont une solution de recherche de contenu d'entreprise indexe les données et renvoie les résultats. MOSS 2007 vise à mieux répondre aux différents besoins de l'entreprise. Il contient un nouveau moteur de classement, développé à l'aide d'une technologie existante combinée à des travaux réalisés par Microsoft Research et l'équipe MSN®. La pertinence des résultats a été améliorée par la création d'une série d'algorithmes de pertinence, qui rassemblent des informations internes et externes sur les documents et les données métier analysés. Lorsque des données d'entreprise sont indexées, plus de 200 types de document sont analysés et les algorithmes sont appliqués pour détecter la langue, extraire les métadonnées et procéder à une analyse du texte. Ces nouveaux algorithmes, qui sont spécifiquement ajustés en fonction des particularités des données d'entreprise et des applications métier, améliorent grandement la précision des résultats.
Les calculs de pertinence incluent plusieurs balises de métadonnées. Vous trouverez ci-dessous certains des éléments pris en compte :
Distance de clic – Distance de navigation depuis les sites autorisés (les distances les plus courtes sont souvent plus pertinentes).
Texte d'ancrage – Les liens hypertexte servent d'annotations concernant leur cible. De plus, ils ont tendance à être extrêmement descriptifs.
Profondeur d'URL – Les URL les plus élevées dans la hiérarchie sont souvent plus pertinentes.
Correspondance d'URL – Correspondances exactes du texte des URL.
Extraction des métadonnées – Extraction automatique du titre et de l'auteur du texte des documents s'ils sont manquants.
Détection automatique de la langue – Permet de créer une préférence pour les résultats dans votre langue.
Préférence de type de fichier – Certains types de fichier ont tendance à être plus pertinents (par exemple, les fichiers PPT sont souvent plus pertinents que les fichiers XLS).
Analyse de texte – Classement de texte traditionnel basé sur des facteurs tels que la correspondance des termes, la fréquence des termes et les variantes des mots.
Comment fonctionne l'indexation ?
MOSS 2007 a réalisé d'importants progrès en matière d'indexation et de gestion des contenus. Tout d'abord, vous pouvez spécifier si les sources de contenu sont des serveurs SharePoint, des sites Web, des partages de fichiers, des dossiers publics Exchange, des bases de données Lotus Notes ou des applications métier. L'approche globale de l'administration de l'indexation a été simplifiée, vous permettant de choisir librement ce que vous souhaitez indexer, comment et à quel moment, parmi plusieurs sources de contenu. Cette fonctionnalité est gérée par l'intermédiaire de règles de navigation, qui vous permettent de spécifier les chemins à inclure ou exclure. Vous pouvez même configurer la façon dont le robot suit les liens de l'URL. Un journal intégré vous permet de connaître le nombre de sites analysés et la manière dont laquelle ils ont été indexés.
L'index utilise la même technologie d'index que celle utilisée dans Windows® Desktop Search. Deux composants principaux forment l'index : un index de contenu et une banque de propriétés. Cette méthode de traitement des données est extrêmement efficace. L'index de contenu comprend le texte contenu dans les fichiers, ainsi qu'un index inversé associé des mots qui figurent dans votre index d'entreprise. La base de données qui stocke les propriétés est essentielle au traitement des résultats. Cette base de données contient toutes les propriétés de métadonnées supplémentaires (auteur, date de création, type de document, etc.) de tous les documents présents dans la mémoire. Structurellement, la mémoire des propriétés se compose d'un tableau de propriétés et de leurs valeurs. Chaque ligne du tableau correspond à un document séparé dans l'index de texte intégral. La mémoire des propriétés assure et applique la sécurité au niveau du document collectée lors de l'indexation d'un document.
Le processus d'indexation et de stockage démarre au niveau du moteur d'indexation, qui est chargé d'analyser la source de contenu. Le moteur commence son analyse après avoir vérifié qu'il dispose d'un gestionnaire de protocole approprié pour lire les sources de contenu. Une fois le gestionnaire de protocole approprié pour la source de contenu chargé, le gestionnaire de protocole et les IFilters nécessaires extraient et filtrent les éléments de la source de contenu. Un IFilter est un complément qui permet au moteur d'index d'ouvrir, de lire et d'indexer le contenu de nouveaux types de fichiers qu'il ne pourrait pas entièrement indexer sans cela. Les IFilters extraient le texte et les métadonnées de chaque document et retransmettent ensuite le flux au moteur d'index.
Les propriétés du document sont ensuite enregistrées dans la mémoire des propriétés, et le texte du document à proprement parler est placé dans l'index de contenu. Mais juste avant cela, le moteur d'index supprime les mots « parasites ». Le moteur traite également les informations à l'aide de séparateurs de mots et d'outils de conjugaison afin de simplifier les données, et de permettre une meilleure exécution des requêtes. (Les séparateurs de mots décomposent le texte en mots et en phrases. Les outils de conjugaison génèrent les formes désinentielles d'un mot donné).
Le moteur d'index utilise la méthode de propagation continue, qui permet la génération quasi immédiate de l'index. Avec la propagation continue, l'index est généré à mesure que le processus d'analyse traite les sources de contenu. Cette amélioration permet l'obtention de résultats quasi immédiats, un progrès de taille par rapport à SharePoint Portal Server 2003, où l'analyse de contenus volumineux pouvait prendre plusieurs jours et où l'index n'était propagé qu'à l'issue de l'analyse.
Comment fonctionne l'interrogation par requêtes ?
Lorsqu'un utilisateur entre une requête ou qu'une application personnalisée appelle l'index, le moteur de requête commence à traiter la requête. Il passe d'abord la requête dans un séparateur de mots spécifique à la langue. Si la langue n'est pas identifiée, un séparateur de mots neutre peut être employé. Une fois la requête décomposée, le moteur transfère l'information à un outil de conjugaison (si la conjugaison est activée) pour un traitement supplémentaire. Ce processus en deux étapes améliore la pertinence et l'efficacité des résultats renvoyés par la requête.
Si la requête spécifie des informations de propriété, le système vérifie si l'index contient des correspondances avec des documents de la mémoire des propriétés, puis vérifie à nouveau les propriétés de la requête afin de garantir la correspondance. Le moteur de requête assure un niveau de filtrage supplémentaire afin de supprimer les résultats auquel l'utilisateur n'a pas l'autorisation d'accéder. Les résultats correspondants sont retournés sous forme de liste, triée par pertinence. La figure 4 illustre le fonctionnement conjoint de tous les composants d'indexation et d'interrogation.
Figure 4 Architecture de l'environnement de recherche de contenu d'entreprise MOSS 2007
Gestion améliorée
Les administrateurs découvriront un environnement de recherche plus facile à gérer. Un ensemble amélioré d'outils communs pour les utilisateurs finaux et les administrateurs permet de réduire la complexité introduite par les différents points de connexion à la plate-forme. Et le moteur de recherche bénéficie pleinement du nouveau modèle de gestion de MOSS 2007. (La figure 5 présente la page de modification des paramètres de recherche principale).
Figure 5 Configuration des paramètres de recherche (Cliquer sur l'image pour la réduire)
Figure 5 Configuration des paramètres de recherche (Cliquer sur l'image pour l'agrandir)
Les zones de recherche, qui vous permettent de contrôler les différentes fonctionnalités de recherche, ont également été améliorées. Les zones de recherche facilitent vos recherches au sein d'une source de contenu, en vous permettant essentiellement de travailler sur des tronçons plus petits de l'index. Dans SharePoint Portal Server 2003, les zones de recherche sont connectées aux sources de contenu, ce qui les rend moins flexibles et moins faciles à gérer. Dans MOSS 2007, les zones de recherche sont distinctes des sources de contenu, et vous offrent plus de flexibilité. Vous pouvez définir des zones de recherche en fonction de propriétés de contenu arbitraires telles que l'URL, le type ou l'auteur. Vous pouvez même combiner des zones de recherche de façon à jouer avec plusieurs règles, par exemple, tous les documents techniques d'un auteur spécifique.
Bien sûr, si un administrateur veut améliorer la performance du moteur de recherche, l'une des choses les plus importantes à faire est de comprendre l'usage actuel de l'index. L'une des additions les plus remarquables au jeu d'outils d'administration est le rapport de requête. La fonctionnalité de rapport de requête disponible dès l'installation vous permet de trouver rapidement des informations sur les tendances en matière de volumes de requêtes, les requêtes les plus fréquentes, les taux de clic publicitaire, les requêtes ne produisant aucun résultat, et ainsi de suite. Le rapport de requête peut fournir des détails aux niveaux du site et du fournisseur de services principal. La figure 6 présente un exemple de rapport. Vous pouvez exporter les informations vers Microsoft Excel® pour approfondir l'analyse.
Figure 6 Rapport de requête de MOSS 2007
Comme mentionné précédemment, le moteur de requête filtre les résultats de sorte que la liste présentée à l'utilisateur ne contienne que les documents qu'il est autorisé à consulter. (Dans SharePoint Portal Server 2003, l'utilisateur se voit proposer des liens vers des informations auxquelles il peut ne pas avoir le droit d'accéder). Attention : MOSS 2007 n'assure pas la limitation de sécurité sur les analyses Web. Vous ne pouvez pas limiter pour sécurité les sites Web car le protocole HTTP n'a pas la possibilité de lire en retour les informations de contrôle d'accès. De plus, MOSS 2007 ne vous permet pas de limiter les recherches dans le catalogue de données métier ou les recherches de personnes pour des raisons de sécurité.
MOSS 2007 respecte les listes de contrôle d'accès (ACL) existantes, garantissant la sécurité des documents dans l'index. Il s'agit d'un facteur de distinction important par rapport aux autres outils de recherche. Contrairement à d'autres moteurs de recherche qui exigent l'utilisation d'un fichier de configuration pour définir manuellement les autorisations sur les fichiers, MOSS 2007 vous permet de rester synchro avec les autorisations actuelles.
L'index peut refléter rapidement les modifications apportées à l'ACL d'un document unique. Disons par exemple qu'une feuille de calcul Excel est actuellement enregistrée dans l'index et que l'ACL du document est modifié en restrictif. Un administrateur peut réindexer et analyser ce seul document et le découpage de sécurité se produire immédiatement (et, si nécessaire, le document être entièrement supprimé de l'index).
De plus, chaque document peut se voir attribuer des autorisations uniques ou être défini de manière à hériter des paramètres de sécurité d'une bibliothèque de documents ou d'une bibliothèque parente. Cela simplifie considérablement le processus de sélection des groupes ou des individus autorisés à afficher, modifier ou enregistrer les documents.
Des améliorations ont également été apportées à la gestion de l'authentification et de l'ouverture de session. Le cache sécurisé des informations d'identification est désormais extensible, ce qui permet à MOSS d'accepter les systèmes de mise en cache d'informations d'identification à authentification unique provenant de tiers et les modules complémentaires à codage personnalisé. Par ailleurs, l'authentification centrale peut désormais accepter les systèmes tiers. Ces deux améliorations reposent sur le nouveau modèle de fournisseur ASP.NET, qui autorise l'utilisation d'autres services d'annuaire.
Personnalisation
Dans MOSS 2007, vous disposez de plusieurs options de modification de l'interface utilisateur. L'interface graphique peut être personnalisée avec nombre des outils que vous utilisez déjà pour modifier les sites Web. Il existe également de nouveaux outils, comme Office SharePoint Designer qui aide à la création de pages maîtres (et offre une manière simple de construire un site personnalisé). La figure 7 illustre une page de résultats de recherche en cours de modification.
Figure 7 Personnalisation de l'apparence d'une page de résultats de recherche
MOSS 2007 propose deux onglets disponibles dès l'installation pour l'interface du Centre de recherche : Tous les sites et Personnes. Il vous suffit ensuite d'ajouter des onglets en fonction des différents types d'informations les plus fréquemment recherchées par vos utilisateurs. Vous pouvez par exemple fournir une entrée directe dans n'importe laquelle de vos applications d'entreprise, bases de données ou même services d'annuaire. Vous pouvez même mettre ces onglets en corrélation avec des zones de recherche. C'est un moyen pratique pour créer des onglets de recherche contextualisés sur des contenus spécifiques. Notez que les éditions MOSS 2007 for Search ne permettent pas cette personnalisation des onglets de recherche.
Conclusion
Comme vous l'avez vu, MOSS 2007 propose des améliorations tout à fait intéressantes en matière de recherche de contenu d'entreprise, qui permettent à vos utilisateurs de gagner en efficacité et en productivité. Pour plus d'information, consultez Microsoft Office SharePoint Server TechCenter.
--------------------------------------------------------------------------------
Matt Hester est présentateur TechNet au sein de l'équipe Microsoft Across America. Pour suivre une de ses présentations en direct, rendez-vous sur www.technetevents.com/mhester. Consultez son blog à l'adresse blogs.technet.com/matthewms.
Cette page a été modifiée pour la dernière fois le vendredi, janvier 12, 2007 15:59:36