SharePoint et les PDF

Une des premières actions d’un déploiement SharePoint pour une utilisation GED est de configurer le support des documents PDF. Et en particulier l’indexation de leur contenu par le moteur de recherche de SharePoint Server 2007.

De nombreux billets traitent du support des PDF dans MOSS. Mais rédigés à des versions plus ou moins récentes et pour des architectures plus ou moins 64 bits, aucun billet ne correspondait à mes environnements projets, à savoir Windows Server 2008 64 bits + MOSS 2007 + Acrobat Reader 9 (qui inclus l’iFilter qui va bien).

Voici donc un post-it de mon déploiement :

MOSS et le support PDF

1 - Autoriser les PDF dans les bibliothèques de documents

Commençons par autoriser les PDF dans les bibliothèques (c’est déjà le cas par défaut, mais on ne sait jamais).

  • Dans l’Administration centrale > onglet OpérationsTypes de fichiers bloqués
  • Supprimer la ligne pdf dans la liste puis OK pour chacune des applications Web concernées

La prise d’effet est immédiate sans action supplémentaire.

2 - Mettre un -joli- logo sur les documents PDF

  • Télécharger le logo au format 17*17 sur la page dédiée dans le dossier ~12\TEMPLATE\IMAGES
  • Pour la forme, renommer le fichier en pdf.gif
  • Ouvrir le fichier ~12\TEMPLATE\XML\DOCICON.XML
  • Y ajouter la ligne <Mapping Key=”pdf Value=”pdf.gif /> dans le conteneur <ByExtension/>
  • Recycler le pool d’application IIS
    • Gestionnaire des services Internet (IIS) > {NOM DU SERVEUR} > Pools d’applications)
    • Puis clic droit sur le pool concerné et Recycler …

L’icône devrait être visible immédiatement dans bibliothèques :

bibliotheque-avec-pdf

3 - Installer les binaires nécessaires à MSSearch pour lire les PDF

Il suffit de télécharger et d’installer Acrobat Reader (http://get.adobe.com/fr/reader/otherversions/).
Version 9.1 pour Windows Server 2008 au moment de ce tutoriel.

4 - Indiquer à MOSS où aller chercher les binaires pour les PDF

  • Ouvrir la base de registre (Démarrer > Exécuter… > taper regedit puis OK) et localiser la clé suivante :

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf

  • Modifier sa valeur par {E8978DA6-047F-4E3D-9C78-CDBE46041603}
  • Idem avec la clé :

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web ServerExtensions\12.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf

  • Localiser ensuite :

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Applications\{GUID aléatoire}\Gather\Search\Extensions\ExtensionList

  • Y créer une “clé chaîne” avec un nom qui n’existe pas encore (38 sur une version fraîchement installée) et de valeur pdf
  • Pour que l’indexeur puisse retrouver les DLL nécéssaires quand il en aura besoin, modifier la variable d’environnement “path” pour y ajouter le répertoire d’Acrobat.
  • Pour modifier une variable d’environnement sur Windows : Panneau de configuration > Système > Paramètres systèmes avancés > Variables d’environnement
  • Choisir path et y ajouter un “;” et “C:\Program Files (x86)\Adobe\Reader 9.0\Reader”.

5 - Indiquer à l’indexeur que les PDF sont des fichiers qu’il sait lire

  • Dans l’interface d’administration du fournisseur de services partagés, se rendre sur Paramètres de recherche > Types de fichiers
  • Puis Nouveau type de fichier
  • Saisir pdf puis OK

6 - On relance les services et on réindexe

  • Dans un terminal :

net stop osearch

net start osearch

  • Puis dans l’interface d’administration du fournisseur de services partagés
  • Se rendre sur Paramètres de recherche et Sources de contenu et planifications d’analyse
  • Pour chaque source contenu relancer une Analyse complète via le menu déroulant de chaque entrée

Pourquoi une analyse complète ?

L’indexeur se base sur la date de modification du fichier/page pour savoir s’il doit ré-indexer un fichier qu’il connaît déjà.

Dans le cas de l’ajout d’un iFilter prennant en charge le contenu d’un type de fichier qui était déjà connu de l’index, seul le contenu des fichiers modifiés depuis la dernière indexation seront pris en compte. Le plus simple est donc de relancer une indexation complète.

Et voilà …

En espérant que ce pense-bête vous sera aussi utile qu’à moi lors de vos prochains déploiements de SharePoint as GED.

Inspiré, entre autre, de The Mit et Harold Van Kamp.

Articles relatifs

2 Responses to “SharePoint et les PDF”

  1. Bonjour Damien!
    Merci pour cette info, c’est bien utile en effet.
    On est en plein dedans.
    les usagers sont heureux, que demander de mieux ?
    Nathalie

    Répondre

  2. Merci et grand merci pour ton tuto !!

    Very useful !! ;)

    Répondre

Leave a Reply