Métadonnées

Cet onglet est l’endroit où l’on va définir des zones d’extraction qui permettront de récupérer automatiquement les informations des documents à traiter sous forme de métadonnées.

Les zones extraites depuis le document seront archivées avec le document dans le cloud Ededoc et/ou seront également exportables via le paramétrage de l’onglet “Export”.

Ces métadonnées seront également utilisées pour la création des conditions dans les différents onglets ainsi que pour le paramétrage des workflow.

Les métadonnées peuvent être extraites du document selon des zones définies, mais le document peut également être enrichi de données provenant d’une source externe.

Il est important que le document chargé dans cet onglet soit identique à ceux qui seront traités ultérieurement par cette configuration.

 

  • Découpage du flux d’impression: Permet de définir une stratégie de découpe des documents du pdf. En effet, il est possible d’envoyer à l’imprimante virtuelle Ededoc un seul fichier pdf contenant à l’intérieur plusieurs documents à découper puis traiter individuellement.

    • Un document par flux: L’envoi d’un fichier pdf dans l’imprimante virtuelle sera traité comme un document unique

    • Un document par X pages: Découpe le fichier selon un calepinage régulier des pages.
      Exemple: Découpe du document toutes les 3 pages.

    • Un document par métadonnée: Découpe du fichier selon une métadonnée définie sur le document. La découpe aura lieu à chaque changement de la valeur de la métadonnée.
      Exemple: Découpe à chaque changement de numéro de facture induite par la métadonnée “NumFacture”

 

  • Options:

    • Mode d’extraction du texte: choix entre 3 types de lecture des informations du fichier pdf. L’extraction par ”OCR” et “Mots” permettra de récupérer des informations de manière plus précise et fine car les zones seront reconnues “au mot”
      A contrario, l’extraction par “Blocs” permettra une extraction plus globale des zones sans avoir à définir une zone trop précise.

  • Extraire les pages à partir du fichier source pour découpage: A cocher si les informations graphiques du fichier à traiter proviennent de ressources partagées. Cette option permet dans certains cas d’optimiser la découpe de fichiers PDF volumineux.

  • Classement: Champ obligatoire qu’il convient de définir avant de passer à la définition des métadonnées. A cet endroit, on définit le classement (ou encore classeur) de destination du document traité pour le retrouver par la suite sur le portail Web Ededoc.
    Il est possible depuis ce champ de choisir un classement existant ou bien d’en créer un nouveau.

    • La notion de Modèle : Lors de la création d’un nouveau classement, il est possible de sélectionner un modèle de métadonnées prédéfinies.

Le bouton actualiser permet de mettre à jour le classement si des modifications ont été apportées à ce dernier depuis le portail Web Ededoc. Attention cependant, toute modification relative aux métadonnées depuis le portail Ededoc peut avoir des conséquences sur les champs et la configuration…

 

  • Définition des métadonnées sur le document via la visionneuse:

    • Ouvrir à partir du cloud: permet de récupérer un modèle déjà chargé dans une configuration. Pour en télécharger un nouveau depuis le poste local, cliquer sur “Télécharger” et récupérer le fichier voulu.

    • Affichage pages: Les flèches permettent de naviguer sur les différentes pages du fichier téléchargé dans la visionneuse. L’affichage des pages permet de se repérer sur le document.

    • Icône afficher toutes les métadonnées: Permet d’afficher dans la visionneuse toutes les métadonnées créées sur ce modèle.

    • Icône afficher la grille: Permet d’afficher la grille de reconnaissance des données du modèle pdf et de les encadrer en pointillés. Cela facilite la définition des zones d’extraction des métadonnées.

 

  • Visionneuse du modèle pdf: Zone dans laquelle vont être définies les zones d’extraction des métadonnées.
    Pour créer une zone d’extraction, dessiner avec la souris une rectangle autour de la zone. Une fois la zone dessinée, un pop-up “editeur métadonnée” permettant le paramétrage de la zone s’affiche .
    La zone d’extraction peut être agrandie en l'étirant vers le bas et/ou vers la droite.

 

  • Editeur métadonnée:

    • Méta nom: Champ obligatoire. Il correspondant au nom que portera la métadonnées. Il peut contenir tout caractère mais il ne peut exister 2 noms de métadonnées identiques dans une même configuration.
      Les noms de métadonnées d’autres configurations peuvent être utilisés et récupérés via l’icône dossier à droite du champ.

    • Méta box: Permet d’ajuster l’endroit et la taille de la zone via des coordonnées. L’origine de la grille X-Y est en bas à gauche du modèle pdf.

    • Règles d’extraction: Permet de dire au système d’extraire la métadonnée concernée sur toutes les pages du fichier ou bien sur des pages spécifiques.
      Exemple: Si la donnée se trouve toujours sur la 1ère page, alors cocher “Etendu des pages” et écrire 1. Au contraire, si elle se trouve sur la dernière page, écrire N.

      • Mode d’extraction: Permet d’ajuster le type d’extraction à la métadonnée.

    • Validation: Permet de choisir le format de la zone.

      • Type de données: Permet de qualifier le format de la donnée extraite. elle peut être de type “Texte”, “Integer” (nombre entier), “Decimal” (pour les chiffres à virgule), “Date Time” (pour les dates). Ce choix est important car cela va impacter l’utilisation ultérieure des métadonnées dans les conditions et expressions VB.

      • Autoriser la valeur Nulle: Par défaut, toute métadonnée définie devra être trouvée lors du traitement d’un document par l’imprimante virtuelle. Si jamais le système ne trouvait pas d’information à l’emplacement de la zone d’extraction, cela mettrait le traitement en échec.
        Si la zone d’extraction peut être vide dans certains cas, il convient alors de cocher cette case.

      • Ne pas enregistrer dans le document: Signifie que la métadonnée sera extraite et utilisable mais ne sera pas visible dans le récapitulatif des métadonnées du document sur le portail web Ededoc.

    • Aperçu: Aperçu dynamique de la valeur de la métadonnée selon la zone dessinée.

    • Valeur calculée: Ce menu permet d’attribuer des stratégies de transformation de la donnée récupérée.

      • Evaluer l’expression: Permet de renvoyer une donnée modifiée selon une condition. C’est-à-dire que la donnée extraite sur le document ne sera pas celle renvoyée au final. Ce champ permet également de créer une nouvelle métadonnée en utilisant une déjà existante.
        Exemple: Il est inscrit le code “vir” sur la facture signifiant règlement par virement bancaire et on souhaite que cette zone renvoie l’expression “règlement par virement bancaire” en entier ou bien “chèque”. On va donc dans ce champ mettre IF( ${this}="vir" , "règlement par virement bancaire" , “chèque” )
        Cela signifie que si la donnée récupérée dans cette zone est “vir” alors la métadonnée renverra la valeur “règlement par virement bancaire" sinon, renverra “chèque”

      • Extraire à partir d’une source de données: Permet de renvoyer une valeur de métadonnée selon une source de données existante sur le portail web Ededoc.

        • Source de données: Liste déroulante pour sélectionner les sources déjà existantes sur le portail web Ededoc.

        • Valeur: Correspondance entre la valeur de la métadonnée et la valeur contenue dans la source.

        • Référence: Donnée de la source renvoyée si correspondance entre les 2 valeurs précédentes.

Le texte en tant que chaîne de caractères fixe devra être mis entre “guillemets”

 

  • Visionneuse valeurs des métadonnées:
    La colonne “Méta zone” renvoie le nom de la métadonnée inscrit dans le champ “Méta nom” de l'éditeur de métadonnée.
    La colonne “Valeurs” renvoie la valeur de la donnée extraite. Si une stratégie de transformation a été adoptée dans l'éditeur de métadonnée, alors l’information renvoyée ici sera la valeur finale (valeur calculée)
    Si une erreur se produit sur l’extraction de la métadonnée, le type d’erreur se trouvera dans la colonne “Erreur” et la zone d’extraction ainsi que le texte d’explication seront rouges.

 

Aperçu de l’onglet Métadonnées: