Importer des données
Dans cette rubrique se trouvent toutes les procédures nécessaires à l'importation des données vers le mésocentre, que ce soit de façon indirecte via le serveur tampon, ou de façon directe, via iRODS, vers le mésocentre. Dans tous les cas, vous devrez conclure l'importation en important les métadonnées associées au jeu de données via l'outil spécifique "OMERO Quay Import UI", par fichier XLSX.
Note
La page references résume les différentes adresses et liens utiles, ainsi qu'une série de modèles excel.
PLAN d'import
1.1 Connexion au serveur FTP
1.2 Organisation du jeu de données
1.3 Import le tampon
1.4 Préparation du fichier Excel
1.5 Import vers OMERO Importer
1.6 Annotation du jeu de données
1.7 Nettoyage des espaces de stockage Effacement des jeux de données sur le microscope (après l'import sur le tampon) Effacement des jeux de données sur le serveur tampon (FTP) (après l'import dans OMERO)
1. Import vers tampon par client FTP
Pour l'import vous devez utiliser un client FTP de type FileZilla (ou cyberduck etc.. ) FileZilla est un logiciel client permettant d'interagir avec les serveurs sous protocoles SSH ou FTP. Ce logiciel est disponible sous Windows, Linux et même Mac. Si vous avez déjà eu à utiliser un serveur NAS au sein de votre labo, vous devriez connaître ce logiciel.
1.1 Connexion au server tampon par FTP
Les consignes d'installation se trouvent à cette adresse
Au démarrage de FileZilla, la fenêtre principale s'affiche:

Commencez par entrer vos identifiants dans la barre de connexion rapide (sous la barre d'outils supérieure):
- Hôte: 172.18.253.32 (pour Nantes); 10.5.0.18 (pour Montpellier)
- Nom d'utilisateur: votre login Omero
- Mot de passe: votre mot de passe Omero
- Port: à laisser vide. Correspond au port standard utilisé pour le protocole de transfert utilisé (FTP dans le cas présent)
Puis cliquez sur "Connexion rapide". La progression s'affichera dans la zone de communication de FileZilla, puis vous aurez enfin accès à votre espace tampon:

Il est possible que vous ayez une alerte de type "certificat inconnu", cliquez sur OK (après avoir brièvement contrôlé les informations).
Si vous le souhaitez, vous pouvez créer un accès rapide en cliquant sur "Fichier", puis "Gestionnaire de sites":

Cliquez sur "Nouveau site" pour ajouter un nouvel accès:

Vous pouvez modifier le type d'authentification de manière à demander le mot de passe à chaque connexion ou enregistrer votre mot de passe une fois pour toute (type d'authentification "Normal") Entrez les paramètres cités plus haut dans les champs correspondants, puis enregistrez la configuration en cliquant sur "Valider". Vous pourrez réutiliser la connexion enregistrée en cliquant sur "Fichier", "Gestionnaire de sites", sélectionnez la connexion, puis cliquez sur "Connexion".
1.2 Organisation du jeu de données sur le serveur tampon
L'organisation des données doit être effectué sur le serveur tampon (via FTP)
Vous devez créer une investigation + Study sur le serveur tampon (via FTP)
Note sur le jeu de donn&es
Le jeu de données décrit ci-dessous et dans les sections suivantes est un jeu de données standardisé au niveau des métadonnées, et a été récupéré sur le site de l'EBI, à cette page-ci. Libre à vous d'y jeter un oeil pour vous donner une idée des métadonnées nécessaires pour que le jeu de données soit publiable. A terme, ces métadonnées seront exigées. Ne les négligez pas.
Déposez les images dans une hiérarchie de répertoires "Nom_investigation/Nom_etude/Nom_dataset" sur le serveur tampon. Vous devrez créer vous même la hiérarchie:

Il n'est pas nécessaire de déposer le fichier de métadonnées Excel. Vous pouvez toutefois le faire si cela vous aide.
Voici des exemples de titres:
- Titre du projet (Investigation): "S-BIAD564 - In vivo SPIM and confocal imaging of neuronal efferocytosis by microglia"
- Titre de l'étude (Study): "Centrin4-overexpression"
- Titres des jeux de données: "AK008", "km215", "km218", "km227"

Voici l'exemple de fichier Excel associé ici
1.3 Envoi des données vers le tampon
La zone de traitement de données de FileZilla comprend 2 régions principales, celle de gauche et celle de droite.

-
La zone de gauche correspond au répertoire courant de votre disque dur sur lequel est connecté FileZilla. Par défaut, il s'agit souvent de votre répertoire personnel utilisateur (quel que soit votre système d'exploitation). Elle est elle-même divisée en 2 zones: la zone supérieure, correspondant à votre répertoire courant proprement dit, et la zone inférieure, correspondant au contenu du répertoire que vous avez sélectionné dans votre zone supérieure.
-
La zone de droite fonctionne sur le même principe, mais côté serveur distant.
Pour importer des données vers le serveur, vous devrez sélectionner le répertoire à importer en navigant dans votre disque dur par l'intermédiaire de la zone de gauche, éventuellement sélectionner le répertoire cible côté serveur (de la même façon), effectuez un clic droit sur l'élément (fichier ou répertoire) puis cliquez sur "Téléverser" pour envoyer les données.
1.4 Préparation du fichier excel
Les directives de remplissage du fichier Excel se trouvent dans la rubrique 'Prérequis à connaître avant importation des données'
1.5. Import du jeu de données du tampon vers le mésocentre (dans OMERO/iRODS)
Un outil spécifique accessible sur OMERO permet de lancer le processus.
Sur votre espace OMERO, pour y accéder, cliquez sur la petite icône de la barre d'outils supérieure intitulée "OMERO Quay Import UI". La page suivante s'ouvre dans un autre onglet: (TODO Capture écran)

Tout d'abord, sélectionnez le fichier Excel contenant les métadonnées que vous souhaitez associer à votre jeu de données en cliquant sur "Sélectionnez un fichier XLSX".
Cliquez ensuite sur "Importer les données" pour envoyer le fichier Excel vers le mésocentre.
Les métadonnées seront prises en charge par l'installation d'OMERO-quay située sur le mésocentre et dispatchées vers les données correspondantes. Avant d'uploader le fichier, assurez-vous que les chemins contenus dans le fichier correspondent aux chemins correspondant à vos données sur le tampon de l'établissement d'acquisition des données.
Si vous souhaitez ajouter des éléments dans un de vos répertoires sur OMERO, réinitiez une procédure d'importation, avec un fichier Excel vide. Ne réutilisez pas votre fichier Excel (risque de réimportation de données existantes si celles-ci sont encore présentes sur le tampon, avec possible saturation de la bande passante du serveur)
1.6. Annotation spécifique des images des jeux de données
Le standard REMBI ne prévoit pas à priori l'annotation des images. Toutefois, vous voudrez dans certaines circonstances faire de l'annotation spécifique des images des jeux de données (par exemple, pour du comptage d'éléments, ou pour donner plus de précisions sur l'élément coloré pour chaque canal... la liste des possibilités est longue).
Pour cela, il est possible d'utiliser la fonction "Keys/Values" de OMERO, mais annoter chaque image individuellement risque d'être... problématique. Le plus judicieux est dans ce cas d'avoir recours à un fichier d'annotations au format CSV (Comma Separated Values). Nous prendrons encore une fois l'exemple du jeu de données S-BIAD564, abordé plus haut et dans la section précédente: un fichier TSV de ce type y est associé. Dans le cas présent, il s'agit d'un fichier TSV (Tabulation Separated Values). Son fonctionnement est identique à celui d'un fichier CSV, seul le séparateur change. Libre à vous de jeter un oeil à son contenu pour connaître quelles sont les données que vous pourriez y mettre, et surtout de noter quelles sont celles qui pourraient vous simplifier la vie lorsque vous devrez retrouver et réutiliser vos données, à des fins de publication, par exemple.
Pour importer le contenu de tels fichiers vers votre jeu de données, OMERO propose un script d'importation associé ("KeyVal from CSV"), faisant partie de la collection "OMERO Bulk Annotations Tools" (OBAT), dont le fonctionnement a déjà été décrit dans cette page du blog.
Il est à noter que ce script prend des fichiers CSV (avec une virgule comme séparateur, donc). Par conséquent, assurez-vous de sélectionner le bon séparateur, quand vous enregistrerez votre fichier au format CSV (à l'aide de la commande "Enregistrer sous" sur Excel ou LibreOffice).
Dernier point, un fichier CSV/TSV est un fichier texte, donc techniquement lisible sur un éditeur de texte simple. Il n'a constitutivement rien à voir avec un fichier XLSX. Même si la tentation est grande, n'utilisez pas de fichier sauvegardé au format XLSX pour importer des métadonnées associées aux images à l'aide des scripts OBAT, ça ne marchera pas.