GENCI-Neowise Usage: Difference between revisions

From Grid5000
Jump to navigation Jump to search
Line 21: Line 21:
https://www.grid5000.fr/w/Special:G5KRequestAccountUMS
https://www.grid5000.fr/w/Special:G5KRequestAccountUMS


En plus de ses informations personnelles et professionnelles, il est nécessaire de spécifier dans le champ "Group Granting Access" le groupe "genci-neowise"  ainsi qu'une explication de l'utilisation prévue de la machine, notamment les méthodes numériques et implémentations utilisées, la justification des ressources avec le nombre et la nature de chaque type de tache.   
En plus de ses informations personnelles et professionnelles, il est nécessaire de spécifier dans le champ "Group Granting Access" le groupe "genci-neowise"  ainsi que, dans le champ "Intended Usage", une explication de l'utilisation prévue de la machine, notamment les méthodes numériques et implémentations utilisées, la justification des ressources avec le nombre et la nature de chaque type de tache.   
Ces informations seront mises à disposition de GENCI.


Le compte pourra ensuite être approuvé par un des responsables de Grid'5000 en fonction de l'adéquation des demandes avec l'infrastructure.
Le compte pourra ensuite être approuvé par un des responsables de Grid'5000 en fonction de l'adéquation des demandes avec l'infrastructure.

Revision as of 10:48, 21 June 2021

Genci.png
Inria.png


Dans le cadre du fond AMD-COVID-19 HPC qui soutient les équipes de recherche mondiales luttant contre la pandémie de COVID-19, AMD a fait un don à GENCI et Inria d'une capacité de calcul de plus d'un demi-petaflop/s (FP64), sous la forme d'un cluster complet de nœuds de calcul hybrides équipés de GPUs AMD Radeon Instinct™ MI50 et de la seconde génération de CPU AMD EPYC™.

Avec ce don, AMD souhaite accélérer les efforts déjà entrepris par GENCI et Inria contre la COVID-19. Le système AMD, est intégré dans l'infrastructure nationale GRID'5000/SILECS sur le site de l'École normale supérieure de Lyon et est accessible aux utilisateurs de la communauté scientifique française via des Accès Préparatoire.

La machine est nommée neowise et est constituée de 10 nœuds monosocket AMD EPYC de 2e génération, chacun configuré avec 8 GPUs Radeon MI50, soit 80 GPUs Radeon MI50 au total, interconnectés par un réseau HDR Infiniband.

Ces ressources sont hébergées dans l'infrastructure Grid'5000 et sont accessibles via cette plateforme (le site web www.eDARI.fr n'est pas utilisé comme pour les autres ressources de GENCI).

Une ouverture préliminaire de la machine aux utilisateurs est prévue fin juin 2021. neowise sera dans un premier temps disponible en phase de test, son fonctionnement n'étant pas entièrement qualifié.


Ouverture du compte sur Grid'5000

Les utilisateurs en provenance d'eDARI voulant accéder à la machine AMD doivent ouvrir un compte Grid'5000 en remplissant ce formulaire :

https://www.grid5000.fr/w/Special:G5KRequestAccountUMS

En plus de ses informations personnelles et professionnelles, il est nécessaire de spécifier dans le champ "Group Granting Access" le groupe "genci-neowise" ainsi que, dans le champ "Intended Usage", une explication de l'utilisation prévue de la machine, notamment les méthodes numériques et implémentations utilisées, la justification des ressources avec le nombre et la nature de chaque type de tache.

Le compte pourra ensuite être approuvé par un des responsables de Grid'5000 en fonction de l'adéquation des demandes avec l'infrastructure.

En plus des règles décrites ci-dessous, l'utilisation de neowise et de Grid'5000 nécessite de respecter les conditions générales d'utilisation. En particulier, le traitement de données sensibles au sein de Grid'5000 n'est possible qu'en suivant une utilisation spécifique de la plateforme.

Règles d'utilisation des ressources

Grid'5000 étant une plateforme pour la réalisation d'expérience, l’attribution des ressources de calcul est pensée pour favoriser les jobs de courte durée.

Les grands principes de l'utilisation des ressources sont les suivants :

  • En journée (9h à 19h), un utilisateur ne doit pas utiliser plus de l'équivalent de 2h de l'intégralité d'un cluster (le cluster entier durant de 2h, la moitié du cluster durant 4h, etc.)
  • Les nuits et les weekends, l'utilisation n'est pas limitée
  • Tous les utilisateurs ont accès à l'ensemble des ressources de Grid'5000. Il n'est pas nécessaire de faire une demande spécifique pour se voir attribuer des heures d'utilisation.

Il est tout à fait possible pour les utilisateurs de la machine AMD d'y accéder durant des périodes plus longues. Il faut simplement en faire la demande argumentée par mail.

La description complète de la politique d'utilisation est documentée sur cette page : https://www.grid5000.fr/w/Grid5000:UsagePolicy


Suite à l'utilisation

Les publications scientifiques des utilisateurs GENCI ayant bénéficié de l'utilisation de la machine neowise doivent mentionner le texte de remerciement suivant :

  • Version française : « Ces travaux ont bénéficié d’un accès aux moyens de calcul de Grid'5000 au travers de l'allocation de ressources 202X attribuée par GENCI/INRIA »
  • Version anglaise : « This work was granted access to the HPC resources of Grid'5000 under the allocation 202X made by GENCI/INRIA »

A l'issu de l'utilisation de la machine, un court compte rendu est à compléter dans le formulaire de gestion de compte de Grid'5000, en éditant le champ "Affiliation / Comment".

Les information liées à l'utilisation du cluster neowise seront mises à disposition de GENCI.


Utilisation basique de la machine

On se connecte à Grid'5000 à l'aide de SSH :

$ ssh <login>@access.grid5000.fr

Grid'5000 est distribué sur plusieurs sites indépendant. neowise étant hébergé sur le site de Lyon, il faut se connecter à la frontale de ce site depuis la machine d'accès :

access$ ssh lyon

Le job scheduler utilisé dans Grid'5000 est OAR. On peut l'utiliser de la manière suivante pour l'accès à neowise :

# Accès interactif à un noeud :
flyon$ oarsub -t exotic -q testing -p "cluster='neowise'" -I

# Soumission d'un job d'une durée maximale de 2 heures, sur 4 noeuds :
flyon$ oarsub -t exotic -q testing -p "cluster='neowise'" -l "nodes=4,walltime=2:" ./my_job


L'utilisation actuelle et prévue de la machine est visible sur son diagramme d'utilisation. Pour obtenir des informations sur les jobs, on peut également utiliser la commande oarstat (ex: oarstat -f -j <numéro_de_job>)

L’environnement logiciel dont dispose la machine est le suivant :

  • Système d'exploitation debian stable avec les logiciels usuels (GCC, OpenMPI…)
  • Logiciels additionnels disponibles sous forme de modules, ou via la gestionnaire de paquets Guix
  • Support de l’exécution de containers Singularity et Docker

L'écosystème logiciel nécessaire à l'utilisation des GPUs AMD est nommé ROCm. La documentation de ROCm fournie par AMD est disponible ici. Voici les principaux logiciels disponibles pour neowise :

  • rocm-smi : obtenir des informations sur les GPU
  • hipcc : compilateur HIP
  • hipfy-perl : conversion de code CUDA en code compilable avec hipcc
  • d'autres logiciels et bibliothèques seront bientôt disponible sous forme de module


Il est enfin fortement recommandé de lire la documentation Getting Started pour mieux comprendre le fonctionnement de Grid'5000. L'ensemble des documentations disponibles sont répertoriées sur le portail utilisateur.