GENCI-Neowise Usage: Difference between revisions

From Grid5000
Jump to navigation Jump to search
No edit summary
No edit summary
Line 4: Line 4:




Dans le cadre du fond AMD-COVID-19 HPC qui soutient les équipes de recherche mondiales luttant contre la pandémie de COVID-19, AMD a fait un don à GENCI et Inria d'une capacité de calcul de plus d'un demi-petaflop/s (FP64), sous la forme d'un cluster complet de nœuds de calcul hybrides équipés de GPUs AMD Radeon Instinct™ MI50 et de la seconde génération de CPU AMD EPYC™.
Avec ce don, AMD souhaite accélérer les efforts déjà entrepris par GENCI et Inria contre la COVID-19. Le système AMD, est intégré dans l'infrastructure nationale GRID'5000/SILECS sur le site de l'École normale supérieure de Lyon et est accessible aux utilisateurs de la communauté scientifique française via des Accès Préparatoire.
La machine est nommée ''neowise'' et est constituée de 10 nœuds monosocket AMD EPYC de 2e génération, chacun configuré avec 8 GPUs Radeon MI50, soit 80 GPUs Radeon MI50 au total, interconnectés par un réseau HDR Infiniband.
Ces ressources sont hébergées dans l'infrastructure Grid'5000 et sont accessibles via cette plateforme (le site web www.eDARI.fr n'est pas utilisé comme pour les autres ressources de GENCI).
Une ouverture préliminaire de la machine aux utilisateurs est prévue fin juin 2021. ''neowise'' sera dans un premier temps disponible en phase de test, son fonctionnement n'étant pas entièrement qualifié.
= Ouverture du compte sur Grid'5000 =
Les utilisateurs en provenance d'eDARI voulant accéder à la machine AMD doivent ouvrir un compte Grid'5000 en remplissant ce formulaire :
https://www.grid5000.fr/w/Special:G5KRequestAccountUMS
En plus de ses informations personnelles et professionnelles, il est nécessaire de spécifier dans le champ "Group Granting Access" le groupe "GENCI-AMD-MI50"  ainsi qu'une explication de l'utilisation prévue de la machine, notamment les méthodes numériques et implémentations utilisées, la justification des ressources avec le nombre et la nature de chaque type de tache. 
Ces informations seront mises à disposition de GENCI.
Le compte pourra ensuite être approuvé par un des responsables de Grid'5000 en fonction de l'adéquation des demandes avec l'infrastructure.
En plus des règles décrites ci-dessous, l'utilisation de ''neowise'' et de Grid'5000 nécessite de respecter [[Grid5000:General Conditions of Use|les conditions générales d'utilisation]]. En particulier, le traitement de données sensibles au sein de Grid'5000 n'est possible qu'en [[Armored Node for Sensitive Data|suivant une utilisation spécifique]] de la plateforme.
= Règles d'utilisation des ressources =
Grid'5000 étant une plateforme pour la réalisation d'expérience, l’attribution des ressources de calcul est pensée pour favoriser les jobs de courte durée.
Les grands principes de l'utilisation des ressources sont les suivants :
* En journée (9h à 19h), un utilisateur ne doit pas utiliser plus de l'équivalent de 2h de l'intégralité d'un cluster (le cluster entier durant de 2h, la moitié du cluster durant 4h, etc.)
* Les nuits et les weekends, l'utilisation n'est pas limitée
* Tous les utilisateurs ont accès à l'ensemble des ressources de Grid'5000. Il n'est pas nécessaire de faire une demande spécifique pour se voir attribuer des heures d'utilisation.
Il est tout à fait possible pour les utilisateurs de la machine AMD d'y accéder durant des périodes plus longues. Il faut simplement en faire [[Grid5000:SpecialUsage|la demande argumentée par mail]].
La description complète de la politique d'utilisation est documentée sur cette page : https://www.grid5000.fr/w/Grid5000:UsagePolicy
= Suite à l'utilisation =
Les publications scientifiques des utilisateurs GENCI ayant bénéficié de l'utilisation de la machine ''neowise'' doivent mentionner le texte de remerciement suivant :
* Version française : « Ces travaux ont bénéficié d’un accès aux moyens de calcul de Grid'5000 au travers de l'allocation de ressources 202X attribuée par GENCI/INRIA »
* Version anglaise : « This work was granted access to the HPC resources of Grid'5000 under the allocation 202X made by GENCI/INRIA »
A l'issu de l'utilisation de la machine, un court compte rendu est à compléter dans [https://api.grid5000.fr/ui/account le formulaire de gestion de compte de Grid'5000], en éditant le champ "Affiliation / Comment".
Les information liées à l'utilisation du cluster ''neowise'' seront mises à disposition de GENCI.
= Utilisation basique de la machine =
On se connecte à Grid'5000 à l'aide de SSH :
$ ssh <login>@access.grid5000.fr


Dans le cadre du fond AMD-COVID-19 HPC qui soutient les équipes de recherche mondiales luttant contre la pandémie de COVID-19, AMD a fait un don à GENCI et Inria d'une capacité de calcul de plus d'un demi-petaflop/s (FP64), sous la forme d'un cluster complet de nœuds de calcul hybrides équipés de GPUs AMD Radeon Instinct™ MI50 et de la seconde génération de CPU AMD EPYC™.
Grid'5000 est distribué sur plusieurs sites indépendant. ''neowise'' étant hébergé sur le site de Lyon, il faut se connecter à la frontale de ce site depuis la machine d'accès :


access$ ssh lyon


Avec ce don, AMD souhaite accélérer les efforts déjà entrepris par GENCI et Inria contre la COVID-19. Le système AMD, est intégré dans l'infrastructure nationale GRID'5000/SILECS sur le site de l'École normale supérieure de Lyon et est accessible aux utilisateurs de la communauté scientifique française via des Accès Préparatoire.
Le ''job scheduler'' utilisé dans Grid'5000 est OAR. On peut l'utiliser de la manière suivante pour l'accès à neowise :


# Accès interactif à un noeud :
flyon$ oarsub -t exotic -q testing -p "cluster='neowise'" -I
# Soumission d'un job d'une durée maximale de 2 heures, sur 4 noeuds :
flyon$ oarsub -t exotic -q testing -p "cluster='neowise'" -l "nodes=4,walltime=2:" ./my_job


La machine est nommée ''neowise'' et est constituée de 10 nœuds monosocket AMD EPYC de 2e génération, chacun configuré avec 8 GPUs Radeon MI50, soit 80 GPUs Radeon MI50 au total, interconnectés par un réseau HDR Infiniband.


L'utilisation actuelle et prévue de la machine est visible sur son [https://intranet.grid5000.fr/oar/Lyon/drawgantt-svg/?filter=neowise%20only diagramme d'utilisation]. Pour obtenir des informations sur les jobs, on peut également utiliser la commande <code>oarstat</code> (ex: <code>oarstat -f -j <numéro_de_job></code>)


L’environnement logiciel dont dispose la machine est le suivant :
- Debian stable


Une ouverture préliminaire de la machine aux utilisateurs est prévue fin juin 2021.
Il est fortement recommandé de lire la [[Getting Started|documentation ''Getting Started'']] pour mieux comprendre le fonctionnement de Grid'5000. L'ensemble des documentations disponibles sont répertoriées sur [[Users Home|le portail utilisateur]].

Revision as of 10:28, 21 June 2021

Genci.png
Inria.png


Dans le cadre du fond AMD-COVID-19 HPC qui soutient les équipes de recherche mondiales luttant contre la pandémie de COVID-19, AMD a fait un don à GENCI et Inria d'une capacité de calcul de plus d'un demi-petaflop/s (FP64), sous la forme d'un cluster complet de nœuds de calcul hybrides équipés de GPUs AMD Radeon Instinct™ MI50 et de la seconde génération de CPU AMD EPYC™.

Avec ce don, AMD souhaite accélérer les efforts déjà entrepris par GENCI et Inria contre la COVID-19. Le système AMD, est intégré dans l'infrastructure nationale GRID'5000/SILECS sur le site de l'École normale supérieure de Lyon et est accessible aux utilisateurs de la communauté scientifique française via des Accès Préparatoire.

La machine est nommée neowise et est constituée de 10 nœuds monosocket AMD EPYC de 2e génération, chacun configuré avec 8 GPUs Radeon MI50, soit 80 GPUs Radeon MI50 au total, interconnectés par un réseau HDR Infiniband.

Ces ressources sont hébergées dans l'infrastructure Grid'5000 et sont accessibles via cette plateforme (le site web www.eDARI.fr n'est pas utilisé comme pour les autres ressources de GENCI).

Une ouverture préliminaire de la machine aux utilisateurs est prévue fin juin 2021. neowise sera dans un premier temps disponible en phase de test, son fonctionnement n'étant pas entièrement qualifié.


Ouverture du compte sur Grid'5000

Les utilisateurs en provenance d'eDARI voulant accéder à la machine AMD doivent ouvrir un compte Grid'5000 en remplissant ce formulaire :

https://www.grid5000.fr/w/Special:G5KRequestAccountUMS

En plus de ses informations personnelles et professionnelles, il est nécessaire de spécifier dans le champ "Group Granting Access" le groupe "GENCI-AMD-MI50" ainsi qu'une explication de l'utilisation prévue de la machine, notamment les méthodes numériques et implémentations utilisées, la justification des ressources avec le nombre et la nature de chaque type de tache. Ces informations seront mises à disposition de GENCI.

Le compte pourra ensuite être approuvé par un des responsables de Grid'5000 en fonction de l'adéquation des demandes avec l'infrastructure.

En plus des règles décrites ci-dessous, l'utilisation de neowise et de Grid'5000 nécessite de respecter les conditions générales d'utilisation. En particulier, le traitement de données sensibles au sein de Grid'5000 n'est possible qu'en suivant une utilisation spécifique de la plateforme.


Règles d'utilisation des ressources

Grid'5000 étant une plateforme pour la réalisation d'expérience, l’attribution des ressources de calcul est pensée pour favoriser les jobs de courte durée.

Les grands principes de l'utilisation des ressources sont les suivants :

  • En journée (9h à 19h), un utilisateur ne doit pas utiliser plus de l'équivalent de 2h de l'intégralité d'un cluster (le cluster entier durant de 2h, la moitié du cluster durant 4h, etc.)
  • Les nuits et les weekends, l'utilisation n'est pas limitée
  • Tous les utilisateurs ont accès à l'ensemble des ressources de Grid'5000. Il n'est pas nécessaire de faire une demande spécifique pour se voir attribuer des heures d'utilisation.

Il est tout à fait possible pour les utilisateurs de la machine AMD d'y accéder durant des périodes plus longues. Il faut simplement en faire la demande argumentée par mail.

La description complète de la politique d'utilisation est documentée sur cette page : https://www.grid5000.fr/w/Grid5000:UsagePolicy


Suite à l'utilisation

Les publications scientifiques des utilisateurs GENCI ayant bénéficié de l'utilisation de la machine neowise doivent mentionner le texte de remerciement suivant :

  • Version française : « Ces travaux ont bénéficié d’un accès aux moyens de calcul de Grid'5000 au travers de l'allocation de ressources 202X attribuée par GENCI/INRIA »
  • Version anglaise : « This work was granted access to the HPC resources of Grid'5000 under the allocation 202X made by GENCI/INRIA »

A l'issu de l'utilisation de la machine, un court compte rendu est à compléter dans le formulaire de gestion de compte de Grid'5000, en éditant le champ "Affiliation / Comment".

Les information liées à l'utilisation du cluster neowise seront mises à disposition de GENCI.


Utilisation basique de la machine

On se connecte à Grid'5000 à l'aide de SSH :

$ ssh <login>@access.grid5000.fr

Grid'5000 est distribué sur plusieurs sites indépendant. neowise étant hébergé sur le site de Lyon, il faut se connecter à la frontale de ce site depuis la machine d'accès :

access$ ssh lyon

Le job scheduler utilisé dans Grid'5000 est OAR. On peut l'utiliser de la manière suivante pour l'accès à neowise :

# Accès interactif à un noeud :
flyon$ oarsub -t exotic -q testing -p "cluster='neowise'" -I

# Soumission d'un job d'une durée maximale de 2 heures, sur 4 noeuds :
flyon$ oarsub -t exotic -q testing -p "cluster='neowise'" -l "nodes=4,walltime=2:" ./my_job


L'utilisation actuelle et prévue de la machine est visible sur son diagramme d'utilisation. Pour obtenir des informations sur les jobs, on peut également utiliser la commande oarstat (ex: oarstat -f -j <numéro_de_job>)

L’environnement logiciel dont dispose la machine est le suivant : - Debian stable

Il est fortement recommandé de lire la documentation Getting Started pour mieux comprendre le fonctionnement de Grid'5000. L'ensemble des documentations disponibles sont répertoriées sur le portail utilisateur.