L'institut de recherche de renommée mondiale utilise des instances GPU d'Oracle pour créer des modèles de machine learning qui aident à concevoir de nouveaux traitements pour les patients.
Jim Lein | 19 janvier 2024
Pour Matt Thomson, chercheur pionnier à l'Institut de technologie de Californie, le développement de traitements contre le cancer est principalement un défi big data. Il s'agit d'appliquer des modèles de machine learning aux données des patients à grande échelle pour élaborer de nouveaux traitements contre les tumeurs les plus difficiles à guérir.
« Nous savons que si nous parvenons à exploiter le système immunitaire de l'organisme et l'amenons à attaquer une tumeur, nous pouvons guérir le cancer », dit Thomson. « Mais pour certains des pires cancers, ce type de stratégie ne fonctionne pas. Nous utilisons donc maintenant le machine learning pour examiner toutes les données associées aux patients pour lesquels cela fonctionne ou ne fonctionne pas, puis pour concevoir de nouveaux traitements. »
Thomson est le chercheur principal du Centre de profilage et d'ingénierie à cellule unique de Caltech, plus communément appelé le Thomson Lab. Son équipe et lui intègrent et analysent des jeux de données très variables pour construire et appliquer de grands modèles de langage de machine learning dans un processus appelé ingénierie des protéines.
Ces modèles contiennent jusqu'à 100 milliards de paramètres et nécessitent une expertise en informatique distribuée pour les héberger, les exécuter et les ajuster à grande échelle. Chaque modèle doit être exécuté des milliers de fois pendant les cycles de conception-test des protéines. La conception des protéines nécessite non seulement des modèles uniques, mais aussi des bibliothèques de modèles spécialisés pour des applications en aval telles que l'immunomodulation (réduction ou amélioration de la réponse immunitaire) et la thermostabilité (capacité d'une substance à maintenir ses propriétés caractéristiques lorsqu'elle est soumise à un degré modéré de chaleur). Le défi, pour le Thomson Lab, est d'accéder aux GPU de calcul haute performance (HPC) nécessaires à l'exécution et au test des modèles à cette échelle considérable.
« Un seul GPU ne suffit pas pour 100 milliards de paramètres », explique Thomson. « L'accès à des ressources HPC adéquates et élastiques nécessite un contrat pluriannuel. Au sein de la communauté universitaire, il est presque impossible d'obtenir ce niveau de financement. »
Historiquement, des chercheurs et des entreprises ont construit leurs propres calculateurs pour ce type de tâche, mais ceux-ci sont devenus obsolètes en quelques mois. Plus récemment, le laboratoire a utilisé le cluster HPC de Caltech, mais à mesure que ses recherches progressaient, même ces ressources puissantes se sont révélées insuffisantes.
Thomson s'est alors tourné vers le cloud. La première tentative du laboratoire avec un fournisseur d'infrastructure cloud bien connu a été entravée par les coûts cachés et la lourdeur de l'administration interne. Grâce à son réseau de contacts, Thomson s'est connecté aux membres de l'équipe d'IA et de ML d'Oracle, ce qui a conduit à la conception d'une étude de faisabilité (PoC) pour la création et le test de modèles sur des instances de GPU Oracle Cloud Infrastructure (OCI).
« En ayant accès aux toutes dernières instances GPU sur OCI, il est à la fois possible et pratique de permettre aux chercheurs de tirer parti des dernières technologies. Cela pourrait bientôt rendre les clusters HPC on-premises obsolètes pour ce type de recherche. »
Pour vous donner le contexte : avec chaque modèle, environ 80 gigaoctets de données sur une base de données totale d'environ 20 téraoctets sont extraits et conservés dans la mémoire GPU pendant l'entraînement du modèle. Dans le PoC, 1 000 modèles ont été créés. Auparavant, Thomson Lab avait pu créer un test de seulement 10 modèles à la fois.
« Pendant le PoC, Oracle a travaillé avec nous de manière très collaborative, et l'équipe Oracle continue de démontrer son engagement à faire progresser notre travail », explique Thomson. « D'autres fournisseurs vous proposeront des incitations pour que vous vous inscriviez, mais ils ne montrent aucun intérêt réel à travailler avec une entreprise de notre taille. »
La recherche biologique nécessite la consolidation de quantités de plus en plus importantes de données avec une myriade de nouveaux modèles mathématiques. Historiquement, la communauté de recherche ne s'est pas appuyée sur des bases de données de niveau professionnel, optant plutôt pour des services de base de données open source peu coûteux.
Par exemple, Thomson Lab fonctionne avec plus de 100 ensembles de données comprenant jusqu'à 10 millions de lignes et 30 000 colonnes chacune, générant environ 20 téraoctets de nouvelles données chaque semaine. Actuellement, les jeux de données sont stockés individuellement sous forme de fichiers CSV sur des disques durs locaux. Mais sans un système de stockage et de gestion des données capable de stocker tous les ensembles de données de Caltech, ainsi que ceux d'autres organismes de recherche, les modèles de machine learning ne peuvent pas être entraînés à l'aide de toutes les informations disponibles et pertinentes.
Par conséquent, la situation future souhaitée est que Thomson Lab collabore avec Oracle pour développer un système de stockage et de gestion des données qui contient tous les ensembles de données tout en étant accessible dynamiquement aux chercheurs de n'importe quelle institution.
Thomson est optimiste quant au fait que le travail de Caltech avec Oracle mènera à des avancées révolutionnaires dans la recherche et les soins contre le cancer.
« Tous les outils sont là », dit-il. « Nous voulons travailler avec Oracle pour rassembler tous les éléments et les rendre économiquement viables, dans un modèle de monétisation mutuellement acceptable, non seulement pour Caltech, mais également pour des organismes similaires. Il n'y a pas de limite à ce que nous pouvons accomplir ensemble. »
Les chercheurs exécutent des modèles de machine learning deux fois plus rapidement sur OCI.
Entraînez des modèles d'IA à l'aide d'OCI Data Science, d'instances bare metal et de réseaux de clusters.