Für Matt Thomson, einen Pionierforscher am California Institute of Technology, ist die Entwicklung von Krebsbehandlungen vor allem eine Big Data-Herausforderung: Er wendet ML-Modelle in großem Maßstab auf Patientendaten an, um neue Therapien für die am schwersten zu heilenden Tumore zu entwickeln.
„Wir wissen, dass wir Krebs heilen können, wenn wir das körpereigene Immunsystem nutzen und es dazu bringen, einen Tumor anzugreifen“, sagte Thomson. „Jedoch funktioniert diese Strategie bei einigen der schlimmsten Krebsarten nicht. Deshalb nutzen wir jetzt maschinelles Lernen, um alle Daten von Patienten zu untersuchen, bei denen dies funktioniert bzw. nicht funktioniert, und entwickeln dann neue Therapien.“
Thomson ist der leitende Forscher am Single-Cell Profiling and Engineering Center von Caltech, das inoffiziell alsThomson Lab bezeichnet wird. Er und sein Team integrieren und analysieren sehr variable Datensätze, um große ML-Sprachmodelle zu erstellen und in einem Prozess namens „Protein Engineering“ anzuwenden.
Diese Modelle enthalten bis zu 100 Milliarden Parameter und erfordern Fachwissen im Bereich des verteilten Rechnens, um sie in großem Maßstab zu hosten, auszuführen und zu optimieren. Jedes Modell muss während der Protein-Design-Testzyklen Tausende Male ausgeführt werden. Für das Design von Proteinen werden nicht nur einzelne Modelle benötigt, sondern auch Bibliotheken von Modellen, die auf nachgelagerte Anwendungen spezialisiert sind, wie z. B. Immunmodulation (Verringerung oder Verstärkung der Immunreaktion) und Thermostabilität (die Fähigkeit einer Substanz, ihre charakteristischen Eigenschaften beizubehalten, wenn sie moderater Hitze ausgesetzt wird). Die Herausforderung für das Thomson Lab besteht darin, Zugang zu den High-Performance-Computing-(HPC-)GPUs zu erhalten, die für die Ausführung und das Testen von Modellen in dieser Größenordnung erforderlich sind.
„100 Milliarden Parameter passen nicht auf eine einzige GPU“, sagte Thomson. „Um Zugriff auf angemessene und flexible HPC-Ressourcen zu erhalten, ist ein mehrjähriger Vertrag erforderlich. Innerhalb der akademischen Gemeinschaft ist es fast unmöglich, Fördermittel in dieser Höhe zu erhalten.“
In der Vergangenheit bauten einzelne Forscher und Organisationen für diese Art von Arbeit ihre eigenen Einzelcomputer, die jedoch innerhalb weniger Monate veraltet waren. In jüngerer Zeit nutzte das Labor den HPC-Cluster von Caltech, doch im weiteren Verlauf der Forschung erwiesen sich selbst diese leistungsstarken Ressourcen als unzureichend.
Also wandte sich Thomson der Cloud zu. Der erste Versuch des Labors mit einem bekannten Cloud-Infrastrukturanbieter scheiterte an versteckten Kosten und dem Aufwand für die interne Verwaltung. Über sein Kontaktnetzwerk knüpfte Thomson Kontakte zu Mitgliedern des KI- und ML-Teams von Oracle, was zur Entwicklung eines Proof of Concept (PoC) für die Erstellung und Prüfung von Modellen auf GPU-Instanzen der Oracle Cloud Infrastructure (OCI) führte.
„Durch den sofortigen Zugriff auf die neuesten GPU-Instanzen auf OCI ist es sowohl möglich als auch praktisch, Forschern die Nutzung der neuesten Technologie zu ermöglichen. Dies könnte dazu führen, dass On-Premises-HPC-Cluster für diese Art der Forschung bald überflüssig werden.“
Zum Kontext: Bei jedem Modell werden etwa 80 Gigabyte an Daten aus einer Gesamtdatenbank von etwa 20 Terabyte in den GPU-Speicher gezogen und dort gespeichert, während das Modell trainiert wird. Im PoC wurden 1.000 Modelle erstellt. Bisher konnte Thomson Lab nur Tests mit zehn Modellen gleichzeitig durchführen.
„Während des PoC hat Oracle sehr kooperativ mit uns zusammengearbeitet, und das Oracle Team zeigt weiterhin sein Engagement, unsere Arbeit voranzutreiben“, sagte Thomson. „Andere Anbieter bieten zwar Anreize, damit Sie sich anmelden, zeigen dann aber kein wirkliches Interesse daran, mit einem Unternehmen unserer Größe zusammenzuarbeiten.“
Die biologische Forschung erfordert die Konsolidierung immer größerer Datenmengen mit unzähligen neuen mathematischen Modellen. Bisher hat sich die Forschungsgemeinschaft nicht auf professionelle Datenbanken verlassen, sondern stattdessen kostengünstige Open-Source-Datenbankservices genutzt.
Beispielsweise arbeitet das Thomson Lab mit mehr als 100 Datensätzen, die jeweils aus bis zu 10 Millionen Zeilen und 30.000 Spalten bestehen und jede Woche etwa 20 Terabyte an neuen Daten generieren. Aktuell werden Datensätze einzeln als CSV-Dateien auf lokalen Festplatten gespeichert. Doch ohne ein Datenspeicher- und -managementsystem, das alle Datensätze von Caltech und anderen Forschungseinrichtungen speichern kann, ist es nicht möglich, ML-Modelle mit allen verfügbaren und relevanten Informationen zu trainieren.
Daher soll Thomson Lab in Zukunft mit Oracle zusammenarbeiten, um ein System für Datenspeicherung und -management zu entwickeln, das alle Datensätze speichert und gleichzeitig dynamisch für Forscher in jeder Einrichtung zugänglich ist.
Thomson ist optimistisch, dass die Zusammenarbeit von Caltech mit Oracle zu bahnbrechenden Fortschritten in der Krebsforschung und -behandlung führen wird.
„Alle Tools sind vorhanden“, fügte er hinzu. „Wir wollen mit Oracle zusammenarbeiten, um alles zusammenzubringen und es wirtschaftlich in einem für beide Seiten akzeptablen Monetarisierungsmodell zu ermöglichen, nicht nur für Caltech, sondern auch für ähnliche Organisationen. Es gibt keine Obergrenze für das, was wir gemeinsam erreichen können.“
Forscher führen ML-Modelle auf OCI doppelt so schnell aus.
Trainieren Sie KI-Modelle mit OCI Data Science, Bare Metal-Instanzen und Cluster-Netzwerken.