Para Matt Thomson, un investigador pionero en el California Institute of Technology (Caltech), el desarrollo de tratamientos contra el cáncer es principalmente un desafío de big data: aplicar modelos de aprendizaje automático (ML) a los datos de los pacientes a gran escala para formular nuevas terapias para los tumores más difíciles de curar.
“Sabemos que si podemos aprovechar el propio sistema inmunológico del cuerpo y lograr que ataque un tumor, podemos curar el cáncer”, dice Thomson. “Pero para algunos de los peores cánceres, este tipo de estrategia no funciona. Así que ahora estamos utilizando el aprendizaje automático para analizar todos los datos asociados con pacientes donde esto funciona o no, con el fin de luego diseñar nuevas terapias”.
Thomson es el investigador principal del Single-Cell Profiling and Engineering Center de Caltech, conocido informalmente como el Thomson Lab. Él y su equipo integran y analizan conjuntos de datos muy variables para construir y aplicar modelos de aprendizaje de lenguaje grandes en un proceso llamado ingeniería de proteínas.
Esos modelos contienen hasta 100 mil millones de parámetros y requieren experiencia en computación distribuida para alojarlos, ejecutarlos y ajustarlos a gran escala. Cada modelo debe ejecutarse miles de veces durante los ciclos de diseño-prueba de proteínas. El diseño de proteínas requiere no solo modelos individuales, sino también bibliotecas de modelos especializados para aplicaciones posteriores, como la inmunomodulación (reducir o mejorar la respuesta inmunitaria) y la termostabilidad (la capacidad de una sustancia para mantener sus propiedades características cuando se somete a un grado moderado de calor). El desafío que enfrenta el Thomson Lab es obtener acceso a las GPU de computación de alto rendimiento (HPC) necesarias para ejecutar y probar modelos a escala enorme.
“100 mil millones de parámetros no caben en una sola GPU”, dice Thomson. “Obtener acceso a recursos HPC adecuados y elásticos requiere un contrato de varios años. Dentro de la comunidad académica es casi imposible obtener ese nivel de financiamiento”.
Históricamente, los investigadores individuales y las organizaciones construían sus propias computadoras para este tipo de trabajo, pero resultaban obsoletas en cuestión de meses. Más recientemente, el laboratorio usó el clúster HPC de Caltech, pero a medida que avanzaba su investigación, incluso esos poderosos recursos resultaron insuficientes.
Entonces Thomson recurrió a la nube. El primer intento del laboratorio con un proveedor de infraestructura en la nube bien conocido se vio frustrado por costos ocultos y las cargas de la administración interna. A través de su red de contactos, Thomson se conectó con miembros del equipo de IA y ML de Oracle, lo que llevó al diseño de una prueba de concepto (PoC) para crear y probar modelos en instancias de GPU de Oracle Cloud Infrastructure (OCI).
"Al tener acceso inmediato a las últimas instancias de GPU en OCI, es tanto posible como práctico permitir a los investigadores aprovechar la tecnología más reciente. Esto pronto podría hacer obsoletos los clústeres HPC on-premises para este tipo de investigación”.
Para contexto: con cada modelo, se cargan unos 80 gigabytes de datos de una base de datos total de unos 20 terabytes en la memoria de la GPU mientras se entrena el modelo. En la PoC, se crearon 1000 modelos. Anteriormente, el Thomson Lab había podido crear una prueba de solo 10 modelos a la vez.
“Durante la PoC, Oracle fue realmente colaborativo al trabajar con nosotros, y el equipo de Oracle continúa demostrando su compromiso con el avance de nuestro trabajo”, dice Thomson. “Otros proveedores ofrecen incentivos para que te registres, pero luego no muestran ningún interés real en trabajar con una organización de nuestro tamaño”.
La investigación biológica requiere la consolidación de cantidades cada vez mayores de datos con innumerables nuevos modelos matemáticos. Históricamente, la comunidad de investigación no ha confiado en bases de datos a nivel profesional, optando en cambio por usar servicios de bases de datos de código abierto y bajo costo.
Por ejemplo, el Thomson Lab trabaja con más de 100 conjuntos de datos que consisten en hasta 10 millones de filas y 30 000 columnas cada uno, generando alrededor de 20 terabytes de nuevos datos cada semana. Actualmente, los conjuntos de datos se almacenan individualmente como archivos CSV en discos duros locales. Pero sin un sistema de almacenamiento y gestión de datos que pueda almacenar todos los conjuntos de datos de Caltech, junto con los de otras organizaciones de investigación, los modelos de aprendizaje automático no pueden ser entrenados con toda la información disponible y relevante.
Como consecuencia, la situación ideal para el futuro es que el Thomson Lab trabaje con Oracle para desarrollar un sistema de almacenamiento y gestión de datos que contenga todos los conjuntos de datos, al mismo tiempo que sea dinámicamente accesible para investigadores de cualquier institución.
Thomson es optimista de que el trabajo de Caltech con Oracle llevará a avances revolucionarios en la investigación y el tratamiento del cáncer.
“Todas las herramientas están ahí”, dice. “Queremos trabajar con Oracle para reunir todo y hacerlo económicamente posible en un modelo de monetización mutuamente aceptable, no solo para Caltech, sino también para organizaciones similares. No hay límite en lo que podemos lograr juntos”.
Los investigadores ejecutan modelos de ML el doble de rápido en OCI.
Entrena modelos de IA utilizando OCI Data Science, instancias bare metal y redes de clúster.