En un avance significativo para la investigación biomédica, los científicos han permitido la detección de enfermedades genéticas raras y mutaciones específicas de tumores a través de tecnologías innovadoras de secuenciación de ADN. La evolución de la secuenciación de próxima generación, que comenzó a transformar el panorama de la biología molecular hace décadas, ha dado lugar a una serie de avances. Particularmente durante la crisis sanitaria mundial de 2020 y 2021, estos métodos de secuenciación han permitido la decodificación y el seguimiento rápidos del genoma del SARS-CoV-2 a escala mundial.
Paralelamente a estos avances, un número creciente de investigadores están haciendo públicos los resultados de su secuenciación, lo que ha dado lugar a una acumulación sin precedentes de datos genéticos. Grandes bases de datos como el American Sequence Read Archive (SRA) y el European Nucleotide Archive (ENA) contienen ahora en conjunto aproximadamente 100 petabytes de información, un volumen equivalente a la cantidad total de texto escrito que se encuentra en Internet. Para dar contexto, un petabyte equivale a un millón de gigabytes.
Históricamente, acceder a esta enorme riqueza de información genética ha planteado un desafío importante para los científicos biomédicos, que han requerido amplios recursos computacionales para navegar por estos repositorios y comparar sus hallazgos, lo que hace que las búsquedas exhaustivas sean una tarea desalentadora. Los investigadores de ETH Zurich han abordado esta limitación desarrollando una herramienta innovadora conocida como MetaGraph.
MetaGraph refina significativamente el proceso de recuperación de datos genéticos al permitir búsquedas de texto completo directamente en conjuntos de datos de ADN o ARN sin procesar, similar a la funcionalidad de un motor de búsqueda de Internet convencional. Los investigadores pueden simplemente ingresar una secuencia genética de interés en un campo de búsqueda designado y recibir los resultados en segundos o minutos, dependiendo de la complejidad de la búsqueda. El profesor Gunnar Rätsch, científico de datos del Departamento de Ciencias de la Computación de ETH Zurich, comparó esta herramienta con un «Google para ADN» y destacó su capacidad para eludir la necesidad anterior de descargar conjuntos de datos completos para acceder a secuencias sin procesar. Este método antiguo consumía mucho tiempo, era incompleto y caro.
La rentabilidad de MetaGraph también es notable. La herramienta puede mostrar todas las secuencias biológicas disponibles públicamente utilizando sólo unos pocos discos duros, con altos costos de búsqueda estimados en aproximadamente 0,74 dólares por megabase.
Gracias a su combinación de velocidad y precisión, el nuevo motor de búsqueda de ADN podría mejorar significativamente los esfuerzos de investigación, especialmente en áreas como la identificación de patógenos emergentes y la investigación de factores genéticos asociados con la resistencia a los antibióticos. Además, puede ayudar a descubrir virus beneficiosos que eliminan bacterias dañinas, conocidas como bacteriófagos, ocultas en extensas bases de datos.
El equipo de ETH presentó las actividades de MetaGraph en un estudio publicado en Naturaleza. La herramienta utiliza gráficos matemáticos avanzados para organizar y comprimir datos genéticos de manera más eficiente, que recuerda la forma en que el software de hoja de cálculo gestiona los valores. Según Rätsch, la estructura se asemeja a una enorme matriz con millones de columnas y billones de filas. Si bien la creación de índices para grandes conjuntos de datos es una práctica común en informática, la singularidad del enfoque de ETH radica en su conexión efectiva entre datos sin procesar y metadatos, logrando una notable velocidad de compresión de aproximadamente 300 veces. Este nivel de compresión es paralelo al proceso de resumir un libro: preservar historias y relaciones vitales y descartar redundancias.
El Dr. André Kahles, otro miembro del Grupo de Informática Biomédica de ETH Zurich, destacó su compromiso de maximizar la compacidad de los datos sin sacrificar información esencial. A diferencia de otras soluciones de búsqueda de ADN que se están investigando actualmente, MetaGraph es escalable, lo que significa que a medida que aumenta el volumen de datos, la herramienta requiere cada vez menos potencia informática adicional.
Lanzado en 2020, MetaGraph ha experimentado un perfeccionamiento continuo y ahora está disponible públicamente para búsqueda, indexando millones de secuencias de ADN, ARN y proteínas de una amplia gama de organismos, incluidos virus, bacterias, hongos, plantas, animales y humanos. Con casi la mitad de todos los conjuntos de datos de secuencias globales ya indexados, los investigadores esperan que los datos restantes se hayan absorbido a finales de año. Como plataforma de código abierto, MetaGraph está preparada para atraer el interés de las empresas farmacéuticas que gestionan grandes cantidades de datos de investigación internos.
De cara al futuro, Kahles expresó su optimismo de que algún día las personas utilizarán el motor de búsqueda de ADN para aplicaciones personales, al igual que los primeros usuarios de Google. Sugirió: «Si continúa el rápido desarrollo de la secuenciación del ADN, puede llegar a ser común identificar con mayor precisión las plantas de su balcón». Esta previsión marca un capítulo apasionante no sólo para los investigadores, sino también para un público más amplio deseoso de explorar el panorama genético.



