Investigadores de la Universidad Estatal de Georgia han creado un software informático ultrarrápido que puede ayudar a las naciones a rastrear y analizar pandemias, como la causada por COVID-19, antes de que se propaguen como la pólvora por todo el mundo.
El grupo de investigadores de ciencias de la computación y matemáticas dice que su nuevo software es varios órdenes de magnitud más rápido que los programas de computadora existentes y puede procesar más de 200,000 genomas de virus nuevos en menos de dos horas.
Luego, el software crea un árbol visual claro de las cepas y dónde se están propagando.
Esto proporciona información que puede ser invaluable para los países que toman decisiones tempranas sobre cierres, cuarentenas, distanciamiento social y pruebas durante brotes de enfermedades infecciosas.
“El futuro de los brotes infecciosos sin duda dependerá en gran medida de los datos”, dijo Alexander Zelikovsky, profesor de informática del estado de Georgia que trabajó en el proyecto.
El nuevo software fue co-creado con Pavel Skums, profesor asistente de ciencias de la computación, Mark Grinshpon, profesor principal principal de matemáticas y estadística, Daniel Novikov, un doctorado en ciencias de la computación. estudiante, y dos ex Ph.D. del estado de Georgia. estudiantes: Sergey Knyazev (ahora becario postdoctoral en la Universidad de California en Los Ángeles) y Pelin Icer (ahora becario postdoctoral en el Instituto Federal Suizo de Tecnología, ETH Zürich).
Su artículo que describe el nuevo enfoque, “Reconstrucción escalable de la filogenia del SARS-CoV-2 con mutaciones recurrentes”, fue publicado en el Journal of Computational Biology.
“La pandemia de COVID-19 ha sido un desafío y una oportunidad sin precedentes para los científicos”, dijo Skums, quien señaló que nunca antes investigadores de todo el mundo habían secuenciado tantos genomas completos de ningún virus.
Las cepas de SARS-CoV-2 se cargan en la base de datos global gratuita de GISAID ( https://www.gisaid.org/hcov19-variants/ ), donde cualquier científico puede extraer datos y estudiarlas. Zelikovsky, Skums y sus colegas analizaron más de 300.000 cepas diferentes de GISAID para su nuevo trabajo.
“Hay más de 5 millones de genomas en la base de datos GISAID ahora”, dijo Zelikovsky. “Los científicos de todo el mundo probablemente estén secuenciando una nueva variante casi cada hora”.
Zelikovsky dijo que esta asombrosa cantidad de datos permite a los científicos ver la evolución del virus en acción en tiempo real, si tenemos un software capaz de analizarlo rápidamente.
En los primeros días de la pandemia, en marzo de 2020, los científicos trabajaban mucho más lentamente. Los científicos pensaron que el virus había llegado por primera vez a las costas en el estado de Washington en febrero.
Sin embargo, la secuenciación posterior presentada en un artículo por Skums y sus colegas mostró los arcos de variantes virales que viajan a través de países y océanos.
Con estos nuevos estudios, los científicos descubrieron que el virus probablemente también había llegado silenciosamente a la ciudad de Nueva York en febrero, a partir de cepas originarias de Europa.
En aquel entonces, los científicos secuenciaban los datos con demasiada lentitud para capturar la verdadera migración de este virus global y sus mutaciones en tiempo real.
“Los programas no eran lo suficientemente rápidos ni escalables”, dijo Skums. “Los algoritmos no estaban equipados para manejar grandes cantidades de datos”. Podría llevar horas o días procesar incluso un pequeño subconjunto de genomas virales, dijo.
Zelikovsky, Skums y sus colegas crearon un algoritmo novedoso para la secuenciación viral llamado SPHERE (Scalable PHylogEny with Recurrent mutations).
SPHERE puede manejar rápidamente grandes cantidades de datos en tiempo real y crear árboles evolutivos del virus y sus mutaciones.
Estas visualizaciones se pueden captar fácilmente de un vistazo. El programa informático en sí está disponible gratuitamente para su descarga para cualquier investigador del mundo.
Cuando los investigadores aplicaron su algoritmo a los genomas de la base de datos GISAID, encontraron que su enfoque SPHERE era altamente confiable para rastrear la forma en que se propagaba el virus.
SPHERE puede ayudar a los científicos a explorar cómo evoluciona un virus en tiempo real.
“Podemos ver cómo las mutaciones se propagan de un país a otro y de una región a otra”, dijo Zelikovsky. “Podemos determinar cómo se propaga el impacto de los encierros y cierres. Esto tiene consecuencias para la política del gobierno”.
El algoritmo SPHERE podría resultar invaluable en futuras pandemias.
“Se pueden rastrear cadenas de transmisión muy rápidamente”, dijo Zelikovsky. Ver esas cadenas ayudará a los gobiernos a tomar decisiones acertadas sobre políticas sociales como el distanciamiento o los encierros en momentos de alta transmisión.
SPHERE también puede mostrar el impacto de diferentes enfoques para los brotes.
Por ejemplo, dijo Skums, Suecia adoptó un enfoque más relajado de la pandemia de COVID-19 que otros países nórdicos.
Un análisis de los datos de secuenciación muestra que los suecos tienen “cadenas de transmisión” más largas. Esto significa que en Suecia, una cepa puede infectar a muchas más personas, una por una.
“El peligro de las cadenas largas es que puede aparecer una nueva cepa”, dijo Zelikovsky. “Y una de esas cepas puede ser una variante que sea muy buena para infectar a las personas”.
Este tipo de conocimientos nos ayudarán en caso de que nos enfrentemos a otra pandemia mundial.
“Las herramientas que hemos desarrollado nosotros y otros se pueden utilizar en cualquier lugar para cualquier brote”, dijo Zelikovsky. “Esa es la belleza de la informática”.
Referencia: Daniel Novikov, Sergey Knyazev, Mark Grinshpon, Pelin Icer, Pavel Skums, Alex Zelikovsky. Scalable Reconstruction of SARS-CoV-2 Phylogeny with Recurrent Mutations. Journal of Computational Biology, 2021; 28 (11): 1130 DOI: 10.1089/cmb.2021.0306