

Un equipo de investigadores ha creado una técnica experimental que permite analizar simultáneamente cómo cientos de proteínas fluctúan entre diferentes estados conformacionales, revelando información invisible hasta ahora sobre su comportamiento molecular. El método, publicado en Nature, analizó 5.778 dominios proteicos y podría revolucionar el diseño de fármacos y proteínas terapéuticas al permitir predecir y modificar la estabilidad molecular con precisión sin precedentes.
Investigadores han desarrollado un método experimental multiplexado que permite analizar los paisajes energéticos de cientos de proteínas en paralelo, según un estudio publicado en la revista Nature. La técnica, denominada espectrometría de masas de intercambio hidrógeno-deuterio multiplexada (mHDX-MS por sus siglas en inglés), analizó 5.778 dominios proteicos de entre 28 y 64 aminoácidos de longitud, revelando variaciones ocultas en las fluctuaciones conformacionales de estas moléculas.
Todas las proteínas plegadas fluctúan continuamente entre sus estructuras nativas de baja energía y conformaciones de mayor energía que pueden estar parcial o completamente desplegadas, según explica el estudio. Estos estados raros influyen en la función proteica, las interacciones moleculares, la agregación y la inmunogenicidad, pero permanecen mucho menos comprendidos que los estados nativos de las proteínas.
Aunque las estructuras nativas de las proteínas ahora son predecibles con precisión impresionante gracias a métodos de inteligencia artificial, las fluctuaciones conformacionales y sus energías permanecen en gran medida invisibles e impredecibles, según señalan los autores. Los desafíos experimentales han impedido mediciones a gran escala que podrían mejorar el aprendizaje automático y el modelado basado en física.
El nuevo método utiliza síntesis de grupos de oligonucleótidos de ADN para producir proteomas sintéticos personalizados que comprenden hasta 1.300 dominios proteicos pequeños por mezcla. Analizar estas mezclas mediante mHDX-MS reveló las distribuciones de tasas de intercambio y las distribuciones aproximadas de energía de apertura para cada dominio proteico, según el estudio.
Los investigadores midieron las distribuciones de energía de apertura de 5.778 dominios proteicos de diez familias bajo condiciones experimentales idénticas, con 3.590 dominios restantes después de eliminar aquellos de baja estabilidad. El conjunto de datos reveló una amplia variación en los paisajes energéticos entre secuencias con el mismo plegamiento global, diferencias en paisajes entre dominios que comparten la misma estabilidad de plegamiento global, y diferencias sistemáticas entre familias de dominios.
La escala única de los datos, más de 500 veces mayor que estudios comparativos previos de paisajes energéticos según los autores, permitió utilizar aprendizaje automático para identificar determinantes comunes de los paisajes energéticos en un amplio rango de secuencias. El análisis también permitió diseñar mutaciones que mejoraron la estabilidad local al amortiguar las fluctuaciones conformacionales, demostrando el potencial de enfoques basados en datos para modular los paisajes energéticos de las proteínas.
El método comienza construyendo mezclas personalizadas de dominios proteicos. Cada muestra de 108 a 1.334 dominios se codifica como un grupo sintético de oligonucleótidos de ADN, se clona en un vector, y se expresa y purifica como una mezcla de un único cultivo de Escherichia coli, según describe el estudio. Luego se incuba la mezcla en óxido de deuterio durante períodos de tiempo desde 25 segundos hasta 24 horas, se detiene el intercambio y se analiza cada punto temporal mediante cromatografía líquida acoplada a espectrometría de masas con movilidad iónica.
Los investigadores validaron la precisión del método mHDX-MS utilizando resonancia magnética nuclear de intercambio hidrógeno-deuterio (HDX NMR) y proteólisis por despliegue en cDNA. A través de 13 dominios diferentes, los resultados de mHDX-MS coincidieron estrechamente con las mediciones de HDX NMR, con un error cuadrático medio de 1.9 veces para las distribuciones de tasas de intercambio y 0.53 kilocalorías por mol para las distribuciones de energía de apertura, según el estudio.
Los dominios analizados provinieron de cuatro familias de secuencias diseñadas de novo y seis familias de dominios naturales de la base de datos Pfam, además de dominios pequeños adicionales del Banco de Datos de Proteínas (PDB). Dentro de cada familia, las identidades de secuencia por pares promediaron entre 35 y 47 por ciento. Los dominios se analizaron en 18 bibliotecas separadas que contenían entre 108 y 1.334 secuencias.
Entre los dominios naturales, el 54 por ciento tenía una estabilidad de desplegamiento global menor a 2 kilocalorías por mol, en comparación con solo el 10 por ciento de los dominios diseñados, que fueron preseleccionados por su estabilidad experimental conocida, según los datos. El mayor número de dominios analizados exitosamente en una biblioteca fue 519, de una biblioteca con 1.311 secuencias iniciales.
Los experimentos revelaron distribuciones diversas de energía de apertura en el conjunto de 3.590 dominios estables. La estabilidad global varió desde menos de 2 hasta alrededor de 9 kilocalorías por mol en óxido de deuterio. Sin embargo, la mayoría de los residuos intercambian a través de fluctuaciones conformacionales que son más bajas en energía que el desplegamiento global completo.
Para cuantificar esto, los investigadores calcularon la energía de apertura promedio sobre todos los residuos intercambiables para cada dominio. Los dominios con estabilidad de desplegamiento global similar y estructuras nativas similares a menudo diferían sustancialmente en su energía de apertura promedio. En algunos casos, esto refleja diferencias en los enlaces de hidrógeno, porque los residuos que carecen de enlaces de hidrógeno de amida típicamente tienen baja energía de apertura independientemente de la estabilidad conformacional.
Los autores construyeron un modelo empírico de cinco parámetros de la energía de apertura promedio basado en la estabilidad de desplegamiento global, los enlaces de hidrógeno y la carga neta de la proteína. Definieron la cooperatividad normalizada como la diferencia estandarizada entre la energía de apertura promedio observada de cada proteína y la energía de apertura promedio esperada del modelo.
El análisis de aprendizaje automático identificó características estructurales que se correlacionaron con las fluctuaciones observadas experimentalmente, permitiendo diseñar mutaciones que estabilizaron segmentos estructurales de baja estabilidad. Los investigadores utilizaron modelado computacional de sus dominios para identificar estas características estructurales.
El conjunto de datos permite nuevos análisis basados en aprendizaje automático de los paisajes energéticos de las proteínas, según concluyen los autores. El enfoque experimental promete perfilar estos paisajes a escala considerable, lo que podría tener implicaciones significativas para el diseño de proteínas terapéuticas, el desarrollo de fármacos y la comprensión de enfermedades relacionadas con el mal plegamiento proteico.
Los métodos de inteligencia artificial entrenados para predecir estructuras proteicas nativas han mostrado poca capacidad para predecir estabilidades de plegamiento de proteínas o las energías de diferentes estados conformacionales sin datos adicionales, según señala el estudio. Para desarrollar modelos de inteligencia artificial de próxima generación que puedan predecir e ingenierizar paisajes energéticos conformacionales, se necesitan nuevos métodos experimentales que puedan caracterizar paisajes energéticos a través del espacio de secuencias.
Los avances recientes en la medición de estabilidad de plegamiento global a escala han acelerado el uso de métodos de inteligencia artificial en biofísica, según los autores. Sin embargo, estos métodos aún no tienen la capacidad de resolver los detalles de las fluctuaciones conformacionales o identificar el rango de estados excitados poblados por cada secuencia proteica.
La comprensión de los estados de alta energía es desafiante porque son altamente específicos de secuencia: cada proteína tiene su propio paisaje energético conformacional que describe las energías y por lo tanto las poblaciones de sus diferentes estados conformacionales. Los paisajes energéticos pueden variar considerablemente entre proteínas estructuralmente similares, y mutaciones individuales pueden perturbar fuertemente los paisajes energéticos sin alterar la estructura proteica nativa.
Los métodos de inteligencia artificial para predecir estructuras nativas dependen de la conservación estructural a través de secuencias altamente divergentes, pero esta conservación no se mantiene para los paisajes energéticos, según explica el estudio. El trabajo representa un paso significativo hacia la capacidad de predecir y manipular el comportamiento dinámico de las proteínas, no solo sus estructuras estáticas.