Ingeniería inversa el código fuente de la vacuna BioNTech/Pfizer SARS-CoV-2
Publicado en25 de diciembre de 2020 17 minutos leídos
¡Bienvenido! En este post, vamos a echar un vistazo carácter por personaje al código fuente de la vacuna BioNTech/Pfizer SARS-CoV-2 mRNA.
Quiero agradecer al gran elenco de personas que pasaron tiempo previsualizando este artículo por legibilidad y corrección. Todos los errores siguen siendo míos, pero me encantaría escuchar acerca de ellos rápidamente en [email protected] o @PowerDNS_Bert
Ahora, estas palabras pueden ser algo inquietantes - la vacuna es un líquido que se inyecta en el brazo. ¿Cómo podemos hablar del código fuente?
Esta es una buena pregunta, así que comencemos con una pequeña parte del código fuente de la vacuna BioNTech/Pfizer, también conocida como
BNT162b2, también conocida como Tozinameran
también conocida como Comirnaty.
La vacuna contra el ARNm BNT162b tiene este código digital en su corazón. Tiene 4284 caracteres de largo, por lo que encajaría en un montón de tweets. Al principio del proceso de producción de la vacuna, alguien subió este código a una impresora de ADN (sí), que luego convirtió los bytes en el disco en moléculas de ADN reales.
De una máquina de este tipo salen pequeñas cantidades de ADN, que después de una gran cantidad de procesamiento biológico y químico terminan como ARN (más sobre qué más tarde) en el vial de la vacuna. Una dosis de 30 microgramos resulta contener realmente 30 microgramos de ARN. Además, hay un inteligente sistema de envasado de lípidos (grasos) que consigue el ARNm en nuestras células.
El ARN es la versión volátil de la "memoria funcional" del ADN. El ADN es como el almacenamiento de la biología en la unidad flash. El ADN es muy duradero, internamente redundante y muy fiable. Pero al igual que las computadoras no ejecutan código directamente desde una unidad flash, antes de que algo suceda, el código se copia en un sistema más rápido, más versátil pero mucho más frágil.
Para las computadoras, esto es RAM, para la biología es ARN. El parecido es sorprendente. A diferencia de la memoria flash, la RAM se degrada muy rápidamente a menos que se atendió amorosamente. La razón por la que la vacuna contra el ARNm Pfizer/BioNTech debe almacenarse en los congeladores profundos más profundos es la misma: el ARN es una flor frágil.
Cada carácter de ARN pesa en el orden de 0,53 x 10⁻21 gramos, lo que significa que hay 6 x 101⁶ caracteres en una sola dosis de vacuna de 30 microgramos. Expresado en bytes, esto es alrededor de 25 petabytes, aunque hay que decir que se compone de alrededor de 2000 mil millones de repeticiones de los mismos 4284 caracteres. El contenido informativo real de la vacuna es de poco más de un kilobyte.
El propio SARS-CoV-2 pesa alrededor de 7,5 kilobytes.
El fondo más breve
El ADN es un código digital. A diferencia de las computadoras, que utilizan 0 y 1, la vida utiliza A, C, G y U/T (los 'nucleótidos', 'nucleósidos' o 'bases').
En las computadoras almacenamos el 0 y 1 como la (ab)sence de una carga, o como una corriente, como una transición magnética, o como una tensión, o como una modulación de una señal, o como un cambio de reflexividad. O en resumen, el 0 y 1 no son algún tipo de concepto abstracto - viven como electrones y en muchas otras encarnaciones físicas.
En la naturaleza, A, C, G y U/T son moléculas, almacenadas como cadenas en ADN (o ARN).
En los equipos, agrupamos 8 bits en un byte y el byte es la unidad típica de datos que se está procesando.
La naturaleza agrupa 3 nucleótidos en un codón, y este codón es la unidad típica de procesamiento. Un codón contiene 6 bits de información (2*3).
Algunas lecturas adicionales están disponibles aquí - este enlace ('Qué es la vida') podría ayudar a dar sentido al resto de esta página. O, si te gusta el video, tengo dos horas para ti.
Entonces, ¿qué hace ese código?
La idea de una vacuna es enseñar a nuestro sistema inmunológico cómo combatir un patógeno, sin que nos enfermemos. Históricamente esto se ha hecho inyectando un virus debilitado o incapacitado (atenuado), además de un 'adyuvante' para asustar a nuestro sistema inmunológico en acción. Esta era una técnica decididamente analógica que involucraba miles de millones de huevos (o insectos). También requirió mucha suerte y un montón de tiempo. A veces también se utilizó un virus diferente (no relacionado).
Una vacuna contra el ARNm logra lo mismo ('educar a nuestro sistema inmunológico') pero de una manera similar a la de un láser. Y me refiero a esto en ambos sentidos - muy estrecho pero también muy poderoso.
Así es como funciona. La inyección contiene material genético volátil que describe la famosa proteína SARS-CoV-2 'Spike'. A través de medios químicos inteligentes, la vacuna logra meter este material genético en algunas de nuestras células.
Estos entonces comienzan debidamente a producir proteínas SARS-CoV-2 Spike en cantidades lo suficientemente grandes como para que nuestro sistema inmunológico entre en acción. Frente a las proteínas Spike, y los signos reveladores de que las células han sido tomadas, nuestro sistema inmunológico desarrolla una poderosa respuesta contra múltiples aspectos de la proteína Spike Y el proceso de producción.
Y esto es lo que nos lleva a la vacuna 95% eficiente.
¡El código fuente!
Esta es una especie de tabla de contenido. Empezaremos con la gorra, en realidad representada como un pequeño sombrero.
Al igual que no se puede simplemente plonk opcodes en un archivo en un ordenador y ejecutarlo, el sistema operativo biológico requiere encabezados, tiene vinculadores y cosas como llamar a convenciones.
The code of the vaccine starts with the following two nucleotides:
GA
This can be compared very much to every
DOS and Windows executable starting with MZ, or UNIX scripts starting with
#!. In both life and operating systems, these two characters are not executed in any way. But they have to be there because otherwise nothing happens.
La 'tapa' de
ARNm tiene una serie de funciones. Por un parte, marca el código como procedente del núcleo. En nuestro caso, por supuesto que no, nuestro código proviene de una vacunación. Pero no necesitamos decirle eso a la célula. La tapa hace que nuestro código se vea legítimo, lo que lo protege de la destrucción.
Los dos nucleótidos iniciales también son químicamente ligeramente diferentes del resto del ARN. En este sentido, el tiene algunas señales fuera de banda en él.GAGA
La "región no traducible de cinco primos"
Un poco de jerteón aquí. Las moléculas de ARN sólo se pueden leer en una dirección. Confusamente, la parte donde comienza la lectura se llama 5' o 'cinco-prime'. La lectura se detiene en el extremo 3' o tres-prime.
La vida consiste en proteínas (o cosas hechas por proteínas). Y estas proteínas se describen en ARN. Cuando el ARN se convierte en proteínas, esto se denomina traducción.
Aquí tenemos la región no traducida de 5' ('UTR'), por lo que este bit no termina en la proteína:
GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC
Aquí nos encontramos con nuestra primera sorpresa. Los caracteres normales de ARN son A, C, G y U. U también conocido como 'T' en el ADN. Pero aquí encontramos un Ψ, ¿qué está pasando?
Esta es una de las partes excepcionalmente inteligentes sobre la vacuna. Nuestro cuerpo funciona con un potente sistema antivirus ("el original"). Por esta razón, las células son extremadamente pocoenthusiasas sobre el ARN extraño y tratan muy duro de destruirlo antes de que haga nada.
Esto es un problema para nuestra vacuna: necesita colarse más allá de nuestro sistema inmunológico. Durante muchos años de experimentación, se encontró que si la U en el ARN es reemplazada por una molécula ligeramente modificada, nuestro sistema inmunológico pierde interés. De verdad.
Así, en la vacuna BioNTech/Pfizer, cada U ha sido reemplazada por 1-metil-3'-pseudouridylyl, denotada por Ψ. La parte realmente inteligente es que aunque este reemplazo Ψ aplaca (calma) nuestro sistema inmunológico, es aceptado como una U normal por partes relevantes de la célula.
En seguridad informática también conocemos este truco - a veces es posible transmitir una versión ligeramente dañada de un mensaje que confunde firewalls y soluciones de seguridad, pero que todavía es aceptado por los servidores back-end - que luego puede ser hackeado.
Ahora estamos cosechando los beneficios de la investigación científica fundamental realizada en el pasado. Los
descubridores de esta técnica Ψ tuvieron que luchar para conseguir
que su trabajo fuera financiado y luego aceptado. Todos deberíamos estar muy agradecidos, y estoy seguro de que los
premios Nobel llegarán a su debido tiempo.
Ok, de vuelta a la UTR de 5'. ¿Qué hacen estos 51 caracteres? Como todo en la naturaleza, casi nada tiene una función clara.
Cuando nuestras células necesitan traducir el ARN en proteínas, esto se hace usando una máquina llamada ribosoma. El ribosoma es como una impresora 3D para proteínas. Ingiere una hebra de ARN y en base a que emite una cadena de aminoácidos, que luego se pliegan en una proteína.
Esto es lo que vemos sucediendo arriba. La cinta negra en la parte inferior es ARN. La cinta que aparece en la broca verde es la proteína que se está formando. Las cosas que vuelan dentro y fuera son aminoácidos más adaptadores para que encajen en el ARN.
Este ribosoma necesita sentarse físicamente en la cadena de ARN para que se ponga a trabajar. Una vez sentado, puede comenzar a formar proteínas basadas en el ARN adicional que ingiere. A partir de esto, se puede imaginar que todavía no puede leer las partes donde aterriza en primer lugar. Esta es sólo una de las funciones de la UTR: la zona de aterrizaje ribosoma. El UTR proporciona 'lead-in'.
Además de esto, la UTR también contiene metadatos: ¿cuándo debe producirse la traducción? ¿Y cuánto? Para la vacuna, tomaron la UTR más "en este momento" que pudieron encontrar, tomada del gen de la
globina alfa. Este gen es conocido por producir robustamente una gran cantidad de proteínas. En años anteriores, los científicos ya habían encontrado formas de optimizar aún más esta UTR (según el documento de la OMS), por lo que no se trata del bien de la UTR de globina alfa. Es mejor.
El péptido de señal de glicoproteína S
Como se ha señalado, el objetivo de la vacuna es conseguir que la célula produzca cantidades copiosas de la proteína Spike de SARS-CoV-2. Hasta este punto, en su mayoría hemos encontrado metadatos y cosas de "convención de llamada" en el código fuente de la vacuna. Pero ahora entramos en el territorio real de las proteínas virales.
Sin embargo, todavía tenemos una capa de metadatos. Una vez que el ribosoma (de la espléndida animación anterior) ha hecho una proteína, esa proteína todavía necesita ir a algún lugar. Esto está codificado en el "péptido de señal de glicoproteína S (secuencia de líder extendida)".
La forma de ver esto es que al principio de la proteína hay una especie de etiqueta de dirección - codificada como parte de la proteína en sí. En este caso específico, el péptido de señal dice que esta proteína debe salir de la célula a través del "retículo endoplasmático". ¡Incluso la jergas de Star Trek no es tan elegante como esto!
El "péptido de señal" no es muy largo, pero cuando miramos el código, hay diferencias entre el ARN viral y el ARN vacuna:
(Tenga en cuenta que, a efectos de comparación, he sustituido la fantasía modificada Ψ por un ARN U normal)
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Virus: AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Vaccine: AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUU
! ! ! ! ! ! ! ! ! ! ! ! !
Entonces, ¿qué está pasando? No he enumerado accidentalmente el ARN en grupos de 3 letras. Tres personajes de ARN componen un codón. Y cada codón codifica para un aminoácido específico. El péptido de señal en la vacuna consiste exactamente en los mismos aminoácidos que en el propio virus.
Entonces, ¿por qué el ARN es diferente?
Hay 43 a 64 codones diferentes, ya que hay 4 caracteres de ARN, y hay tres de ellos en un codón. Sin embargo, sólo hay 20 aminoácidos diferentes. Esto significa que varios codones codifican para el mismo aminoácido.
La vida utiliza la siguiente tabla casi universal para mapear los codones de ARN a los aminoácidos:
En esta tabla, podemos ver que las modificaciones en la vacuna (UUU -> UUC) son todas sinónimos. El código de ARN de la vacuna es diferente, pero los mismos aminoácidos y la misma proteína salen.
Si miramos de cerca, vemos que la mayoría de los cambios ocurren en la tercera posición de codón, señalada con un '3' arriba. Y si revisamos la tabla de codón universal, vemos que esta tercera posición a menudo no importa para qué aminoácido se produce.
Entonces, los cambios son sinónimos, pero entonces ¿por qué están ahí? Mirando de cerca, vemos que todos los cambios excepto uno conducen a más C y Gs.
Entonces, ¿por qué harías eso? Como se señaló anteriormente, nuestro sistema inmunológico tiene una visión muy tenue del ARN 'exógeno', código de ARN procedente de fuera de la célula. Para evadir la detección, la "U" en el ARN ya fue reemplazada por una Ψ.
Y esto se ha logrado en el ARN de la vacuna reemplazando muchos caracteres con Gs y Cs siempre que esto fuera posible.
Estoy un poco fascinado por el único cambio que no condujo a un C o G adicional, la modificación CCA -> CCU. Si alguien sabe la razón, por favor hágamelo saber!
La proteína Spike real
Los siguientes 3777 caracteres del ARN de la vacuna son igualmente 'codón optimizado' para añadir una gran cantidad de C y G. En aras del espacio no voy a enumerar todo el código aquí, pero vamos a hacer zoom en un bit excepcionalmente especial. Esta es la parte que hace que funcione, la parte que realmente nos ayudará a volver a la vida con normalidad:
* *
L D K V E A E V Q I D R L I T G
Virus: CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Vaccine: CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
L D P P E A E V Q I D R L I T G
! !!! !! ! ! ! ! ! ! !
Aquí vemos los habituales cambios de ARN sinónimo. Por ejemplo, en el primer codón vemos que CUU se cambia en CUG. Esto añade otra "G" a la vacuna, que sabemos que ayuda a mejorar la producción de proteínas. Tanto CUU como CUG codifican para el aminoácido 'L' o leucina, por lo que nada cambió en la proteína.
Cuando comparamos toda la proteína Spike en la vacuna, todos los cambios son sinónimos como este. excepto por dos, y esto es lo que vemos aquí.
El tercer y cuarto codóns anteriores representan cambios reales. Los aminoácidos K y V allí son reemplazados por 'P' o Proline. Para 'K' esto requería tres cambios ('!!!') y para 'V' sólo requería dos ('!!').
Resulta que estos dos cambios mejoran enormemente la eficiencia de la vacuna.
Entonces, ¿qué está pasando aquí? Si nos fijamos en una partícula REAL SARS-CoV-2, se puede ver la proteína Spike como, bueno, un montón de picos:
Los picos se montan en el cuerpo del virus ('la proteína nucleopísida'). Pero la cosa es que nuestra vacuna sólo está generando los picos en sí, y no los estamos montando en ningún tipo de cuerpo de virus.
Resulta que, sin modificar, las proteínas Spike independientes colapsan en una estructura diferente. Si se inyecta como una vacuna, esto de hecho haría que nuestros cuerpos desarrollaran inmunidad. pero sólo contra la proteína de pico colapsada colapsada.
Y el verdadero SARS-CoV-2 aparece con el espiguante Spike. La vacuna no funcionaría muy bien en ese caso.
Entonces, ¿qué hacer? En
2017 se describió cómo poner una doble sustitución proline en el lugar justo haría que las proteínas SARS-CoV-1 y MERS S tomaran su configuración de "pre-fusión", incluso sin formar parte de todo el virus. Esto funciona porque Proline es un aminoácido muy rígido. Actúa como una especie de férula, estabilizando la proteína en el estado que necesitamos mostrar al sistema inmunológico.
Las
personas que
descubrieron esto deberían andar por ahí de manera alta. Las cantidades insoportables de engreído deben emanar de ellas. Y todo sería bien merecido.
(En realidad, muchos de estos científicos son tremendamente humildes - simplemente no sabría qué hacer conmigo mismo si hubiera hecho un descubrimiento tan importante!)
El final de la proteína, los siguientes pasos
Si nos desplazamos por el resto del código fuente, nos encontramos con algunas pequeñas modificaciones al final de la proteína Spike:
V L K G V K L H Y T s
Virus: GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Vaccine: GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA
V L K G V K L H Y T s s
! ! ! ! ! ! ! !
Al final de una proteína encontramos un codón 'stop', denotado aquí por una 's' minúscula. Esta es una forma educada de decir que la proteína debe terminar aquí. El virus original utiliza el codón de parada UAA, la vacuna utiliza dos codones de parada UGA, tal vez sólo para una buena medida.
La región no traducible de 3'
Al igual que el ribosoma necesitaba algo de plomo en el extremo 5', donde encontramos la "región de cinco primos sin traducir", al final de una proteína encontramos una construcción similar llamada UTR de 3'.
Se podrían escribir muchas palabras sobre la UTR de 3', pero aquí cito
lo que dice la Wikipedia:"La región no traducible de 3'-untranslated juega un papel crucial en la expresión génica al influir en la localización, estabilidad, exportación, y la eficiencia de traducción de un ARNm ..
a pesar de nuestra comprensión actual de los 3'-UTRs, todavía son misterios relativos".
Lo que sí sabemos es que ciertos 3'-UTRs son muy exitosos en la promoción de la expresión de proteínas. Según el documento de la OMS, la vacuna BioNTech/Pfizer 3'-UTR se escogió de "el potenciador aminoteral del ARNm dividido (AES) y el ARN ribosomal 12S codificado mitocondrial para conferir estabilidad del ARN y alta expresión total de proteínas". A lo que digo, bien hecho.
El extremo AAAAAAAAAAAAAAAAAAAAAA DE todo
El extremo del ARNm está poliadenilado. Esta es una manera elegante de decir que termina en una gran cantidad de AAAAAAAAAAAAAAAAAAAAAA. Incluso el ARNm ha tenido suficiente de 2020 parece.
el ARNm se puede reutilizar muchas veces, pero como esto sucede, también pierde algunas de las A al final. Una vez que la A se agota, el ARNm ya no es funcional y se descarta. De esta manera, la cola 'poli-A' es la protección contra la degradación.
Se han realizado estudios para averiguar cuál es el número óptimo de A al final para las vacunas contra el ARNm. Leí en la literatura abierta que esto alcanzó un máximo de 120.
La vacuna BNT162b2 termina con:
****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA
Esto es 30 A, luego un "enlace de nucleótidos" (GCAUAUGACU), seguido de otros 70 A.
Sospecho que lo que vemos aquí es el resultado de una optimización patentada adicional para mejorar aún más la expresión de proteínas.
Resumen
Con esto, ahora sabemos el contenido exacto de ARNm de la vacuna BNT162b2, y para la mayoría de las partes entendemos por qué están allí:
- La PAC para asegurarse de que el ARN se parece al ARNm regular
- Una región conocida exitosa y optimizada de 5' sin traducir (UTR)
- Un péptido de señal optimizado para codón para enviar la proteína Spike al lugar correcto (copiado 100% del virus original)
- Una versión optimizada para codón del pico original, con dos sustituciones de 'Proline' para asegurarse de que la proteína aparece en la forma correcta
- Una región conocida exitosa y optimizada de 3' sin traducir
- Una cola de poli-A ligeramente misteriosa con un 'linker' inexplicable en allí
La optimización del codón añade una gran cantidad de G y C al ARNm. Mientras tanto, el uso de Ψ (1-metil-3'-pseudouridylyl) en lugar de U ayuda a evadir nuestro sistema inmunológico, por lo que el ARNm permanece el tiempo suficiente para que podamos ayudar a entrenar el sistema inmunológico.