Proyecto de recopilación de datos ENCODE

ENCODE, en la Enciclopedia completa de elementos de ADN, un proyecto colaborativo de recolección de datos iniciado en 2003 que tenía como objetivo inventariar todos los elementos funcionales del genoma humano. ENCODE fue concebido por investigadores del Instituto Nacional de Investigación del Genoma Humano de EE. UU. (NHGRI) como una continuación del Proyecto del Genoma Humano (HGP; 1990-2003), que había producido una cantidad masiva de datos de secuencia de ADN pero no había involucrado un análisis exhaustivo de elementos genómicos específicos.

La información recopilada por los científicos de ENCODE fue concebida para servir como una especie de guía, facilitando el estudio de los componentes del genoma humano que contribuyen a la función de las células y los tejidos y que, por lo tanto, tienen implicaciones para la salud y la enfermedad humana. También proporcionó información importante para el estudio de la evolución y la genética humana, generando en última instancia datos que no solo sugirieron que vastas regiones del genoma que alguna vez se consideraron no funcionales eran de hecho funcionalmente importantes, sino que también desafiaron el concepto básico de un gen.

La búsqueda de elementos funcionales.

Los elementos funcionales del genoma humano, como se define en el proyecto ENCODE, incluyen aquellos segmentos de ADN que codifican moléculas de ARN a través del proceso de transcripción, que se unen a proteínas reguladoras conocidas como factores de transcripción, o que poseen sitios de unión para grupos metilo, que son capaces de modificar la estructura de la cromatina (las fibras compactas de ADN-proteína que se condensan para formar cromosomas). Estos elementos pertenecen a la red reguladora genómica (o reguloma), cuya característica es la producción de transcripciones de ARN a partir de genes que transportan información para la producción de proteínas. Las proteínas finalmente dan forma a las células y los tejidos, y regulan los procesos químicos que son esenciales para la vida.

Sin embargo, cuando el HGP llegó a su fin en 2003, no estaba claro qué parte del genoma humano se transcribió activamente en el ARN codificador de proteínas, y la complejidad y la función de las transcripciones de ARN no se habían explorado exhaustivamente. Del mismo modo, la relevancia funcional de otras características genómicas, que van desde las relaciones entre la expresión génica y la modificación de las proteínas histonas en la cromatina hasta la importancia transcripcional de los pseudogenes (secuencias de ADN relicto que se cree que han desaparecido como resultado de la evolución). Como resultado, había una necesidad significativa de un enfoque sistemático para identificar y mapear las ubicaciones de los elementos funcionales y caracterizar las relaciones físicas de los elementos en el reguloma. Esos objetivos fueron adoptados por los científicos de ENCODE, y se esperaba que su cumplimiento condujera a una comprensión más profunda de los mecanismos que controlan los genes y su actividad.

Estructura del proyecto ENCODE

ENCODE se dividió en dos etapas: una fase piloto y de desarrollo tecnológico y una fase de producción. El componente piloto se centró en la selección de un conjunto de métodos experimentales y computacionales que los investigadores de ENCODE podrían utilizar para identificar elementos funcionales dentro de los aproximadamente tres mil millones de pares de bases que conforman el genoma humano. Para facilitar las comparaciones de efectividad y eficiencia, se probaron diferentes métodos en las mismas regiones objetivo que cubren un total de 30 millones de pares de bases (30 Mb; aproximadamente el 1 por ciento del genoma humano) dentro de diferentes tipos de células humanas. Entre los métodos explorados se encontraban ciertas tecnologías de secuenciación de ADN de próxima generación y conjuntos de mosaicos genómicos (herramientas para escanear genomas completos en busca de regiones con características dadas) y otros enfoques computacionales (como el análisis de la estructura de la cromatina). El refinamiento de las tecnologías capaces de generar datos en una capacidad de alto rendimiento (automatizada) formó la base del componente de desarrollo tecnológico de ENCODE. Los métodos identificados como los más útiles se ampliaron para un análisis completo del genoma.

La fase de producción a gran escala de ENCODE, en la que los científicos ampliaron la búsqueda de elementos funcionales al 99 por ciento restante del genoma humano, comenzó en 2007 y se completó en 2012. Más de 400 científicos, la mayoría financiados por el NHGRI, participaron en la fase a gran escala. Estos investigadores formaron la mayor parte del Consorcio ENCODE, y las instituciones con sede en los EE. UU. Donde realizaron su investigación fueron designadas como Centros de Producción ENCODE. El Consorcio ENCODE, además de llevar a cabo el trabajo de crear un inventario de elementos funcionales, también desarrolló ciertas pautas de trabajo, como el uso de líneas celulares designadas y herramientas estandarizadas de análisis de datos e informes de datos, que fueron fundamentales para permitir las comparaciones de Datos generados por los diferentes laboratorios participantes.

Los Centros de Producción ENCODE fueron apoyados por un Centro de Coordinación de Datos (DCC), ubicado en la Universidad de California, Santa Cruz. El DCC sirvió como el principal repositorio de datos del proyecto, proporcionó a los participantes del estudio un portal común a través del cual podían enviar sus datos, capturaron metadatos asociados con experimentos y conjuntos de datos, y desarrollaron protocolos de estandarización y verificación de datos. El DCC también desarrolló tutoriales para ayudar a los investigadores en general que estaban interesados en usar los datos una vez que se pusieron a disposición del público. Más tarde, se agregó un proyecto al Centro de Análisis de Datos (DAC), con sede en la Facultad de Medicina de la Universidad de Massachusetts. El DAC ayudó con el análisis integrador de datos ENCODE.

El inventario ENCODE

Los resultados iniciales de la fase piloto de ENCODE se publicaron en 2007. Aunque esta etapa del proyecto se refería principalmente a la enumeración de los elementos funcionales encontrados dentro de los 30 Mb de secuencias objetivo, el proceso de identificación de formas de integrar y analizar conjuntos de datos condujo a observaciones intrigantes, particularmente sobre la estructura y el comportamiento de los genes. Estas primeras conclusiones fueron respaldadas por los datos adicionales generados durante la fase de producción de ENCODE, cuyos resultados se publicaron en 2012. Los resultados de la fase de producción también renovaron el debate sobre la importancia funcional del ADN no codificante.

Redefiniendo el gen

Los datos de ENCODE publicados en 2007 revelaron que el genoma humano está cubierto ampliamente por las transcripciones de ARN, algunas de las cuales se producen a través de un empalme alternativo (edición de una transcripción primaria que da como resultado la producción de una proteína diferente de la que normalmente codifica la transcripción). Los hallazgos corroboraron informes anteriores, en los que los científicos propusieron que el genoma humano consiste en vastas redes transcripcionales. Sin embargo, la existencia de estas redes desdibujó las ideas tradicionales sobre los límites entre los genes y las regiones intergénicas (las brechas entre los genes) y, por lo tanto, desafió el concepto básico del gen como una unidad discreta de codificación de proteínas. El concepto fue cuestionado nuevamente en 2012, cuando los científicos de ENCODE informaron que hasta el 75 por ciento del genoma humano puede estar cubierto por transcripciones de ARN primarias. Esta amplia cobertura de ARN implica una superposición significativa entre los genes vecinos.

Un papel funcional para el ADN no codificante

Los datos de la fase de producción revelaron además que el 80 por ciento del genoma humano es bioquímicamente funcional como resultado de la asociación con actividades de ARN o cromatina. Dado que la mayor parte del genoma humano está formado por ADN no codificante (lo que antes algunos consideraban ADN "basura"), los datos implicaban que estas regiones, que no producen proteínas y, por lo tanto, se suponía que no eran funcionales, son de hecho funcionalmente pertinente. Aunque los investigadores externos al proyecto ENCODE habían llegado a esta misma conclusión anteriormente, los datos de ENCODE enfatizaron su importancia. La investigación realizada de forma independiente y como parte de ENCODE indicó que las regiones no codificantes pueden jugar un papel importante en la regulación de la producción de proteínas y en el mantenimiento de la integridad estructural del genoma.