Многие некодирующие участки генома служат посадочными площадками для специальных белков, которые управляют работой генов. Замены нуклеотидов в пределах этих площадок могут влиять на их взаимодействие с белками, нарушая активность генов и вызывая ряд патологий. Путем масштабного компьютерного анализа российские ученые из Института белка РАН, ИОГен РАН им. Н. И. Вавилова и МФТИ составили каталог из сотни тысяч геномных вариантов, влияющих на посадку факторов транскрипции в различных типах клеток. Результаты исследования опубликованы в журнале Nature Communications.
Все белки организма закодированы в определенных участках ДНК — генах. Как уже существующие в популяции геномные варианты, так и недавние мутации могут приводить к изменению последовательности белка, его структуры и функции, что может вызвать развитие и усугубление различных заболеваний.
Считывание информации (синтез РНК на основе ДНК) называется транскрипцией. На основе рибонуклеиновой копии будут синтезироваться белки, определяющие признаки клетки и всего организма. Если это происходит неправильно или не происходит вообще, возникают патологии. При этом большую роль играют не только гены, но и т.н. некодирующие последовательности. К ним относятся особые «регуляторные» участки ДНК — специфичные посадочные площадки для управляющих транскрипцией белков (факторов транскрипции). Замена всего одного нуклеотида приводит к появлению нового варианта с другими «посадочными» свойствами, а значит, и активность чтения подконтрольного гена изменяется.
Российские ученые провели масштабный вычислительный анализ опубликованных экспериментов по картированию взаимодействий регуляторных белков и ДНК. Им удалось единым образом проанализировать результаты нескольких тысяч экспериментов для разнообразных типов клеток. Полученная карта содержит сотни тысяч событий т.н. аллель-специфичного связывания. Сопоставив их с данными о генетике различных заболеваний, исследователи выяснили, что те варианты, которые приводят к потере связывания регуляторного белка, намного чаще оказываются вовлеченными в развитие болезни.
Авторы работы подчеркивают, что это лишь вершина айсберга, но тем не менее коллекция уже содержит на порядок больше информации об аллель-специфичных взаимодействиях, чем было известно до сих пор. Эти данные могут быть полезны медицинским генетикам для понимания функциональной роли вариантов, расположенных в регуляторных областях генов, а также вычислительным биологам для построения и проверки новых моделей взаимодействия факторов транскрипции и ДНК на основе машинного обучения.