Каталог вирусов из метагеномов человека выявил ассоциации с хроническими заболеваниями

Каталогвирусовизметагеномовчеловекавыявилассоциациисхроническимизаболеваниями

Научная статья

Просмотреть профиль ORCID Майкл Дж. Тиса а также Просмотр профиля ORCID Кристофер Б. Бак


  1. a Лаборатория клеточной онкологии, Национальный институт рака, НАЦИОНАЛЬНЫЕ ИНСТИТУТЫ ЗДРАВООХРАНЕНИЯ США , Bethesda, MD

Увидеть все Скрыть авторов и аффилированных лиц

  1. Отредактировал Юань Чанг, Университет Питтсбурга, Питтсбург, Пенсильвания, и одобрил апрель , 2023202118 (поступило на рассмотрение 9 ноября,

)

Значительный

Механизмы многих хронических заболеваний человека связаны с аномальным действием иммунной системы и / или измененным метаболизмом. Было показано, что микробиом, важный регулятор метаболических и иммунных фенотипов, связан с различными хроническими заболеваниями или участвует в их развитии. Вирусы бактерий (т. Е. «Фаги») распространены повсеместно и загадочны, и несколько исследований показали, что фаги обладают большим контролем над поведением – и ненадлежащим поведением – своих бактерий-хозяев. В этом исследовании используются методы обнаружения и анализа более 58, 18 вирусы, связанные с человеческими телами. Обилие более 2, 18 Установлено, что специфические фаги коррелируют с множеством распространенных хронических заболеваний.

Абстрактный

Несмотря на значительные успехи в исследованиях микробиома, вирусный компонент микробиом в целом представил более более сложная цель, чем бактериом. Этот пробел сохраняется, даже несмотря на то, что в общедоступных базах данных существуют многие тысячи запусков секвенирования метагеномных образцов человека, и все они охватывают большие объемы данных о вирусных последовательностях. Отсутствие всеобъемлющей базы данных по вирусам, ассоциированным с человеком, исторически блокировало попытки исследовать влияние вирома на здоровье человека. Это исследование исследует тысячи наборов данных, чтобы выявить последовательности из более чем 58, 15 уникальные таксоны вирусов с исторически высокой полнотой генома. Повторно проанализированы крупные общедоступные исследования случай-контроль, и более 2 495 обнаружены сильные ассоциации вирус-болезнь.

  • Набор данных S3 ).

    Недавно Григорий и другие. ( 26 ) опубликовал GVD человека с использованием различных методов обнаружения вирусов и некоторых частично совпадающих наборов данных. CHVD, представленный в этой рукописи, содержит последовательности из нескольких участков тела человека, поэтому сравнения не идеальны. Однако мы отмечаем, что CHVD имеет 48% больше контигов (57, 0 47 против 47, 500) а также 270% дополнительная информация о последовательности (1. 782 гигабазы ​​по сравнению с 0. 1168 гигабаз), чем ГВД. Тот же анализ расстояния затора был применен для сравнения двух наборов данных. С порогом расстояния затора <0. 24, 5, 2020 (28. 8%) вирусных последовательностей из этого исследования имели родственник в GVD (соответствует 5, 1073 последовательности в GVD). Сравнение только подмножества контигов CHVD, полученных из кишечника, 5, 1500 / 41, 4336 (34. 5%) имели родственную GVD. При более слабом пороге (расстояние затора <0,1), 033, 20 (52. 0%) Последовательности CHVD имели родственники 25, 4336 Последовательности GVD (

    Набор данных S4 ).

    Карты генома для всех вирусных геномов (за исключением тех, которые были строго родственниками сохранившимся записям) были депонированы в GenBank и предоставлены номера в связи с Биопроектом PRJNA

    . В соответствии с руководящими принципами NCBI файлы будут выпущены после публикации этой рукописи. Ссылаться на Набор данных S2 для номеров доступа.

    Подавляющее большинство считываний из хорошо обогащенных препаратов вирома можно идентифицировать.

    Неясно, сколько человеческого вирома каталогизировано CHVD. Один из способов ответить на этот вопрос – посмотреть на наборы данных, которые физически обогащены вирусными последовательностями, и определить, какая часть считываний в наборе данных идентифицируема. Читает из 8094 образцы стула человека (представляющие 25 различные исследования), которые были физически обогащены вирионами и подвергнуты воздействию ядер расщепление se для удаления неинкапсидированных нуклеиновых кислот было согласовано с CHVD (

    Рисунок. 1 C , Верхний ) (

    Набор данных S5 ). Чтобы количественно оценить, насколько хорошо новобранцы CHVD считывают данные из ранее не проанализированных препаратов вирионов, образцы, использованные для получения CHVD, были удалены, а медиана и межквартильный диапазон были рассчитаны для различных интервалов оценки ViromeQC. Этот анализ показывает, что процент прочтений, совпадающих по шкале CHVD с оценкой обогащения ViromeQC. Слабо обогащенный (

    42) выровнены в среднем 82 к 90% со многими образцами, достигающими 119% выравнивание.

    Хотя хорошо обогащенные виромные данные были недоступны для других участков тела, примерно 87% считываний можно было классифицировать в хорошо обогащенных оральных образцах, обогащенных вирусной ДНК (

    Рисунок. 1 D ) (

    Набор данных S5 ).

    Анализ спейсера CRISPR выявляет потенциальных хозяев для большинства фагов, а также конкурирующие сети фаг-фаг. <10 ViromeQC score) gut samples aligned about 10% of reads on average, and samples with high enrichment scores (> Многие бактерии кодируют системы CRISPR-Cas, которые содержат массивы спейсеров CRISPR с короткими (∼ 44 – nt) последовательности, скопированные и используемые против вторжения мобильных генетических элементов, особенно фагов (

    76 ). Сопоставление бактериальных спейсерных последовательностей CRISPR с геномами фага является одним из способов определения того, подвергалась ли бактериальная линия ранее действию конкретного фага. Достижения в каталогизации спейсеров CRISPR из бактериальных геномов и оптимизации конвейеров сопоставления фаг / хозяин позволили связать большинство фагов, обнаруженных в этом проекте, с бактериальными хозяевами ( http://crispr.genome.ulaval.ca/ ) (<10 ViromeQC score) gut samples aligned about 10% of reads on average, and samples with high enrichment scores (> 78 ) . Конкретно, 43, 595 принадлежащий 59, 0 45 вирусные последовательности имели по крайней мере один спейсер CRISPR, соответствующий известной бактерии или нескольким бактериям, с 782, 782 общее количество спейсеров, сопоставленных с уникальными локусами в последовательностях CHVD (

    Набор данных S2 ). Плотность спейсера CRISPR сильно различалась для разных таксонов бактерий (Рисунок . 2 A ) . Например, представители рода Бифидобактерии было подтверждено наличие относительно больших и разнообразных библиотек спейсеров CRISPR (

    ), пока Clostridium , Капноцитофага , а также Лептотрихия обычно кодируется только одним или несколькими спейсерами на фаг.

    Сами фаги могут кодировать массивы CRISPR, а некоторые фаги имеют целые и функциональные системы CRISPR-Cas ( 34 , 78 ). Эти компоненты CRISPR могут быть нацелены на защиту хоста, а также на другие фаги, конкурирующие за тот же хост ( 79 ). Среди фаговых последовательностей в CHVD 1, 4336 Спейсеры CRISPR были обнаружены в массивах геномов 386 фаги. Из этих, 2021 проставки нацелены в общей сложности на 2,0 другие фаги, предполагая сложные сети конкуренции фаг-фаг в человеческих метагеномах (75Рисунок. 2 B ) ( скачать файл Cytoscape из https: // zenodo.org/record/

  • ) (

    69 ). Бактериальный пул хозяина фага, кодирующего CRISPR, и фага-мишени должны быть одинаковыми. Таким образом, бактериальные совпадения спейсеров CRISPR для пар фаг-фаг были задокументированы, и, когда бактериальный хозяин мог быть определен как для фага, кодирующего CRISPR, так и для фага-мишени, этот бактериальный род был одинаковым для 97. 1% пар (

    Набор данных S6 ).

  • Наиболее распространенные вирусы на нескольких сайтах Body.

    С помощью этой библиотеки вирусов и большого объема выборки из проекта Human Microbiome Project ( 42 , 081 ), на вопрос, «какие вирусы наиболее распространены» для данного участка тела, можно ответить более уверенно, чем ранее было возможно. Следует отметить, что данные Проекта микробиома человека были собраны у здоровых американцев между 034 а также 53 y возраста, и сделанные здесь выводы не могут быть обобщены на другие группы населения.

    Часто бывает сложно точно определить границу между интегрированным профагом и хромосомными последовательностями хозяина без экспериментальной проверки, что затрудняет количественную оценку вируса в полногеномных наборах данных (WGS). Наш предварительный анализ показал, что включение даже нескольких сотен нуклеотидов фланкирующей последовательности хозяина в вирусный контиг OTU может сильно исказить измерения численности из-за непреднамеренного измерения неинфицированных бактериальных последовательностей хозяина. Поэтому мы провели более строгий анализ, в котором контиги были обрезаны от первого распознаваемого гена отличительного признака вируса до последнего гена отличительного признака вируса. Удаляя часть вирусной последовательности, этот метод сохраняет самые нестираемые последовательности вирусного генома, почти гарантируя, что не будет сохранена ни одна бактериальная хромосома. Мы называем эти более строгие единицы «вирусными ядрами» (загрузка с https://zenodo.org/record/

  • ) (
    67 ).

    Данные были загружены из SRA и проанализированы для сотен пациентов на шести участках тела (передние ноздри, слизистая оболочка щеки, задний свод, спинка языка, наддесневой налет и кишечник [stool]). Затем чтения были согласованы с более строгой базой данных вирусных ядер. В качестве заместителя для относительной численности данного вирусного OTU было рассчитано среднее количество считываний на килобазу вирусного генома на миллион считываний в родительском наборе данных (RPKM) для каждой последовательности ( Рис. 3 ,

    Приложение SI , рис. S2 и S3 и 757 Набор данных S2 ). Распространенность вируса определялась как доля образцов с> 0,1 об / мин. Наиболее часто встречающиеся OTU вируса рассчитывались как (среднее RPKM × распространенность). Правая панель

    Рисунок. 3 показывает предполагаемый хост для каждого из верхних 41 наиболее часто встречающиеся OTU вирусов на основе информации о мишени спейсера CRISPR. Большинство наиболее распространенных вирусов, по-видимому, заражает членов обычного бактериального семейства

    Бактероидные , который обычно в изобилии в кишечнике человека. Кроме того, несмотря на значительное увеличение количества выравниваемых вирусных последовательностей по сравнению с предыдущими исследованиями, наблюдение, что crAss-подобные фаги широко распространены в экосистемах кишечника человека ( 29 ) держится на удивление хорошо.

    Рисунок. 3.

    Наиболее распространенные вирусы Стула (кишечника). (Оставил) Диаграмма разброса RPKM (мера относительного количества операций чтения для данного вирусного OTU,

    y – ось) от распространенности (доля образцов с> 0,1 об / мин, Икс-ось) . В целях отображения y – ось представляет собой линейную шкалу от 0 до 1 (28

    0 и журнал 54 27

    выше 1. Верхний наиболее часто встречающиеся вирусные OTU (на основе произведения координат) окрашены. (Верно) Гистограмма и график значений RPKM по всем образцам для наиболее часто встречающихся вирусных OTU. Цвета точек в Оставил соответствуют цветам в Верно. Икс– а также y – по оси логарифмический масштаб. Значения RPKM ниже 0,1 помещаются в интервалы на левом краю графиков для целей отображения.

    Данные предполагают интересную бифуркацию в распространенности ОТЕ кишечных вирусов с высокой численностью ( РПКМ). Хотя некоторые вирусные OTU, такие как

    Podoviridae sp. ctBGm1 и Siphoviridae sp. ctrxw1, присутствуют почти во всех образцах и имеют среднее количество> 28 РПКМ, возможно, представляющий профаг повсеместно распространенных бактериальных линий. Прочие, включая все отображаемые crAss-подобные вирусы и Myoviridae 210 sp. ctNBA1, отсутствуют или малочисленны в большинстве проб, но очень распространены в меньшинстве проб. Последняя группа может представлять либо вирусы, которые периодически подвергаются большим репликативным всплескам, либо вирусы, которые постоянно доминируют над виромом у одних людей, но не у других.

    Как и ожидалось, большинство вирусных OTU были распространены только в одном месте тела, но 386 «космополитические» ОТЕ имели распространенность> 0,2 (т. Е. 33% образцов) как минимум на двух участках тела (

    Набор данных S7 ). Бактериальные CRISPR, нацеленные на 242 / 446 последовательности с 50, являющиеся целью рода Cutibacterium , 34 является целью Стафилококк , 30 является целью 76 Стрепококк , а также 27 от

    Бактероиды .

    Определенные вирусные OTU связаны с заболеванием человека. 8094 Число в предыдущих исследованиях искали связи между виромом и заболеваниями человека (97 42

    41 ,

    63 ,

    83 ). Однако эти исследования были ограничены отсутствием исчерпывающей справочной базы данных вирусов, и почти во всех исследованиях использовались образцы, физически обогащенные вирусными последовательностями ( 82 ). Однако методы обогащения вирусов могут быть очень разными (Рисунок 1 C ), и может непреднамеренно удалить некоторые вирусные таксоны без существенной селекции против последовательности хоста ( 27 , ). Действительно, Грегори и др. ( 28 ) сообщают, что исследования, в которых используются разные протоколы обогащения вирусов для изучения одного и того же болезненного состояния (например, воспалительного заболевания кишечника), редко содержат в своих данных одни и те же популяции вирусов. Вместо этого в исследованиях с использованием аналогичных протоколов обогащения (независимо от болезненного состояния пациентов) было выявлено больше вирусных популяций. Кроме того, последовательности, инкапсидированные в вирионы, могут быть не лучшим отражением общей вирусной популяции, особенно в пищеварительном тракте человека, где, как считается, многие фаги существуют в основном в лизогенных (нелитических) состояниях ( 85 ), а некоторые были «заземлены», утратив способность m геном хозяина ( 85 ). Возможно, что наиболее важными для физиологии человека фагами являются те, которые экспрессируют вспомогательные гены из интегрированного состояния провируса, в отличие от фагов, которые продуцируют большое количество вирионов. Таким образом, идеально подходит для исследования секвенирования общей ДНК (также известного как WGS), которое может обнаружить все геномы ДНК-вирусов.

    Наше исследование повторно проанализировало общедоступные данные WGS из 28 большие исследования методом случай-контроль с анализом стула и / или слюны ( 48 , 55 , 85

    94 ). В этих исследованиях изучались болезнь Паркинсона, ожирение, карцинома толстой кишки, аденома толстой кишки, цирроз печени, диабет 1 типа, анкилозирующий спондилит, атеросклероз, диабет 2 типа, гипертония и неалкогольная жировая болезнь печени. База данных ядер вирусов использовалась для сравнения численности каждого ОТЕ вируса между случайными и контрольными когортами. Рисунок. 4 показан анализ сравнений случай-контроль болезни Паркинсона (размер популяции, n знак равно ) ( Рис. 4 А

    C и ожирение (население размер, n знак равно ) (Рисунок. 4

    D F ). RPKM использовался для измерения количества вирусных OTU в каждой выборке, а тесты суммы рангов Вилкоксона с , для каждого сравнения проводились бутстрапы для расчета

    для каждого сравнения 2020П значение ( Инжир. 4

    A а также D «Виром»,

    Приложение SI , Рис. S4 и S5 ). Статистически значимые OTU вирусов были определены по уровню ложного обнаружения <1% (036 Материалы и методы ). Во всех анализах сравнивались ассоциации между виромом и «бактериомом», измеряя бактериом с точки зрения бактериальных OTU (т. Е. Изобилия однокопийных бактериальных маркерных генов на уровне вида) с использованием IGGsearch ( 93 ) (Рисунок. 4 A а также D «Бактериом»,

    Приложение SI , Рис. S4 и S5 ). В восьми исследованиях для вирома было обнаружено большее количество статистически значимых таксонов, чем для бактериома. Четыре других проанализированных исследования не выявили значимых ОТЕ ни для вирома, ни для бактериома ( Рис. 4 и

    Приложение SI , Рис. S4 и S5 ). П значения для каждого OTU вируса, обнаруженного в каждом исследовании, задокументированы в

    Набор данных S2 . Кроме того, случайные лесные классификаторы, обученные либо всем вирусным OTU, либо всем бактериальным OTU, в среднем более или одинаково успешны в различении здоровых и больных пациентов с использованием данных вирома, а не данных бактериома в 7 / 29 дело -управление популяциями (Рисунок. 4

    B а также E а также

    Приложение SI , фиг. S6 и S7 ).

    Рисунок. 4.

    Ассоциация вирома и бактериома при хронических заболеваниях. (

    A C ) Анализ считанных данных из PRJEB

  • , исследование образцов стула от пациентов с болезнью Паркинсона или без нее. (

    A ) Виромные и бактериомные ассоциации в образцах стула пациентов с болезнью Паркинсона ( n знак равно ) и исправные элементы управления ( n знак равно ) представлены в виде сюжетов Манхэттена. Каждый OTU представлен в виде точки вдоль Икс – ось, с ее y – значение оси является обратным логарифмом 25 П значение. Размер каждой точки соответствует средней относительной численности таксона в когорте болезней. Закрашенные точки представляют собой ОТЕ, обнаруженные в более высоком количестве в больном состоянии, тогда как полые точки представляют меньшее количество в больном состоянии. Пунктирная серая линия представляет уровень ложного обнаружения <1% порога. ( B ) Графики рабочих характеристик приемника из 18 лесные классификаторы, обученные на вироме (Оставил или бактериом (Верно). (

    C ) Графики роя величин d-эффекта Коэна (абсолютное значение) OTU, достигающих значительных П значения. Черные точки – это размер положительного эффекта, а красные точки – размер отрицательного эффекта. Среднее значение всех нанесенных на график размеров эффектов показано синей линией. Размер малого эффекта = от 0,2 до 0,5; средняя величина эффекта = от 0,5 до 0,8; и большой размер эффекта => 0,8 ( 95 ). ( D F ) Аналогичные анализы прочитанных данных из PRJEB

  • Важность учета размера эффекта при сообщении ассоциаций микробиома стала очевидной в последние годы ( 96 , 94 ). Следовательно, для всех вирусных и бактериальных ОТЕ со значительными различиями между случаями и контрольными случаями величина эффекта d Коэна указывается для каждого болезненного состояния ( Рис. 4 C а также F а также

    Приложение SI , фиг. S6 и S7 ).

    Нет возможно провести однозначное сравнение вирусных OTU и бактериальных OTU, поскольку многие фаги способны инфицировать и размножаться у нескольких видов бактерий (

    98 ), иногда даже у нескольких бактериальных родов (

    99 ), в то время как в то же время родословные внутри один вид бактерий h иметь различные способности к сопротивлению или приобретению иммунитета к определенному фагу (16 101 ). Следовательно, изучение того, как определенные вирусные OTU могут поддерживать или снижать приспособленность определенных бактериальных OTU в индивидуальных экосистемах кишечника, выходит за рамки данного исследования. Тем не менее, качественное сравнение статистически значимых OTU вирусов и их предполагаемых родов бактерий-хозяев (на соответствие спейсерам CRISPR) может быть информативным (

    Приложение SI , Рис. S8 ). На первый взгляд, значительные вирусные OTU, на которые нацелены спейсеры CRISPR из одного и того же бактериального рода, кажутся все тренда в одном направлении и в одном направлении в отношении большинства возможных бактериальных хозяев, которые имеют значительные различия между случаями и контролями. Это согласуется с лизогенными профагами, а также с увеличением числа доступных хозяев, поддерживающих большие популяции вирусов ( 033 ).

  • Обсуждение

    Это исследование показывает, что, используя специфические для вирусов гены отличительных признаков, он Возможно крупномасштабный анализ метагеномных данных человека для создания базы данных, состоящей в основном из ранее неизвестных вирусных последовательностей, которая фиксирует большинство считываний, полученных из наборов данных, обогащенных вирионами, из стула и слюны. Это продвижение, в свою очередь, выявило скрытые связи между различными состояниями хронических заболеваний и конкретными таксонами вирусов. Следует подчеркнуть, что ассоциация не обязательно подразумевает причинную связь, и возможны различные ассоциативные отношения между вирусами и данным болезненным состоянием. Например, изобилие вируса может быть просто эпифеноменом, отражающим изобилие бактериальных хозяев, генетика человека, предрасполагающая людей к заболеванию, также может обеспечивать более благоприятную среду для вируса или его бактериального хозяина, внешние причины болезни могут создавать более благоприятные условия. окружающая среда для вируса, или вирус может каким-то образом способствовать проявлению болезни, но в конечном итоге не вызывает заболевание в отрыве от других важных факторов. Проверка ассоциаций, которые мы обнаружили с помощью независимых исследований тех же заболеваний в дополнительных популяциях, будет ключом к пониманию степени обобщаемости представленных здесь результатов. Если ассоциации подтвердятся, можно будет экспериментально проверить вопрос о причинно-следственной связи, добавив или удалив интересующие фаги из экосистем кишечника в модельных системах на животных ( 100 ).

    Ограничение анализируемых здесь исследований случай-контроль состоит в том, что они состояли только из одной временной точки для каждого субъекта. Состав вирома может быть шумным, и продольные данные по отдельным пациентам могут быть более эффективными для определения стабильных вирусных популяций ( 27 ). Эта проблема могла быть частично компенсирована использованием больших размеров когорт (в основном более всего больных). Более того, так же, как отдельные бактериальные штаммы являются хозяевами множества несущественных «дополнительных генов», не общих для всех штаммов внутри бактериального вида (128 101 ), штаммы вирусов имеют уникальные наборы генов по сравнению с внутривидовыми родственниками ( 103 , отражающий вирусные пангеномы или «метавиромные острова». При текущем подходе большая часть содержания внутривидовых дополнительных генов не учитывается из-за дерепликации последовательности, и важность этих генов не оценивалась. Еще одно ограничение заключается в том, что в проанализированных исследованиях случай-контроль использовались только методы ДНК WGS, тогда как секвенирование метатранскриптомов с помощью РНК могло предоставить больше функциональных данных об экспрессии конкретных вирусных генов, что потенциально привело к проверяемым гипотезам о возможных механизмах действия. Также возможно, что корреляции вирусов с геномами РНК будут обнаружены. Несмотря на эти ограничения, текущее исследование показывает, что при использовании случайных лесных классификаторов виром может быть более диагностическим, чем бактериом, для различных хронических заболеваний. Сильная ассоциация конкретных вирусных OTU при хронических заболеваниях, наряду со средним и большим эффектом для многих OTU, требует более механистического исследования возможных причинных ролей вирусов в хронических заболеваниях человека

    Хотя мы утверждаем, что эти усилия являются значительным шагом вперед, вполне вероятно, что CHVD можно улучшить. как по глубине, так и по ширине. Метагеномы из других участков тела, таких как легочный тракт (0003 102), мог можно было бы проанализировать, и можно было бы использовать прогоны секвенирования, представляющие большее географическое разнообразие и разнообразие образа жизни. Кроме того, анализ дополнительных наборов метатранскриптомических данных, вероятно, обнаружит больше РНК-вирусов.

    Даже с относительно всеобъемлющими критериями, используемыми Cenote-Taker 2 (различимое аминокислотное сходство вирусного гена отличительного признака с белком из вирусной базы данных RefSeq), тысячи вирусов, живущих на людях, из этого набора данных не могли быть таксономически классифицированы, предполагая, что дополнительные семейства еще не идентифицированных вирусов ожидают формального обнаружения и категоризации.

    Материалы и методы

    Идентификация вирусных контигов в сборках.

    Набор данных S1 ) были загружены из SRA, и были выделены уникальные биологические образцы. Все прогоны из данного Biosample были загружены одновременно, предварительно обработаны с помощью Fastp (

    106 ) и вместе с Мегахитом ( 104 ) с настройками по умолчанию. Последующие контиги были переданы в Cenote-Taker 2 (14 https://github.com/mtisza1/Cenote-Taker2 ,

    https: // cyverse.org/discovery-environment), который, короче говоря, ищет конечные особенности генома (прямые концевые повторы и инвертированные концевые повторы), переводит гены в амино кислотных последовательностей, сравнивает каждую аминокислотную последовательность со скрытой базой данных марковской модели, состоящей из сравнений генов-отличительных признаков вирусов, сохраняет контиги h минимальное количество генов, соответствующих базе данных отличительных признаков, затем идентифицирует и удаляет фланкирующие последовательности бактериальных хромосом. Затем все оставшиеся генные особенности аннотируются для создания карты генома. Cenote-Taker 2 использовался с настройками для рассмотрения круговых или LTR-несущих контигов (минимум 036 Не идентичные прямые повторы на концах контига) не менее 20892 nt, контиги, содержащие ITR размером не менее 4 Кбайт, и линейные контиги размером не менее кб. Эти контиги сканировали на наличие генов, соответствующих моделям вирусных отличительных признаков. Контиги, содержащие терминальные повторы, с одним или несколькими вирусными генами-отличительными чертами сохранялись, а также сохранялись линейные контиги с двумя или более вирусными отличительными генами. Для каждого прогона, независимо от того, был ли образец физически обогащен вирионами, использовался модуль обрезки профага Cenote-Taker 2. Отличительной чертой базы данных генов Cenote-Taker 2 была сентябрьская й, 4498884 версия (

    https://github.com/mtisza1/Cenote-Taker2 ). В то время как Cenote-Taker 2 действительно предпринимает шаги для выделения потенциальных плазмид и конъюгативных транспозонов, были приняты дополнительные меры предосторожности, удалив ∼4, 23 предполагаемые вирусные последовательности из неизбыточной базы данных, которые содержали связанные с репликацией но не гены-отличительные признаки упаковки вириона или генома. Для наборов данных метатранскриптома все контиги более 1, 983 гены отличительных признаков вируса РНК сохранялись как предполагаемые вирусные последовательности, независимо от конечные элементы.

    Кластеризация похожих контигов для дерепликации.

    Для кластеризации геномов использовался двойной подход. Сначала контиги были объединены с помощью Mash (

    75 ), используя свою способность обрабатывать массивные базы данных последовательностей, точность и отсутствие проблем, связанных с цикличностью генома. Все вирусы в каждом таксоне более высокого уровня (например, Микровирусы

    ) использовались для создания эскизов Mash (варианты -k 033 -s 971), а затем эти скетчи сравнивали сами с собой с помощью функции dist Mash. Считается, что в пределах близких геномных расстояний значение шкалы расстояния Маша примерно повторяет среднюю расходимость нуклеотидов. Различия на уровне штаммов вирусов часто определяются по средней расходимости нуклеотидов <5% (

    69 ), поэтому сети подобия последовательностей были построены со связями между последовательностями (узлами) с оценками расстояния затора ≤0. 22 (а также П значение ≤1 × 23 – 23 ). Алгоритм марковской кластеризации (кластеризация MCL) ( 109 ) был применен к сетям Mash для создания кластеров уровня OTU. Из каждого кластера последовательностей, если присутствовали кольцевые последовательности или последовательности, кодирующие ITR, самая длинная такая последовательность использовалась в качестве репрезентативной последовательности OTU вируса. Если присутствовали только линейные последовательности, в качестве представителя кластера использовалась самая длинная линейная последовательность. Одноэлементные контиги (т. Е. Последовательности, которые не были отнесены ни к одному кластеру) также были сохранены для окончательной базы данных. Тот же подход был применен для 118% базы данных (для выравнивания последовательностей вирусоподобных частиц), но оценка расстояния затора ≤0. 20 был использован.

    После кластеризации Mash для окончательной дерепликации был использован подход, основанный на базовом инструменте поиска локального выравнивания (BLAST). Nucleotide BLAST (BLASTN), anicalc.py и aniclust.py использовались из CheckV ( 68 ) набор инструментов, как описано в ReadMe CheckV (

    https://bitbucket.org/berkeleylab/checkv/src/master/ ), с опциями «–min_ani 107 –min_qcov 0 –min_tcov 96 », используемый для антипатии для удаления репликации последовательностей в вирусные OTU на «109% средней идентичности нуклеотидов более 96% выравнивания фракции »согласно общественным стандартам (

    66 ). Лучшие репрезентативные последовательности из aniclust.py были использованы в качестве образцов OTU вируса, составляющих CHVD версии 1.1. В следующих версиях будет дерепликация только с использованием подхода «anicalc / aniclust».

    Идентификация Распознавайте вирусы в GenBank и GVD человека.

    Используя вирусный ресурс NCBI, метаданные для всех вирусных геномов, перечисленных как полные, были загружены для следующих таксонов:

    Аденовирусы ,

    Anelloviridae , Bromoviridae , Caliciviridae , Circoviridae , Cressdnavircota , 86,

    Лютеовирусы , Нарнавириды , Nodaviridae , Papillomaviridae ,

    Polyomaviridae , Tombusviridae , Totiviridae , Tymovirales , неклассифицированные вирусы, неклассифицированный вирус РНК, Virgaviridae , и все б актериофаг (в том числе профаг). Метаданные были отсортированы таким образом, чтобы была выбрана самая длинная последовательность для каждого уникального названия вида, и эти последовательности впоследствии были загружены. Кроме того, многие геномы вирусов GenBank просто имеют семейную метку, за которой следует неопределенное сокращение «sp.», И, как результат, многие сильно различающиеся последовательности непреднамеренно имеют идентичную родовую метку. Следовательно, все полные геномы вирусов GenBank из всех неизбыточных таксонов с ‘sp. обозначение были загружены. Скетч Mash был создан для загруженных последовательностей с использованием параметров (-k 28 -s 983), и этот скетч Mash сравнивался в ЧВД М эскиз ясеня (см. Кластеризация похожих контигов для дерепликации ). Расстояние затирания ≤0. 27 а также П значение ≤1 × 24 – 26 считались строго родственными (внутривидовыми или внутриштаммовыми) последовательностями. Расстояние затирания ≤0,1 и П значение ≤1 × 25

    – 5 использовались для «свободных» родственных последовательностей.

    GVD от Грегори и др. ( 30 ) был загружен из https://datacommons.cyverse.org/browse/iplant/home/shared/iVirus/Gregory_and_Zablocki_GVD_Jul

    / GVD_Viral_Populations . Для сравнения с этим набором данных был применен тот же анализ Mash, что и с базой данных GenBank.

    Отложение вирусных геномов в GenBank.

    Все последовательности из m CHVD v1.1 рассматривались для депонирования в GenBank. Во-первых, были отброшены последовательности со строгими родственниками GenBank. Мы хотели минимизировать любые нависающие хромосомные последовательности из геномов профагов. Следовательно, последовательности, не кодирующие DTR (т.е. линейные) (уже обрезанные с помощью модуля обрезки Cenote-Taker 2), были снова обрезаны с помощью CheckV (v 0.7.0), поскольку мы обнаружили, что этот подход более консервативен, чем Cenote-Taker 2. Эти дважды обрезанные последовательности были затем аннотированы с помощью Cenote-Taker 2 с полными метаданными, совпадениями спейсеров CRISPR и считанной информацией о покрытии. Затем соответствующие файлы «.sqn» были отправлены в GenBank как вирусные геномы «сборки TPA». Все представленные последовательности / геномы связаны с Биопроектом PRJNA

    и будет выпущен после публикации этой рукописи. Номера доступа можно найти в

    Набор данных S2 .

    Сеть обмена генами для неклассифицированных вирусов.

    Vcontact2 (

    73 ,

    108 ) был запущен с использованием всех RefSeq v 99 геномы бактериофагов с рекомендованными настройками и все вирусы из CHVD, которые были помечены как «неклассифицированные» в поле таксономии. Полученная сеть была отображена в Cytoscape (79 108 ) и раскрашен вручную.

    Вирусные ядра.

    Используя все вирусные OTU из CHVD, координаты ядра вируса были получены расчетным путем. Cenote-Taker 2 сканирует контиги на наличие генов отличительных признаков вируса и выводит координаты для каждого гена отличительных признаков в контексте контига. Координаты остановки и начала для каждого гена отличительного признака были скомпилированы, и были взяты самые низкие и самые высокие координаты из каждого контига, и bioawk был использован для обрезки каждой нуклеотидной последовательности fasta до начала и конца с этими координатами, отбрасывая периферические последовательности.

    Спейсер CRISPR, закодированный бактериями Анализ.

    CrisprOpenDB ( https://github.com/edzuf/CrisprOpenDB ) (фиксация 21 e4ffcc 68 d 77 cf8e 27 afe 71 e0 93 b

    a6bb 81) для назначения фагов хостам на основе совпадения спейсера CRISPR с использованием BLASTN (

    78 ). Для совпадений допускалось три несовпадения. Для попаданий в бактерии без присвоенного в настоящее время рода, семейства или порядка таксономическая информация извлекалась из выходной таблицы, когда это было возможно.

    Анализ спейсера CRISPR с кодированием фагом.

    Все последовательности OTU вирусов были обработаны с помощью MinCED ( https://github.com/ctSkennerton/minced ) для обнаружения массивов разделителей CRISPR. Поскольку фаги могут кодировать массивы CRISPR с помощью разделителей размером до нуклеотиды (

    108 ), MinCED было разрешено обнаруживать массивы с разделителями 32 или более нуклеотидов. Области массива CRISPR геномов фага были замаскированы с помощью Bedtools maskfasta ( 112 ), а затем все вирусные OTU были опрошены с помощью BLASTN по базе данных разделителей CRISPR.

    Только удары с выравниванием по всей длине проставки и соблюдены следующие критерии: идеальное соответствие проставкам 30 к 31 нуклеотидов, соответствует спейсерам к 38 нуклеотидов, в которых (несовпадения + пробелы) равно 1 или 0 и соответствует разделителям ≥ 40 нуклеотиды, в которых (несовпадения + пробелы) 2 или меньше.

    Определение количества отдельных вирусных OTU в метагеномах.

    Окончательная база данных Последовательность «вирусного ядра» s был обработан RepeatMasker для удаления областей низкой сложности, которые набирают неспецифическое чтение (

    118 ). Bowtie2 ( 119 ) использовался для выравнивания читает в базу данных, и samtools (88 128 ) idxstats использовался для расчета покрытия чтения и RPKM для каждого контига.

    Сравнение количества OTU и дискриминационной способности в исследованиях «случай-контроль».

    Для каждого биопроекта, по возможности, определялись случайные и контрольные образцы с использованием категорий из Nayfach et al. ( 95 ), поскольку пациенты, принимавшие смешанные лекарства, были исключены из этого анализа. Для других биопроектов метаданные были взяты из SRA ( 143 ) запускать селектор (

    Набор данных S8 A К ). Для всех образцов чтения были загружены из SRA, обрезаны и проверены с помощью Fastp (

    104 ). Для количественной оценки численности бактериальных таксонов в каждом образце, IGGsearch использовался с параметрами по умолчанию, за исключением того, что использовалась опция «–все виды» (

    95 ).

    Тест суммы рангов Вилкоксона был рассчитан с помощью 143 бутстрапы с использованием Python, NumPy и SciPy (

    150 ) для каждой OTU в данном исследовании, в котором по крайней мере 23% от общей суммы образцы имели RPKM не менее 0. 25 (бактериальные OTU с «изобилием IGGsearch» на минимум 0,0 27 не менее 25% образцов сохранились). Частота ложных открытий (<1%) была определена методом Бенджамини – Хохберга с использованием SciPy. Размер эффекта Коэна d был рассчитан для каждой OTU выше порога значимости с использованием пакета DaBest Python (

    186 ) с 5, 16 бутстрапы.

    Использовались классификаторы случайного леса из scikit-learn ( 182 ). Размеры тренировочного / тестового набора были 83% / 42%, количество оценок было 119, и разные начальные числа использовались для каждого из 119 Классификаторы случайных лесов, обученные для каждого набора данных.

    Примечание

    Хотя около 6, 18 «Биологические образцы», охватывающие более , 19 циклы секвенирования были проанализированы в этом исследовании, в другом исследовании (опубликованном, когда эта рукопись находилась на рассмотрении) было обнаружено , 73 секвенирование метагенома кишечника для обнаружения предполагаемых последовательностей бактериофагов ( ).

    Leave a comment

    Your email address will not be published. Required fields are marked *