Служба спасения студентов
Служба спасения для студентов

Распознавание G-квадруплексов в геноме Saccharomyces cerevisiae методами глубинного обучения

Стоимость
1500 руб.
Содержание
Теория
Объем
31 лист.
Год написания

Описание работы

Работа пользователя Vseznayka1995
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Распознавание G-квадруплексов в геноме Saccharomyces cerevisiae методами глубинного обучения »
Оригинальность работы 91%


Введение
G-квадруплексы представляют собой неканонические вторичные структуры, которые могут возникать в последовательностях ДНК и РНК, богатых гуанином. При определенной последовательности азотистых оснований, цепи нуклеиновых кислот могут складываться в четырёхцепочечную спираль, где четыре гуаниновых основания из разных цепей образуют плоскую структуру, удерживаемую парными взаимодействиями G-G. Такие структуры являются стабильными и называются G-тетрадами, квадруплексы могут содержать несколько подобных тетрад [1]. Устойчивость им придает моновалентный катион небольшого размера.
Рис. 1.1. Пример визуализации G-тетрады
G-квадруплексы формируются из наложенных друг на друга G-тетрад, в количестве от 2 до 12, и соединены цепями нуклеиновых кислот.
Ученые на данный момент занимаются тем, что стремятся выявить G-квадруплексы в геномах различных видов. Доказано, что в геноме человека наличие G-квадруплексов коррелируют с появлением раковых опухолей. Однако, для других видов функционал G-квадруплексов изучен гораздо меньше.  Данное исследование может помочь выяснить роль, которую эти вторичные структуры играют в геноме Saccharomyces cerevisiae, а также в будущем выявить зависимости появления G-квадруплепксов у разных видов, в том числе и в геноме человека. Основная цель работы – предложить новый для данной области метод глубинного обучения для предсказания образования G-квадруплексов в геноме дрожжей и в идеале повысить точность и полноту предсказания.
Задачу распознавания вторичных структур ДНК можно рассматривать как задачу NLP, где последовательности нуклеотидов будут подаваться на вход модели как предложения естественного языка. Для решения этой задачи были рассмотрены еще не используемые для детекции G-квадруплексов методы глубинного обучения: архитектуры типа “трансформер” – “BERT” [2] и его аналоги: “FlauBERT” [3], “CamemBERT” [4], “RoBERTa” [5], “XLNet” [6], “XLM” [7], “DistilBERT” [8], “ALBERT” [9] и подобраны оптимальные параметры и гиперпараметры для этих моделей.

           Список литературы
  1. Kolesnikova S., Curtis E.A. Structure and Function of Multimeric G-Quadruplexes, Molecules. 2019 Sep; 24(17): 3074. doi: 10.3390/molecules24173074.
  2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018 Oct.
  3. Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab FlauBERT: Unsupervised Language Model Pre-training for French, 2019 Dec.
  4. Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot CamemBERT: a Tasty French Language Model, 2019 Nov.
  5. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019 Jul.
  6. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le XLNet: Generalized Autoregressive Pretraining for Language Understanding, 2019 Jun.
  7. Guillaume Lample, Alexis Conneau  Cross-lingual Language Model Pretraining, 2019 Jan.
  8. Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, 2019 Oct.
  9. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019 Sep.
  10. Steve G. Hershman, Qijun Chen, Julia Y. Lee, Marina L. Kozak, Peng Yue, Li-San Wang, F. Brad Johnson Genomic distribution and functional analyses of potential G-quadruplex-forming sequences in Saccharomyces cerevisiae, Nucleic Acids Res. 2008 Jan; 36(1): 144–156. doi: 10.1093/nar/gkm986.
  11. Aleksandr B. Sahakyan, Vicki S. Chambers, Giovanni Marsico, Tobias Santner, Marco Di Antonio, Shankar Balasubramanian Machine learning model for sequence-driven DNA G-quadruplex formation. 2017 Nov.
  12. Латышев П.В. Аннотация генома функциональными элементами методами обучения с учителем, 2019
  13. Giovanni Marsico, Vicki S Chambers, Aleksandr B Sahakyan, Patrick McCauley, Jonathan M Boutell, Marco Di Antonio, and Shankar Balasubramanian Whole genome experimental maps of DNA G-quadruplexes in multiple species, 2019 Mar; 47(8): 3862–3874. doi: 10.1093/nar/gkz179.
  14.  http://www.yeastgenome.org/gene_list.shtml
  15. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3003554
  16. https://pqsfinder.fi.muni.cz/
  17. Chaitanya Joshi Transformers are Graph Neural Networks, 2020 Feb.
  18. Jay Alammar The Illustrated Transformer, 2018 Jun.
  19. Rico Sennrich and Barry Haddow and Alexandra Birch Neural Machine Translation of Rare Words with Subword Units, 2016 Aug.
    doi: 10.18653/v1/P16-1162.
  20. https://pypi.org/project/simpletransformers/#2020-05-05
  21. https://gluebenchmark.com/
  22. Taku Kudo and John Richardson Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing, 2018 Nov; doi: 10.18653/v1/D18-2012.
  23. Diederik P. Kingma, Jimmy Ba Adam: A Method for Stochastic Optimization, Machine Learning, 2014 Dec


           Список литературы
  1. Kolesnikova S., Curtis E.A. Structure and Function of Multimeric G-Quadruplexes, Molecules. 2019 Sep; 24(17): 3074. doi: 10.3390/molecules24173074.
  2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018 Oct.
  3. Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab FlauBERT: Unsupervised Language Model Pre-training for French, 2019 Dec.
  4. Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot CamemBERT: a Tasty French Language Model, 2019 Nov.
  5. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019 Jul.
  6. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le XLNet: Generalized Autoregressive Pretraining for Language Understanding, 2019 Jun.
  7. Guillaume Lample, Alexis Conneau  Cross-lingual Language Model Pretraining, 2019 Jan.
  8. Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, 2019 Oct.
  9. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019 Sep.
  10. Steve G. Hershman, Qijun Chen, Julia Y. Lee, Marina L. Kozak, Peng Yue, Li-San Wang, F. Brad Johnson Genomic distribution and functional analyses of potential G-quadruplex-forming sequences in Saccharomyces cerevisiae, Nucleic Acids Res. 2008 Jan; 36(1): 144–156. doi: 10.1093/nar/gkm986.
  11. Aleksandr B. Sahakyan, Vicki S. Chambers, Giovanni Marsico, Tobias Santner, Marco Di Antonio, Shankar Balasubramanian Machine learning model for sequence-driven DNA G-quadruplex formation. 2017 Nov.
  12. Латышев П.В. Аннотация генома функциональными элементами методами обучения с учителем, 2019
  13. Giovanni Marsico, Vicki S Chambers, Aleksandr B Sahakyan, Patrick McCauley, Jonathan M Boutell, Marco Di Antonio, and Shankar Balasubramanian Whole genome experimental maps of DNA G-quadruplexes in multiple species, 2019 Mar; 47(8): 3862–3874. doi: 10.1093/nar/gkz179.
  14.  http://www.yeastgenome.org/gene_list.shtml
  15. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3003554
  16. https://pqsfinder.fi.muni.cz/
  17. Chaitanya Joshi Transformers are Graph Neural Networks, 2020 Feb.
  18. Jay Alammar The Illustrated Transformer, 2018 Jun.
  19. Rico Sennrich and Barry Haddow and Alexandra Birch Neural Machine Translation of Rare Words with Subword Units, 2016 Aug.
    doi: 10.18653/v1/P16-1162.
  20. https://pypi.org/project/simpletransformers/#2020-05-05
  21. https://gluebenchmark.com/
  22. Taku Kudo and John Richardson Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing, 2018 Nov; doi: 10.18653/v1/D18-2012.
  23. Diederik P. Kingma, Jimmy Ba Adam: A Method for Stochastic Optimization, Machine Learning, 2014 Dec

или напишите нам прямо сейчас:

Написать в MAXНаписать в TelegramНаписать в WhatsApp
Заявка на расчет