Обучение многодоменного энкодера предложений для задачи семантического поиска
Описание работы
Работа пользователя Vseznayka1995
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Обучение многодоменного энкодера предложений для задачи семантического поиска »
Оригинальность работы 95%
2
Эксперименты
25
Референсные SOTA-подходы к векторизации текста25
Универсальный многоязыковой энкодер предложений25
SentenceRuBert
25
Результаты использования SOTA-технологий на валидационных данных25
Ход экспериментов
26
Эксперимент №127
Предобрабортка27
Добавление информации о доменах27
Количество и состав доменных векторов27
Механизм внимания при добавлении информации о доменах28
Инициализация значений векторов и задействованность тренировочных
модулей
28
Эксперимент №228
Механизм внимания при добавлении информации о доменах28
Эксперимент №329
Векторизация первой и ответной фразы29
Механизм внимания при добавлении информации о доменах29
Эксперимент №429
Механизм внимания при добавлении информации о доменах и состав
доменных векторов29
Эксперимент №530
Механизм внимания при добавлении информации о доменах и состав
доменных векторов30
Эксперимент №630
Частота добавления доменной информации30
Эксперимент №730
Токенизация
30
Состав доменных векторов30
Задействованные данные30
Механизм внимания при добавлении информации о доменах31
Эксперимент №831
Состав доменных векторов31
Эксперимент №931
Предобучение весов31
Эксперимент №1031
Предобучение весов31
Состав доменных векторов31
Эксперимент №1131
Предобучение весов31
3
Состав доменных векторов32
Эксперимент № 1232
Токенизация32
Состав доменных векторов32
Эксперимент № 1332
Очередность добавления доменной информации32
Эксперимент № 1433
Механизм внимания33
Результаты экспериментов33
Выводы39
Литература41
Дополнительные материалы44
Одной из распространенных задач компьютерной лингвистики является задача семантического поиска - технологии поиска информации, основанной на использовании смысла запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе.
подходов к векторизации текстов русского языка с использованием такой текстовой
информации как структура обрабатываемого текста. В процессе работы будут более
подробно развернуты различные использованные типы структур текста. Некоторые
примеры типов структуры текста - это вопрос, ответ, статья, пост в социальной сети. Основная идея данной работы состоит в том, что каждая из изучаемых структур имеет уникальные особенности, которые могут быть использованы моделью векторизации для повышения качества генерируемых векторов.
классификатора. Инженерия Знаний И Технологии Семантического Веба,1, 109–116.
Bahdanau, D., Cho, K., & Bengio, Y. (2016). Neural Machine Translation by Jointly
Learning to Align and Translate. arXiv:1409.0473 [cs, stat]. http://arxiv.org/abs/1409.0473
Bhojanapalli, S., Yun, C., Rawat, A. S., Reddi, S. J., & Kumar, S. (2020). Low-Rank
Bottleneck in Multi-head Attention Models. arXiv:2002.07028 [cs, stat]. http://arxiv.org/abs/2002.07028
Chidambaram, M., Yang, Y., Cer, D., Yuan, S., Sung, Y.-H., Strope, B., & Kurzweil, R. (2019). Learning Cross-Lingual Sentence Representations via a Multi-task
Dual-Encoder Model. ArXiv:1810.12836 [Cs].http://arxiv.org/abs/1810.12836 Creutz, M. (2018). Open Subtitles Paraphrase Corpus for Six Languages.
arXiv:1809.06142 [cs].http://arxiv.org/abs/1809.06142
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805
Efimov, P., Chertok, A., Boytsov, L., & Braslavski, P. (2020). SberQuAD -- Russian
Reading Comprehension Dataset: Description and Analysis. ArXiv:1912.09723
[Cs].http://arxiv.org/abs/1912.09723
44
Russian Language Toxic Comments.(б. д.). Извлечено 22 май 2020 г., от https://kaggle.com/blackmoon/russian-language-toxic-comments
Universal-sentence-encoder-multilingual | TensorFlow Hub.(б. д.). Извлечено 24 май
2020 г., отhttps://tfhub.dev/google/universal-sentence-encoder-multilingual/3 Corpus of Russian Student Texts.(б. д.). Извлечено 22 май 2020 г., от
http://web-corpora.net/learner_corpus
Анализируй это—Lenta.ru.(б. д.). Извлечено 21 май 2020 г., от https://habr.com/ru/post/343838/
Ответы Mail.ru: Человеческий поиск ответов на любые вопросы. Открытые
вопросы.(б. д.). Извлечено 21 май 2020 г., отhttps://otvet.mail.ru/
BERT in DeepPavlov—DeepPavlov 0.9.1 documentation.(б. д.). Извлечено 24 май
2020 г., отhttp://docs.deeppavlov.ai/en/master/features/models/bert.html
Оригинальность работы 95%
Введение4
Обзор литературы6
Предобработка текста6
Подходы к токенизации текста7
Пословная токенизация7
Посимвольная токенизация7
Токенизация по частям слов, Byte Pair Encoding (bpe)8
Векторизация текста9
Классические подходы9
Современные методы векторизации текстов10
Языковые модели10
Universal Sentence Encoder12
Методология13
Домены13
Данные14
Тренировочные данные14
Opusparcus14
Sberquad14
Ответы mail.ru14
Посты и комментарии в социальной сети vkontakte15
Посты и комментарии из различных форумов15
Диалоги на свободные темы15
Новостные статьи lenta.ru16
Валидационные данные16
Ответы mail.ru17
Корпус русских учебных текстов17
Токсичные комментарии17
RuTweetCorp18
Тайга18
Количественный анализ данных18
Архитектура энкодера19
Векторизация исходной текстовой информации19
Сверточный слой20
Добавление информации о домене текста20
Архитектура тренировочного пайплайна21
Задача сближения векторов схожих по смыслу фраз22
Задача многоклассовой классификации векторов маскированных токенов22
Проверка результатов23
Обзор литературы6
Предобработка текста6
Подходы к токенизации текста7
Пословная токенизация7
Посимвольная токенизация7
Токенизация по частям слов, Byte Pair Encoding (bpe)8
Векторизация текста9
Классические подходы9
Современные методы векторизации текстов10
Языковые модели10
Universal Sentence Encoder12
Методология13
Домены13
Данные14
Тренировочные данные14
Opusparcus14
Sberquad14
Ответы mail.ru14
Посты и комментарии в социальной сети vkontakte15
Посты и комментарии из различных форумов15
Диалоги на свободные темы15
Новостные статьи lenta.ru16
Валидационные данные16
Ответы mail.ru17
Корпус русских учебных текстов17
Токсичные комментарии17
RuTweetCorp18
Тайга18
Количественный анализ данных18
Архитектура энкодера19
Векторизация исходной текстовой информации19
Сверточный слой20
Добавление информации о домене текста20
Архитектура тренировочного пайплайна21
Задача сближения векторов схожих по смыслу фраз22
Задача многоклассовой классификации векторов маскированных токенов22
Проверка результатов23
2
Эксперименты
25
Референсные SOTA-подходы к векторизации текста25
Универсальный многоязыковой энкодер предложений25
SentenceRuBert
25
Результаты использования SOTA-технологий на валидационных данных25
Ход экспериментов
26
Эксперимент №127
Предобрабортка27
Добавление информации о доменах27
Количество и состав доменных векторов27
Механизм внимания при добавлении информации о доменах28
Инициализация значений векторов и задействованность тренировочных
модулей
28
Эксперимент №228
Механизм внимания при добавлении информации о доменах28
Эксперимент №329
Векторизация первой и ответной фразы29
Механизм внимания при добавлении информации о доменах29
Эксперимент №429
Механизм внимания при добавлении информации о доменах и состав
доменных векторов29
Эксперимент №530
Механизм внимания при добавлении информации о доменах и состав
доменных векторов30
Эксперимент №630
Частота добавления доменной информации30
Эксперимент №730
Токенизация
30
Состав доменных векторов30
Задействованные данные30
Механизм внимания при добавлении информации о доменах31
Эксперимент №831
Состав доменных векторов31
Эксперимент №931
Предобучение весов31
Эксперимент №1031
Предобучение весов31
Состав доменных векторов31
Эксперимент №1131
Предобучение весов31
3
Состав доменных векторов32
Эксперимент № 1232
Токенизация32
Состав доменных векторов32
Эксперимент № 1332
Очередность добавления доменной информации32
Эксперимент № 1433
Механизм внимания33
Результаты экспериментов33
Выводы39
Литература41
Дополнительные материалы44
- Введение
Одной из распространенных задач компьютерной лингвистики является задача семантического поиска - технологии поиска информации, основанной на использовании смысла запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе.
- задаче семантического поиска одной из важнейших частей является преобразование текстовой информации в машиночитаемый вид, а именно, в набор числовых параметров, представленных в виде вектора, или, иными словами, в векторный вид. Процесс такого преобразования называется векторизацией. Существует много различных подходов к векторизации. В каждом из них задействован больший или меньший объем разнородной текстовой информации, такой как, начальная форма слова, другие слова, часто встречающиеся рядом с рассматриваемым словом и прочее.
подходов к векторизации текстов русского языка с использованием такой текстовой
информации как структура обрабатываемого текста. В процессе работы будут более
подробно развернуты различные использованные типы структур текста. Некоторые
примеры типов структуры текста - это вопрос, ответ, статья, пост в социальной сети. Основная идея данной работы состоит в том, что каждая из изучаемых структур имеет уникальные особенности, которые могут быть использованы моделью векторизации для повышения качества генерируемых векторов.
- настоящее время многие подходы для векторизации текстов обучаются на больших массивах неразмеченных данных. Преимуществом использования неразмеченных данных в процессе обучения модели несомненно является намного большая доступность такого рода данных по сравнению с данными размеченными вручную. Однако из многих неразмеченных данных часто возможно автоматическим образом выделить метаинформацию, которая соответствует тому или иному источнику, откуда эти данные были получены. Так, к примеру, корпус текстов, полученных из онлайн-сервиса “Ответы mail.ru” и корпус текстов, полученный из новостного портала “Лента.ру”, будут иметь заведомо разную структуру. Соответственно кроме собственно текстовой информации, появится возможность использовать еще и информацию о структуре текста при обучении модели на таких текстах и последующей
5
их векторизации. Изучению возможностей такого подхода и будет посвящено данное исследование.
Цель работы состоит в том, чтобы исследовать влияние информации о структуре текста на качество задачи семантического поиска. Новизна данной цели состоит в том, что ранее подобные параметры текста не были использованы для улучшения работы энкодеров.
Способом достижения данной цели является проведение экспериментов, в ходе которых в модель будет добавляться информация об источнике данных и дополнительных заранее известных условиях, например, является ли текст вопросом или ответом. В процессе обучения будут использоваться задачи попарной смысловой близости а также распознавание маскированных именованных сущностей.
Данная работа будет состоять из следующих разделов:
их векторизации. Изучению возможностей такого подхода и будет посвящено данное исследование.
Цель работы состоит в том, чтобы исследовать влияние информации о структуре текста на качество задачи семантического поиска. Новизна данной цели состоит в том, что ранее подобные параметры текста не были использованы для улучшения работы энкодеров.
Способом достижения данной цели является проведение экспериментов, в ходе которых в модель будет добавляться информация об источнике данных и дополнительных заранее известных условиях, например, является ли текст вопросом или ответом. В процессе обучения будут использоваться задачи попарной смысловой близости а также распознавание маскированных именованных сущностей.
Данная работа будет состоять из следующих разделов:
- Обзор литературы. В данном разделе будут рассмотрены различные подходы к решению поставленной в работе задачи, что позволит понять актуально проводимого исследования
- Методология. В данном разделе будут описаны параметры системы, в рамках которой проводились эксперименты.
- Эксперименты. В данном разделе будет описан ход всех экспериментов, а также проанализированы их результаты
- Выводы. В данном разделе на основании результатов проведенных экспериментов будут сделаны выводы относительно объекта исследования данной работы
- Литература
классификатора. Инженерия Знаний И Технологии Семантического Веба,1, 109–116.
Bahdanau, D., Cho, K., & Bengio, Y. (2016). Neural Machine Translation by Jointly
Learning to Align and Translate. arXiv:1409.0473 [cs, stat]. http://arxiv.org/abs/1409.0473
Bhojanapalli, S., Yun, C., Rawat, A. S., Reddi, S. J., & Kumar, S. (2020). Low-Rank
Bottleneck in Multi-head Attention Models. arXiv:2002.07028 [cs, stat]. http://arxiv.org/abs/2002.07028
Chidambaram, M., Yang, Y., Cer, D., Yuan, S., Sung, Y.-H., Strope, B., & Kurzweil, R. (2019). Learning Cross-Lingual Sentence Representations via a Multi-task
Dual-Encoder Model. ArXiv:1810.12836 [Cs].http://arxiv.org/abs/1810.12836 Creutz, M. (2018). Open Subtitles Paraphrase Corpus for Six Languages.
arXiv:1809.06142 [cs].http://arxiv.org/abs/1809.06142
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805
Efimov, P., Chertok, A., Boytsov, L., & Braslavski, P. (2020). SberQuAD -- Russian
Reading Comprehension Dataset: Description and Analysis. ArXiv:1912.09723
[Cs].http://arxiv.org/abs/1912.09723
42
Gage, P. (1994). A New Algorithm for Data Compression.14.
The C User Journal
Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A Fast Learning Algorithm for Deep Belief Nets. Neural Computation,18(7), 1527–1554. https://doi.org/10.1162/neco.2006.18.7.1527
Hoffer, E., & Ailon, N. (2018). Deep metric learning using Triplet network.
arXiv:1412.6622 [cs, stat].http://arxiv.org/abs/1412.6622
Jacovi, A., Shalom, O. S., & Goldberg, Y. (2020). Understanding Convolutional Neural
Networks for Text Classification. arXiv:1809.08037 [cs]. http://arxiv.org/abs/1809.08037
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed
Representations of Words and Phrases and their Compositionality. В C. J. C.
Burges, L. Bottou, M. Welling, Z. Ghahramani, & K. Q. Weinberger (Ред.),
Advances in Neural Information Processing Systems 26(сс. 3111–3119). Curran
Associates, Inc.
http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-a
nd-their-compositionality.pdf
Nwankpa, C., Ijomah, W., Gachagan, A., & Marshall, S. (2018). Activation Functions:
Comparison of trends in Practice and Research for Deep Learning.
arXiv:1811.03378 [cs].http://arxiv.org/abs/1811.03378
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer,
L. (2018). Deep contextualized word representations. arXiv:1802.05365 [cs]. http://arxiv.org/abs/1802.05365
Gage, P. (1994). A New Algorithm for Data Compression.14.
The C User Journal
Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A Fast Learning Algorithm for Deep Belief Nets. Neural Computation,18(7), 1527–1554. https://doi.org/10.1162/neco.2006.18.7.1527
Hoffer, E., & Ailon, N. (2018). Deep metric learning using Triplet network.
arXiv:1412.6622 [cs, stat].http://arxiv.org/abs/1412.6622
Jacovi, A., Shalom, O. S., & Goldberg, Y. (2020). Understanding Convolutional Neural
Networks for Text Classification. arXiv:1809.08037 [cs]. http://arxiv.org/abs/1809.08037
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed
Representations of Words and Phrases and their Compositionality. В C. J. C.
Burges, L. Bottou, M. Welling, Z. Ghahramani, & K. Q. Weinberger (Ред.),
Advances in Neural Information Processing Systems 26(сс. 3111–3119). Curran
Associates, Inc.
http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-a
nd-their-compositionality.pdf
Nwankpa, C., Ijomah, W., Gachagan, A., & Marshall, S. (2018). Activation Functions:
Comparison of trends in Practice and Research for Deep Learning.
arXiv:1811.03378 [cs].http://arxiv.org/abs/1811.03378
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer,
L. (2018). Deep contextualized word representations. arXiv:1802.05365 [cs]. http://arxiv.org/abs/1802.05365
43
Ramos, J. (2003). Using TF-IDF to Determine Word Relevance in Document Queries. Proceedings of the First Instructional Conference on Machine Learning, 242, 133–142.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using
Siamese BERT-Networks. arXiv:1908.10084 [cs].http://arxiv.org/abs/1908.10084 Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare
Words with Subword Units. ArXiv:1508.07909 [Cs]. http://arxiv.org/abs/1508.07909
Tatiana, S., & Alexandrovna, S. O. (2017). TO THE METHODOLOGY OF CORPUS CONSTRUCTION FOR MACHINE LEARNING: «TAIGA» SYNTAX TREE CORPUS AND PARSER.Труды Международной Конференции «КОРПУСНАЯ
ЛИНГВИСТИКА – 2017»; .https://publications.hse.ru/en/chapters/228708483 Uszkoreit, J., Ponte, J., Popat, A., & Dubiner, M. (2010). Large Scale Parallel Document
Mining for Machine Translation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010),1101–1109. https://www.aclweb.org/anthology/C10-1124
Yang, Y., Abrego, G. H., Yuan, S., Guo, M., Shen, Q., Cer, D., Sung, Y., Strope, B., & Kurzweil, R. (2019). Improving Multilingual Sentence Embedding using
Bi-directional Dual Encoder with Additive Margin Softmax. ArXiv:1902.08564
[Cs].http://arxiv.org/abs/1902.08564
Ramos, J. (2003). Using TF-IDF to Determine Word Relevance in Document Queries. Proceedings of the First Instructional Conference on Machine Learning, 242, 133–142.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using
Siamese BERT-Networks. arXiv:1908.10084 [cs].http://arxiv.org/abs/1908.10084 Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare
Words with Subword Units. ArXiv:1508.07909 [Cs]. http://arxiv.org/abs/1508.07909
Tatiana, S., & Alexandrovna, S. O. (2017). TO THE METHODOLOGY OF CORPUS CONSTRUCTION FOR MACHINE LEARNING: «TAIGA» SYNTAX TREE CORPUS AND PARSER.Труды Международной Конференции «КОРПУСНАЯ
ЛИНГВИСТИКА – 2017»; .https://publications.hse.ru/en/chapters/228708483 Uszkoreit, J., Ponte, J., Popat, A., & Dubiner, M. (2010). Large Scale Parallel Document
Mining for Machine Translation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010),1101–1109. https://www.aclweb.org/anthology/C10-1124
Yang, Y., Abrego, G. H., Yuan, S., Guo, M., Shen, Q., Cer, D., Sung, Y., Strope, B., & Kurzweil, R. (2019). Improving Multilingual Sentence Embedding using
Bi-directional Dual Encoder with Additive Margin Softmax. ArXiv:1902.08564
[Cs].http://arxiv.org/abs/1902.08564
- (PDF) Long Short-term Memory.(б. д.). ResearchGate. Извлечено 29 май 2020 г.,
44
- Дополнительные материалы
Russian Language Toxic Comments.(б. д.). Извлечено 22 май 2020 г., от https://kaggle.com/blackmoon/russian-language-toxic-comments
Universal-sentence-encoder-multilingual | TensorFlow Hub.(б. д.). Извлечено 24 май
2020 г., отhttps://tfhub.dev/google/universal-sentence-encoder-multilingual/3 Corpus of Russian Student Texts.(б. д.). Извлечено 22 май 2020 г., от
http://web-corpora.net/learner_corpus
Анализируй это—Lenta.ru.(б. д.). Извлечено 21 май 2020 г., от https://habr.com/ru/post/343838/
Ответы Mail.ru: Человеческий поиск ответов на любые вопросы. Открытые
вопросы.(б. д.). Извлечено 21 май 2020 г., отhttps://otvet.mail.ru/
BERT in DeepPavlov—DeepPavlov 0.9.1 documentation.(б. д.). Извлечено 24 май
2020 г., отhttp://docs.deeppavlov.ai/en/master/features/models/bert.html





