Обучение многодоменного энкодера предложений для задачи семантического поиска

Стоимость

1500 руб.

Содержание

Теория

Объем

45 лист.

Год написания

Купить за 1500

Описание работы

Работа пользователя Vseznayka1995

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Обучение многодоменного энкодера предложений для задачи семантического поиска »
Оригинальность работы 95%

Введение4
Обзор литературы6
Предобработка текста6
Подходы к токенизации текста7
Пословная токенизация7
Посимвольная токенизация7
Токенизация по частям слов, Byte Pair Encoding (bpe)8
Векторизация текста9
Классические подходы9
Современные методы векторизации текстов10
Языковые модели10
Universal Sentence Encoder12
Методология13
Домены13
Данные14
Тренировочные данные14
Opusparcus14
Sberquad14
Ответы mail.ru14
Посты и комментарии в социальной сети vkontakte15
Посты и комментарии из различных форумов15
Диалоги на свободные темы15
Новостные статьи lenta.ru16
Валидационные данные16
Ответы mail.ru17
Корпус русских учебных текстов17
Токсичные комментарии17
RuTweetCorp18
Тайга18
Количественный анализ данных18
Архитектура энкодера19
Векторизация исходной текстовой информации19
Сверточный слой20
Добавление информации о домене текста20
Архитектура тренировочного пайплайна21
Задача сближения векторов схожих по смыслу фраз22
Задача многоклассовой классификации векторов маскированных токенов22
Проверка результатов23

2
Эксперименты
25
Референсные SOTA-подходы к векторизации текста25
Универсальный многоязыковой энкодер предложений25
SentenceRuBert
25
Результаты использования SOTA-технологий на валидационных данных25
Ход экспериментов
26
Эксперимент №127
Предобрабортка27
Добавление информации о доменах27
Количество и состав доменных векторов27
Механизм внимания при добавлении информации о доменах28
Инициализация значений векторов и задействованность тренировочных

модулей
28
Эксперимент №228
Механизм внимания при добавлении информации о доменах28
Эксперимент №329
Векторизация первой и ответной фразы29
Механизм внимания при добавлении информации о доменах29
Эксперимент №429
Механизм внимания при добавлении информации о доменах и состав

доменных векторов29
Эксперимент №530
Механизм внимания при добавлении информации о доменах и состав

доменных векторов30
Эксперимент №630
Частота добавления доменной информации30
Эксперимент №730
Токенизация
30
Состав доменных векторов30
Задействованные данные30
Механизм внимания при добавлении информации о доменах31
Эксперимент №831
Состав доменных векторов31
Эксперимент №931
Предобучение весов31
Эксперимент №1031
Предобучение весов31
Состав доменных векторов31
Эксперимент №1131
Предобучение весов31

3
Состав доменных векторов32
Эксперимент № 1232
Токенизация32
Состав доменных векторов32
Эксперимент № 1332
Очередность добавления доменной информации32
Эксперимент № 1433
Механизм внимания33
Результаты экспериментов33
Выводы39
Литература41
Дополнительные материалы44

Введение

Методы Natural Language Processing (обработки естественного текста) или компьютерной лингвистики используются во многих индустриях. К таким задачам относятся машинный перевод, вопросно-ответные системы (чат-боты), информационный поиск, генерация текстовой информации и многое другое.
Одной из распространенных задач компьютерной лингвистики является задача семантического поиска - технологии поиска информации, основанной на использовании смысла запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе.

задаче семантического поиска одной из важнейших частей является преобразование текстовой информации в машиночитаемый вид, а именно, в набор числовых параметров, представленных в виде вектора, или, иными словами, в векторный вид. Процесс такого преобразования называется векторизацией. Существует много различных подходов к векторизации. В каждом из них задействован больший или меньший объем разнородной текстовой информации, такой как, начальная форма слова, другие слова, часто встречающиеся рядом с рассматриваемым словом и прочее.

Основной темой исследования является изучение возможностей совершенствования
подходов к векторизации текстов русского языка с использованием такой текстовой
информации как структура обрабатываемого текста. В процессе работы будут более
подробно развернуты различные использованные типы структур текста. Некоторые
примеры типов структуры текста - это вопрос, ответ, статья, пост в социальной сети. Основная идея данной работы состоит в том, что каждая из изучаемых структур имеет уникальные особенности, которые могут быть использованы моделью векторизации для повышения качества генерируемых векторов.

настоящее время многие подходы для векторизации текстов обучаются на больших массивах неразмеченных данных. Преимуществом использования неразмеченных данных в процессе обучения модели несомненно является намного большая доступность такого рода данных по сравнению с данными размеченными вручную. Однако из многих неразмеченных данных часто возможно автоматическим образом выделить метаинформацию, которая соответствует тому или иному источнику, откуда эти данные были получены. Так, к примеру, корпус текстов, полученных из онлайн-сервиса “Ответы mail.ru” и корпус текстов, полученный из новостного портала “Лента.ру”, будут иметь заведомо разную структуру. Соответственно кроме собственно текстовой информации, появится возможность использовать еще и информацию о структуре текста при обучении модели на таких текстах и последующей

5
их векторизации. Изучению возможностей такого подхода и будет посвящено данное исследование.
Цель работы состоит в том, чтобы исследовать влияние информации о структуре текста на качество задачи семантического поиска. Новизна данной цели состоит в том, что ранее подобные параметры текста не были использованы для улучшения работы энкодеров.
Способом достижения данной цели является проведение экспериментов, в ходе которых в модель будет добавляться информация об источнике данных и дополнительных заранее известных условиях, например, является ли текст вопросом или ответом. В процессе обучения будут использоваться задачи попарной смысловой близости а также распознавание маскированных именованных сущностей.
Данная работа будет состоять из следующих разделов:

Обзор литературы. В данном разделе будут рассмотрены различные подходы к решению поставленной в работе задачи, что позволит понять актуально проводимого исследования

Методология. В данном разделе будут описаны параметры системы, в рамках которой проводились эксперименты.

Эксперименты. В данном разделе будет описан ход всех экспериментов, а также проанализированы их результаты

Выводы. В данном разделе на основании результатов проведенных экспериментов будут сделаны выводы относительно объекта исследования данной работы

Литература

Рубцова, Ю. (2012). Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового
классификатора. Инженерия Знаний И Технологии Семантического Веба,1, 109–116.
Bahdanau, D., Cho, K., & Bengio, Y. (2016). Neural Machine Translation by Jointly
Learning to Align and Translate. arXiv:1409.0473 [cs, stat]. http://arxiv.org/abs/1409.0473
Bhojanapalli, S., Yun, C., Rawat, A. S., Reddi, S. J., & Kumar, S. (2020). Low-Rank
Bottleneck in Multi-head Attention Models. arXiv:2002.07028 [cs, stat]. http://arxiv.org/abs/2002.07028
Chidambaram, M., Yang, Y., Cer, D., Yuan, S., Sung, Y.-H., Strope, B., & Kurzweil, R. (2019). Learning Cross-Lingual Sentence Representations via a Multi-task
Dual-Encoder Model. ArXiv:1810.12836 [Cs].http://arxiv.org/abs/1810.12836 Creutz, M. (2018). Open Subtitles Paraphrase Corpus for Six Languages.

arXiv:1809.06142 [cs].http://arxiv.org/abs/1809.06142

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805
Efimov, P., Chertok, A., Boytsov, L., & Braslavski, P. (2020). SberQuAD -- Russian
Reading Comprehension Dataset: Description and Analysis. ArXiv:1912.09723
[Cs].http://arxiv.org/abs/1912.09723

42
Gage, P. (1994). A New Algorithm for Data Compression.14.
The C User Journal
Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A Fast Learning Algorithm for Deep Belief Nets. Neural Computation,18(7), 1527–1554. https://doi.org/10.1162/neco.2006.18.7.1527
Hoffer, E., & Ailon, N. (2018). Deep metric learning using Triplet network.
arXiv:1412.6622 [cs, stat].http://arxiv.org/abs/1412.6622

Jacovi, A., Shalom, O. S., & Goldberg, Y. (2020). Understanding Convolutional Neural
Networks for Text Classification. arXiv:1809.08037 [cs]. http://arxiv.org/abs/1809.08037
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed
Representations of Words and Phrases and their Compositionality. В C. J. C.
Burges, L. Bottou, M. Welling, Z. Ghahramani, & K. Q. Weinberger (Ред.),
Advances in Neural Information Processing Systems 26(сс. 3111–3119). Curran
Associates, Inc.
http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-a
nd-their-compositionality.pdf
Nwankpa, C., Ijomah, W., Gachagan, A., & Marshall, S. (2018). Activation Functions:
Comparison of trends in Practice and Research for Deep Learning.
arXiv:1811.03378 [cs].http://arxiv.org/abs/1811.03378

Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer,
L. (2018). Deep contextualized word representations. arXiv:1802.05365 [cs]. http://arxiv.org/abs/1802.05365

43
Ramos, J. (2003). Using TF-IDF to Determine Word Relevance in Document Queries. Proceedings of the First Instructional Conference on Machine Learning, 242, 133–142.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using
Siamese BERT-Networks. arXiv:1908.10084 [cs].http://arxiv.org/abs/1908.10084 Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare

Words with Subword Units. ArXiv:1508.07909 [Cs]. http://arxiv.org/abs/1508.07909
Tatiana, S., & Alexandrovna, S. O. (2017). TO THE METHODOLOGY OF CORPUS CONSTRUCTION FOR MACHINE LEARNING: «TAIGA» SYNTAX TREE CORPUS AND PARSER.Труды Международной Конференции «КОРПУСНАЯ
ЛИНГВИСТИКА – 2017»; .https://publications.hse.ru/en/chapters/228708483 Uszkoreit, J., Ponte, J., Popat, A., & Dubiner, M. (2010). Large Scale Parallel Document

Mining for Machine Translation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010),1101–1109. https://www.aclweb.org/anthology/C10-1124
Yang, Y., Abrego, G. H., Yuan, S., Guo, M., Shen, Q., Cer, D., Sung, Y., Strope, B., & Kurzweil, R. (2019). Improving Multilingual Sentence Embedding using
Bi-directional Dual Encoder with Additive Margin Softmax. ArXiv:1902.08564
[Cs].http://arxiv.org/abs/1902.08564

(PDF) Long Short-term Memory.(б. д.). ResearchGate. Извлечено 29 май 2020 г.,

отhttps://www.researchgate.net/publication/13853244_Long_Short-term_Memory

Дополнительные материалы

Taiga Сorpus.(б. д.). Извлечено 22 май 2020 г., от https://tatianashavrina.github.io/taiga_site/
Russian Language Toxic Comments.(б. д.). Извлечено 22 май 2020 г., от https://kaggle.com/blackmoon/russian-language-toxic-comments
Universal-sentence-encoder-multilingual | TensorFlow Hub.(б. д.). Извлечено 24 май
2020 г., отhttps://tfhub.dev/google/universal-sentence-encoder-multilingual/3 Corpus of Russian Student Texts.(б. д.). Извлечено 22 май 2020 г., от

http://web-corpora.net/learner_corpus
Анализируй это—Lenta.ru.(б. д.). Извлечено 21 май 2020 г., от https://habr.com/ru/post/343838/
Ответы Mail.ru: Человеческий поиск ответов на любые вопросы. Открытые
вопросы.(б. д.). Извлечено 21 май 2020 г., отhttps://otvet.mail.ru/

BERT in DeepPavlov—DeepPavlov 0.9.1 documentation.(б. д.). Извлечено 24 май
2020 г., отhttp://docs.deeppavlov.ai/en/master/features/models/bert.html

Купить за 1500
Покупая готовую работу, Вы соглашаетесь с Публичной офертой сервиса "Курсар. Магазин готовых работ"

или напишите нам прямо сейчас:

Написать в MAX Написать в Telegram Написать в WhatsApp

Обучение многодоменного энкодера предложений для задачи семантического поиска

Описание работы

Пожалуйста, заполните поля и нажмите кнопку "продолжить"

Найди свой город

Как мы рабоатем:

Узнайте стоимость Работы

мы приступили к оценке работы!

Подтвердите заказ

Сейчас Ваш заказ оценивается

76% заказов становятся дешевле после уточнения требований