Служба спасения студентов
Служба спасения для студентов (18+)

Автоматизация анализа объявлений о вакансиях в ИТ-сфере

Стоимость
2500 руб.
Содержание
Теория
Объем
59 лист.
Год написания

Описание работы

Работа пользователя Beskonechno
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Автоматизация анализа объявлений о вакансиях в ИТ-сфере»
 
Оригинальность работы 94%
 
СодержаниеАННОТАЦИЯ4
ABSTRACT5
ВВЕДЕНИЕ6
1.   СУЩЕСТВУЮЩИЕ МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ8
1.1.АНАЛИЗ ТРЕНДОВ ИТ-ТЕХНОЛОГИЙ САЙТА MONSTER.COM В АНГЛИИ8
1.2.АНАЛИЗ СОЧЕТАЕМОСТИ НАВЫКОВ В ИТ-ВАКАНСИЯХ8
1.3.ТЕКСТЫ ВАКАНСИЙ КАК ИСТОЧНИК ДАННЫХ9
2.   СБОР И ИЗВЛЕЧЕНИЕ ДАННЫХ О ВАКАНСИЯХ В ИТ-СФЕРЕ10
2.1.ВЫБОР ИСТОЧНИКОВ ДАННЫХ10
2.2.ЗАГРУЗКА ФАЙЛОВ ВАКАНСИЙ10
2.2.1.Описание набора данных10
2.2.2.Структура текста вакансии12
2.3.ИЗВЛЕЧЕНИЕ ДАННЫХ ИЗ ТЕКСТОВ ВАКАНСИЙ14
  1. ПОСТРОЕНИЕ МАТРИЦ РЕЛЕВАНТНОСТИ И АДАПТАЦИЯ
МЕТОДОВ ТРИ-КЛАСТЕР АНАЛИЗА17
3.1.ПОСТРОЕНИЕ МАТРИЦ РЕЛЕВАНТНОСТИ НА ОСНОВЕ АННОТИРОВАННЫХ

СУФФИКСНЫХ ДЕРЕВЬЕВ17
3.1.2.Описание метода АСД17
3.1.3.   Удаление нерелевантных фраз из списков требований, обязанностей,

условий
18
3.1.3.   Построение двухвходовых матриц релевантности фраза - текст вакансии193.1.4.   Построение трех-входовой матрицы связей ТОУ20
3.2.МЕТОДЫ ТРИ-КЛАСТЕР АНАЛИЗА21
3.2.1.Метод «Tricluster Box»21
3.2.2.Метод «Overlap»23
4.   РАСЧЕТЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ25

2

ЗАКЛЮЧЕНИЕ36
БИБЛИОГРАФИЯ37
ПРИЛОЖЕНИЕ 139
ПРИЛОЖЕНИЕ 240
ПРИЛОЖЕНИЕ 352
ПРИЛОЖЕНИЕ 453


Аннотация

 
 
В настоящей работе проведен анализ списков требований, обязанностей и условий работы в ИТ-сфере на основе текстов вакансий с российского портала поиска работы Head Hunter [1]. Сформированы и выделены списки требований, обязанностей, условий работы, релевантные вакансиям в ИТ-сфере, основываясь на использовании метода аннотированного суффиксного дерева (АСД) [2]. На основе этих списков рассчитана трех-входовая матрица релевантности «требование-обязанность-условие», а также выделены три-кластеры - такие совокупности подмножеств требований, обязанностей и условий работы, которые тесно связаны между собой. Полученные три-кластеры допускают разумную интерпретацию – они показывают типы работ, реально существующие на рассматриваемом рынке.
 
 
Работа содержит 59 страниц, 5 глав, 4 рисунка, 15 источников.
 
 
 
Ключевые слова — три-кластер, ИТ-вакансия, аннотированное суффиксное дерево, релевантность

Abstract
 
 
In this work we advance into the analysis of requirements, responsibilities and working conditions in IT-sphere, according to vacancy advertisement files, downloaded from the Russian recruitment web-site Head Hunter [1].
 
Lists of relevant requirements, responsibilities and working conditions are extracted and provided, based on the so-called «annotated suffix-tree” method [2]. Upon extraction of these lists, we compute a 3-dimensional relevance matrix for requirement-responsibility-working condition triplets and then apply tri-clustering methods to extract tri-clusters of strong interconnections.
 
Resulting tri-clusters are reasonably interpreted as types of vacancies at the labour market under investigation.
 
The work contains 59 pages, 5 chapters, 4 drawings, 15 references.
 
 
 
Keywords – tri-cluster, IT job advert, annotated suffix tree, relevance index
 
Введение
    • современном мире рынок ИТ-профессий развивается очень стремительно,
  • требуется все больше специалистов разных профилей. Для людей, планирующих строить карьеру в ИТ, возникает необходимость в освоении новых навыков и знаний. Но перед выбором конкретных навыков для изучения встают следующие вопросы:
  1. Каким требованиям должен удовлетворять кандидат, чтобы получить работу в ИТ-сфере? Для того чтобы построить персональную траекторию образования, необходимо проанализировать большое количество объявлений, чтобы понять тренды на рынке и выбрать актуальные навыки и дисциплины для изучения.
  1. Есть ли какие-то универсальные навыки, которыми необходимо владеть всем специалистам в ИТ-сфере?
  1. Какие условия работы являются нормой для рынка труда ИТ-сферы? В связи с этим возникает проблема анализа:
  1. Текущих требований работодателей к новым сотрудникам.
  1. Обязанностей новых сотрудников на рабочих местах.
  1. Условий работы сотрудников на рабочих местах.
Таким образом, тема нашей работы: Автоматизация анализа объявлений о вакансиях в ИТ-сфере.
Цель работы: провести анализ связи требований, обязанностей и условий работы в ИТ-сфере на основе данных о вакансиях в ИТ-сфере.
Для того чтобы реализовать цель работы были поставлены следующие задачи:
  1. Сбор данных о вакансиях в ИТ-сфере.
  1. Извлечение информации о требованиях, обязанностях и условиях вакансий из объявлений о вакансиях.
    1. Подготовка формулировок, представляющих требования, обязанности
  • условия работы в ИТ-сфере.
6
 
  1. Освоение методики аннотированных суффиксных деревьев [2] для оценки релевантности строка-текст и применение ее для формирования трех таблиц релевантности, связывающих объявления о вакансиях со строками требований, обязанностей и условий работы.
  1. Формирование трех-входовой таблицы связей между требованиями, обязанностями и условиями работы, адаптация методов формирования 3-кластеров и проведение расчетов по их выявлению.
  2. Анализ полученных результатов и возможности подготовки рекомендаций для ИТ-специалистов.
Библиография
  1. Работа в Москве, поиск персонала и публикация вакансий. // Head Hunter [сайт] URL: https://hh.ru/ (дата обращения 02.11.2019).
  1. Миркин Б.Г. Черняк Е.Д., Чугунова О.Н.. Метод аннотированного суффиксного дерева для оценки степени вхождения строк в текстовые документы. [Электронный ресурс] URL: https://publications.hse.ru/articles/72365116 (дата обращения 03.02.2020).
  1. Capiluppi A. Baravalle A. Matching Demand and Offer in On-line
Provision: a Longitudinal Study of Monster.com. [Электронный ресурс] URL: дата обращения 03.01.2020).
  1. Monster.com [caйт] URL: https://www.monster.com/ (дата обращения
03.01.2020)
  1. HeadHunter API [Электронный ресурс] URL: https://dev.hh.ru/ (дата обращения 14.01.2020).
  1. Sibarani E., Scerri S., Auer S., Collarana S.. Ontology guided Job Market Demand Analysis: A Cross-Sectional Study for the Data Science field. [Электронный ресурс] URL: https://www.researchgate.net/publication/318393376_Ontology-guided_Job_Market_Demand_Analysis_A_Cross-Sectional_Study_for_the_Data_Science_field (дата обращения 03.01.2020).
  1. Kurekova L., Thum-Thysen A., Beblavy M.. Online job vacancy data as a source for micro-level analysis of employers preferences. A methodological enquiry. [Электронный ресурс] URL: https://www.researchgate.net/publication/311453863_Online_job_vacancy_data_as_a_s ource_for_micro-level_analysis_of_employers'_preferences_A_methodological_enquiry (дата обращения 03.01.2020).
  1. Pandas documentation [Электронный ресурс] URL: https://pandas.pydata.org/docs/ (дата обращения 14.01.2020).
37
 
  1. Statistical Natural Language Processing with Annotated Suffix Trees [Электронный ресурс] URL: https://github.com/dmitsf/AST-text-analysis (дата обращения 14.03.2020).
  2. Newman MEJ.. Modularity and community structure in networks. Proc Natl Acad Sci USA 103: 8577-8582 [Электронынй ресурс] URL: https://www.researchgate.net/publication/7060226_Newman_MEJ_Modularity_and_co mmunity_structure_in_networks_Proc_Natl_Acad_Sci_USA_103_8577-8582 (дата обращения 01.05.2020).
  1. Mirkin B., Kramarenko A.. Approximate Bicluster and Tricluster Boxes in the Analysis of Binary Data [Электронный ресурс] URL: https://publications.hse.ru/mirror/pubs/share/folder/1o0uwsshf3/direct/74663630 (дата обращения 01.03.2020).
  1. Ignativ D., Gnatyshak D, Kuznetsov S., Mirkin B.. Triadic formal concept analysis and triclustering: searching for optimal patterns [Электронный ресурс] URL: https://www.researchgate.net/publication/277659428_Triadic_Formal_Concept_Analys is_and_triclustering_searching_for_optimal_patterns (дата обращения 01.03.2020).
  1. Jaccard Index // Wikipedia [Электронный ресурс] URL: https://en.wikipedia.org/wiki/Jaccard_index (дата обращения 01.05.2020).
  1. IT_jobs_analysis [Электронный ресурс] URL: https://github.com/alenaAG/IT_jobs_analysis (дата обращения 17.05.2020).
  1. Github [Электронный ресурс] URL: https://github.com/ (дата обращения 17.05.2020).

Сколько стоит помощь с учебной работой?