Зачем изучать машинное обучение и кем потом работать

Рассказывают преподаватели курсов машинного обучения (machine learning) GeekBrains

25 мая 20207 минут17397

Факультет Big Data в Geek University объединяет разные сферы знаний, необходимые современному дата-сайентисту. Чтобы предоставить ученикам более гибкие возможности обучения, мы решили открыть «Машинное обучение» в виде отдельной, новой специальности. В этом посте на важные вопросы об этой специальности ответят наши преподаватели — практикующие эксперты.

Где применяют машинное обучение

Отвечает Сергей Ширкин – куратор специальности, декан факультетов искусственного интеллекта и аналитики Big Data в GeekUniversity, приглашённый преподаватель ВШЭ. С помощью машинного обучения строил финансовые модели в компании Equifax, автоматизировал процессы в Сбербанке и Росбанке. Применял ИИ для прогнозирования просмотров рекламы в Dentsu Aegis Network Russia.

Машинное обучение (Machine Learning, ML) позволяет автоматизировать умственный и физический труд человека. Поэтому ML используют поисковые системы, банки и страховые компании, ритейл, сотовые операторы, промышленные предприятия, рекламные и маркетинговые агентства.

Модель машинного обучения может делать прогнозы и распознавать образы точнее и быстрее, чем живой эксперт. Например, банки с помощью ML-моделей считают вероятность добросовестной выплаты по кредиту для каждого конкретного заёмщика. Причём, если эксперт анализирует одного клиента несколько минут, модель делает прогноз по миллионам клиентов за считаные секунды.

Искусственный интеллект, машинное обучение – в чём разница?

Машинное обучение – это большой подраздел науки об искусственном интеллекте — Data Science. Machine Learning наиболее часто применяется для практических целей. В целом внутри Data Science много направлений, и некоторые из них — например, обучение с подкреплением – ещё развиваются. По сравнению с ними машинное обучение – хорошо развитая область, востребованная бизнесом и наукой.

В чём специфика кода для машинного обучения

Чтобы писать хороший код для целей ML, обязательно понимать, как работают модели машинного обучения. Для этого нужно хорошо знать математику и алгоритмы анализа данных. А также уметь понимать данные: их специфику, возможные проблемы, способы обработки и очистки. Без этого даже готовые реализации из библиотек не получится использовать грамотно.

Чем конкретно занимается ML-специалист

Отвечает Никита Варганов, преподаватель GeekBrains, Senior Data Scientist, руководитель направления по исследованию данных в Сбербанке, Kaggle competitions master.

ML-специалист решает бизнес-задачи клиента с применением алгоритмов машинного обучения. При этом он может брать существующие алгоритмы или разрабатывать новые. Но важно понимать, что в Data Science построение модели – это 10-20% времени проекта. Остальное время уходит на согласование задач, поиск и подготовку данных, составление и приоритизацию гипотез, анализ, внедрение и презентацию полученного решения. Надо быть к этому готовым.

Важно помнить, что оптимизация процессов – не самоцель. В конце концов ML-специалисты помогают бизнесу больше зарабатывать и выводить на рынок новые продукты.

Какие навыки нужны в машинном обучении

Для начала карьеры достаточно уметь использовать алгоритмы, связанные с задачами вашей команды. Если же вы хотите расти и создавать новые алгоритмы, понадобятся хорошие фундаментальные знания математики, готовность творить и экспериментировать без гарантии результата.

В то же время дорасти до позиции Senior в машинном обучении будет проще людям, которые хорошо умеют разговаривать с бизнесом, понимать его проблемы, переходить с технического языка на уровень бизнес-специалиста.

Статистика требуемых скилов на позиции, связанные с машинным обучением. Данные 2018 года, но основные общие и ряд компетенций, специфических для определённых сфер, здесь перечислены.

Каких кандидатов берут на работу

Как руководитель направления в Сбербанке, на должности Junior Data Scientist я хотел бы видеть кандидата, который владеет базовыми понятиями машинного обучения и математической статистики, умеет писать SQL-запросы, готов постоянно развивать свои навыки в machine learning и учиться у более опытных коллег.

Очень ценю, если кандидат уже решал задачи за рамками стандартных курсов по ML и анализу данных. Например, может показать свой pet-проект или свои результаты на соревнованиях по анализу данных (Kaggle Competitions).

Участие в соревнованиях учит решать реалистичные задачи в команде и оформлять своё решение на GitHub. Кстати, владение системами контроля версий — тоже плюс. По моим оценкам их используют лишь 30% специалистов в data science.

Сотрудник уровня Middle сам ведёт проект, но иногда нуждается в консультациях. Он приносит компании деньги и участвует в решении бизнес-проблем заказчика. А также помогает джунам с типовыми задачами.

Senior – это специалист «полного цикла». Он распознаёт проблему заказчика, продумывает её решение и выдаёт необходимый результат. Поэтому Senior DS должен уметь общаться с заказчиком на языке бизнеса и доносить до него свою позицию. Кроме того, он зачастую выступает ментором для джунов и мидлов, проводит код-ревью, распределяет задачи и контролирует их выполнение.

В целом ситуация на рынке труда, на мой взгляд, сейчас в пользу кандидата: спрос на специалистов по машинному обучению пока превышает предложение, особенно на уровнях Middle и Senior.

Где работают и сколько получают специалисты по ML

Рассказывает Сергей Ширкин, куратор специальности.

Специалисты по машинному обучению нужны и крупным компаниям (включая IТ, операторов связи, интернет-магазины, ритейл, банки), и SMB-сегменту со стартапами.

Ориентировочный диапазон зарплат:

Стажёр – до 50 тыс. рублей.
Junior Data Scientist – 100-120 тыс. рублей.
Middle Data Scientist (1-3 года опыта) – 150-200 тыс. рублей.
Senior Data Scientist (3-5 лет опыта) – 200-350 тыс. рублей и больше.

Вакансии могут называться по-разному: Data Scientist, аналитик данных, ML-инженер, разработчик аналитических моделей и т.д.

Лайфхак: для поиска вакансий используйте не только описание должности, но и названия библиотек и технологий машинного обучения. Например, много релевантных вакансий можно найти по ключевому слову pandas – это название библиотеки Python для работы с данными.

Как обучают специальности в GeekBrains

Рассказывает Александр Скударнов – методист образовательных программ GeekBrains.

Основная цель курса – помочь вам освоить машинное обучение как инструмент для бизнеса. Программа рассчитана на подготовленных слушателей – она подойдёт вам, если:

вы хорошо знаете математику и хотите на этой основе получить востребованную профессию.
вы аналитик и стремитесь к карьерному росту.
вы программист и хотите попробовать смежное направление.

К началу занятий на курсах машинного обучения вам понадобятся знание основ Python и SQL, прочные знания школьной математики и готовность их углублять.

Если это не ваши варианты, но вы хотите развиваться в Data Science – вам лучше выбрать факультет искусственного интеллекта или аналитики Big Data, где учат с нуля.

Преимущества курсов

Наши преподаватели — это специалисты из топовых компаний, которые сами проводят собеседования и знают, что нужно для трудоустройства. Мы готовим не исследователя data science, а человека, который сможет приносить пользу бизнесу. Поэтому в программе только то, что нужно для успешного старта карьеры: умение писать чистый код, понимать статистические методы анализа данных и алгоритмы машинного обучения. Остальное выпускник сможет добрать на первом рабочем месте.

Для получения практического опыта мы предусмотрели курсовые проекты, а также соревнования на площадке Kaggle. По окончании нашей программы студенты смогут успешно участвовать в соревнованиях Kaggle по машинному обучению, что тоже очень важно для резюме.

Этапы обучения и курсовые проекты

Рассказывает Сергей Ширкин, куратор специальности.

Мы обучаем специальности в три этапа:

Математическая подготовка – изучение теории вероятностей и математической статистики.
Освоение инструментария Data Science – библиотек Python для Data Science.
Изучение принципов машинного обучения – алгоритмов анализа данных, вариантов их применения в бизнесе и способов внедрения кода в продакшн.

Как курсовые проекты помогут найти работу

В ходе курсовых проектов вы научитесь делать разведочный анализ данных (EDA) – разберётесь, как устроены данные в конкретном примере, как их визуализировать. И конечно, что делать с ними дальше, какие модели машинного обучения применять. Эти навыки пригодятся любому аналитику.

Курсовой проект по прогнозированию стоимости недвижимости можно будет показать на собеседовании в агентствах недвижимости, таких как ЦИАН или ДомКлик.

Проект по кредитному скорингу — оценке кредитоспособности заёмщика — понравится банкам и микрофинансовым организациям.

Прогнозирование оттока клиентов будет актуально для интернет-магазинов, операторов связи, компаний развлекательной сферы, в том числе онлайн-кинотеатров и игровых сервисов. Им важно оценивать риски отказа от их услуг в режиме реального времени.

Особенно сложными и важными будут проекты на курсе «Алгоритмы анализа данных». При их выполнении нельзя будет пользоваться готовыми моделями Machine Learning. Вы должны будете практически с нуля написать на Python свою модель для выбранных задач.

В итоге вы научитесь строить модели разного типа — от деревьев решений, линейной и логистической регрессии до случайного леса и градиентного бустинга. Это умение пригодится при трудоустройстве ML-инженером, в ситуации, когда нужно написать свою библиотеку для машинного обучения, либо для научной работы в этом направлении.

Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.

Освоить востребованную профессию в Аналитике больших данных можно всего за полтора года на курсах GeekBrains.

программирование, machine-learning

Нашли ошибку в тексте? Напишите нам.

Чтобы завершить регистрацию, подтвердите свою почту!