Data Science: научный подход к данным

Альтернативный вход в IT.
08 сентября 2016326451Илья Бубнов39481320

Мы часто задумываемся относительно себя или будущего своих детей: какая профессия станет востребованной завтра? И если душа лежит к программированию, к творчеству в IT, куда конкретно податься?  По ту сторону океана кажется нашли ответ: будущее лежит за специалистами в области науки о данных. На одном только рынке США через 2 года создастся дефицит в 190 тысяч специалистов в данной профессии. Так кто они, учёные, специализирующиеся на данных? Об этом далее.

О чём речь?

Всё начинается с основ. Сначала в школе вы показываете серьёзные успехи в математике, потом в университете с интересом изучаете ТВМС, а дальше, углубляясь в программирование и разработку, больше думаете не о кратчайшем пути к решению задачи, а об оптимальном, применяя все известные статистические основы. То есть человек, именующий себя data scientist – это в первую очередь пытливый ум, а уже потом инструмент. И как у любого исследователя, большинство его теорий разбивается в пух и прах в столкновении с реальностью, что лишь заставляет его предлагать новые и новые.

При этом существует тонкая грань между голой теорией, когда она не находит выхода, а её автор становится скорее преподавателем или аналитиком, и человеком, который в всё же исходит из того, что поставленную задачу требуется решить. Это и есть data scientist.

Фронт работ

Как бы это ни звучало очевидно, но работать придётся со статистикой и данными. В наши дни, когда объёмы используемой информации таковы, что необходимо либо повсеместно внедрять огромные вычислительные мощности, либо тратить очень много времени на обработку, либо во главе угла ставить статистику и вероятность.

Чтобы понять, что представляет из себя деятельность учёного, специализирующегося на данных, вспомните каверзные задачи HR-менеджеров крупных IT-компаний при приёме на работу. Пример: сколько теннисных мячиков влезет в автобус? На входе вам неизвестны ни точные размеры мячика, ни точные размеры автобуса (или его марка). Всё что у вас есть – общее представление об этих двух предметах. Но если вы попробуете решить эту задачу на предположениях и математических знаниях, то в большинстве случаев, ваш ответ будет коррелировать с ответами других людей. А как известно, теория, подтверждаемая статистикой, почти всегда принимается за правду.

С чего начать?

К сожалению, для тех, кто только сейчас узнал про эту профессию и желает ей посвятить свою жизнь – времени оказалось потеряно непростительно много, чтобы оказаться востребованным лишь по заглавию резюме. Ряд ВУЗов (почти все калифорнийские, Высшая школа экономики Барселоны и пр.) вот уже несколько лет набирает курсы по данной специальности. Кроме того, вам не составит труда найти онлайн-курсы для обучения данной профессии. Но об этом чуть позже. Для начала можно просто поподробнее ознакомиться и с профессией, и с наукой.

Далее переходим на литературу. Дисциплина, как вы сами понимаете, молодая, соответственно книг на русском критически мало (или нет вообще). Однако для плодотворной работы в специальности вам всё равно потребуется английский язык, поэтому начинайте с этого:

Благодаря этим книгам вы познакомитесь с «большими данными» и статистическими методами их обработки.

Закрепить знания

Дальше необходимо глубоко погружаться в тематику, а для этого потребуется фактическая занятость и каждодневное изучение темы. Для этого прекрасно подойдут ресурсы OpenDataScience и KDnuggets. Здесь вы найдёте новости, блоги, форумы, а в первом случае ещё и работа (правда, подавляющая часть вакансий расположена в США и Лондоне).

Ну и для развлечения обязательно загляните вот на эту страницу, где приведены ответы на самые популярные вопросы на собеседованиях на должности data scientist. Но сначала, безусловно, попробуйте ответить сами.