Data Science: научный подход к данным

Альтернативный вход в IT.
08 сентября 2016326451Илья Бубнов2837719

Мы часто задумываемся относительно себя или будущего своих детей: какая профессия станет востребованной завтра? И если душа лежит к программированию, к творчеству в IT, куда конкретно податься?  По ту сторону океана кажется нашли ответ: будущее лежит за специалистами в области науки о данных. На одном только рынке США через 2 года создастся дефицит в 190 тысяч специалистов в данной профессии. Так кто они, учёные, специализирующиеся на данных? Об этом далее.

О чём речь?

Всё начинается с основ. Сначала в школе вы показываете серьёзные успехи в математике, потом в университете с интересом изучаете ТВМС, а дальше, углубляясь в программирование и разработку, больше думаете не о кратчайшем пути к решению задачи, а об оптимальном, применяя все известные статистические основы. То есть человек, именующий себя data scientist – это в первую очередь пытливый ум, а уже потом инструмент. И как у любого исследователя, большинство его теорий разбивается в пух и прах в столкновении с реальностью, что лишь заставляет его предлагать новые и новые.

При этом существует тонкая грань между голой теорией, когда она не находит выхода, а её автор становится скорее преподавателем или аналитиком, и человеком, который в всё же исходит из того, что поставленную задачу требуется решить. Это и есть data scientist.

Фронт работ

Как бы это ни звучало очевидно, но работать придётся со статистикой и данными. В наши дни, когда объёмы используемой информации таковы, что необходимо либо повсеместно внедрять огромные вычислительные мощности, либо тратить очень много времени на обработку, либо во главе угла ставить статистику и вероятность.

Чтобы понять, что представляет из себя деятельность учёного, специализирующегося на данных, вспомните каверзные задачи HR-менеджеров крупных IT-компаний при приёме на работу. Пример: сколько теннисных мячиков влезет в автобус? На входе вам неизвестны ни точные размеры мячика, ни точные размеры автобуса (или его марка). Всё что у вас есть – общее представление об этих двух предметах. Но если вы попробуете решить эту задачу на предположениях и математических знаниях, то в большинстве случаев, ваш ответ будет коррелировать с ответами других людей. А как известно, теория, подтверждаемая статистикой, почти всегда принимается за правду.

С чего начать?

К сожалению, для тех, кто только сейчас узнал про эту профессию и желает ей посвятить свою жизнь – времени оказалось потеряно непростительно много, чтобы оказаться востребованным лишь по заглавию резюме. Ряд ВУЗов (почти все калифорнийские, Высшая школа экономики Барселоны и пр.) вот уже несколько лет набирает курсы по данной специальности. Кроме того, вам не составит труда найти онлайн-курсы для обучения данной профессии. Но об этом чуть позже. Для начала можно просто поподробнее ознакомиться и с профессией, и с наукой.

Далее переходим на литературу. Дисциплина, как вы сами понимаете, молодая, соответственно книг на русском критически мало (или нет вообще). Однако для плодотворной работы в специальности вам всё равно потребуется английский язык, поэтому начинайте с этого:

Благодаря этим книгам вы познакомитесь с «большими данными» и статистическими методами их обработки.

Закрепить знания

Дальше необходимо глубоко погружаться в тематику, а для этого потребуется фактическая занятость и каждодневное изучение темы. Для этого прекрасно подойдут ресурсы OpenDataScience и KDnuggets. Здесь вы найдёте новости, блоги, форумы, а в первом случае ещё и работа (правда, подавляющая часть вакансий расположена в США и Лондоне).

Ну и для развлечения обязательно загляните вот на эту страницу, где приведены ответы на самые популярные вопросы на собеседованиях на должности data scientist. Но сначала, безусловно, попробуйте ответить сами.

 

Популярные статьи

Новые комментарии