Специалист в области Data Science строит на основе данных модели, которые помогают принимать решения в науке, бизнесе и повседневной жизни и называется Data Scientist. Он может работать с неструктурированными массивами информации в разных сферах: от выявления элементарных частиц в экспериментах на БАК, анализа метеорологических факторов, анализа данных о перемещениях автотранспорта до исследования финансовых операций, поисковых запросов, поведения пользователей в Интернете. Так же рекомендуем подписаться на телеграмм – канал коуча по онлайну, чтобы быть в курсе, что сейчас происходит в мире онлайна – подписаться.
Data Science — это применение научных методов при работе с данными, чтобы найти нужное решение. В широком смысле, естественные науки основаны на Data Science. Например, биолог проводит эксперименты и анализирует результаты для проверки своих гипотез. Он должен уметь обобщать частные наблюдения, исключать случайности и делать верные выводы.
В конце июня 2019 года Google выпустила обновление для своего сервиса «Карты». В новой версии приложение научилось предсказывать задержки в движении общественного транспорта даже тогда, когда у него нет доступа к данным текущего местоположения автобусов. Алгоритм рассчитывает время на дорогу с учётом всех факторов: пробок, расположения остановок, выделенных полос. Среди прочего для построения моделей специалисты использовали снимки из Google Street View.
Предсказание скорости движения общественного транспорта — один из примеров того, как бизнесу и пользователям помогает data science.
Наука о данных — обширная сфера, которая сочетает несколько смежных дисциплин. Это программирование, математика и статистика, бизнес-аналитика и машинное обучение.
Специалисты в этой сфере, аналитики данных, работают с большими массивами данных, извлекая из них полезную информацию. Результат даёт ответы на множество вопросов: например, почему один менеджер заключил больше сделок, сколько единиц товара нужно закупить в следующем квартале и какой компонент лекарства улучшит самочувствие пациента. Для решения некоторых задач специалисты разрабатывают алгоритмы, которые способны генерировать результат без участия человека.
По данным HeadHunter, специалисты в анализе данных в 2017 году получали в России от 130 до 300 тысяч рублей в зависимости от опыта.
Спрос на аналитиков данных увеличивается каждый год: только с 2016 года по 2018 он вырос в два раза. При этом доля вакансий для кандидатов с опытом работы меньше года на четверть выше, чем в целом по ИТ-рынку.
Оглавление
Data Scientist – в чём нужно разбираться
Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту. Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения.
Такие навыки востребованы на HeadHunter. Цифра означает количество вакансий
Преподаватели школы SkillBox изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:
- Программирование.
- Анализ.
- Математика и статистика.
- Машинное обучение и глубокое обучение.
- Data Engeneering.
- Data Science в продакшн.
Data Scientist – технические навыки
Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.
Драйверы профессии
- автоматизация производственных и управленческих процессов
- рост объёмов данных, доступных для анализа
- развитие концепции открытых данных
Какие задачи будет решать Data Scientist
- сбор больших массивов структурированных и неструктурированных данных (количественных, текстовых, графических и др.) и их преобразование в удобный формат
- анализ данных с помощью методов математической статистики, моделирования и других аналитических методов (машинное обучение, текстовая аналитика и др.) в целях повышения эффективности управленческих решений
- превращение инсайтов (выявленных неочевидных закономерностей) в конкретные решения для бизнеса/науки/общества
- сотрудничество с ИТ-подразделениями и управленцами
- визуализация данных
Какие знания и навыки у него будут
- умение структурировать и интегрировать разнородные источники данных
- умение применять методы системного анализа при постановке задач
- продвинутый уровень цифровых навыков
- навыки программирования и работы с базами данных
- знание методов дискретной математики, математической статистики, машинного обучения и компьютерной лингвистики
- способность разрабатывать математические модели выявления зависимостей, распознавания образов, прогнозирования и принятия решений
- презентационные навыки
Программирование
Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.
По данным Towardsdatascience
Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.
У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.
Профессия Data Scientist от Skillbox
Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.
Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.
Кто такой Data Scientist и чем занимается?
Данные — основной объект исследования в Big Data. Вопреки стереотипам, аналитики Data Scientist работают не только в крупных компаниях. В молодой индустрии Big Data инженеры, математики, программисты и трейдеры создают визуальные модели, формируют бизнес-сценарии и тестируют их. Прогнозы экспертов интересны широкому кругу лиц — компаниям, частным предпринимателям, государственным учреждениям. Анализ Big Data — это не только статистические обзоры, но и предвидение будущих событий, вероятность которых можно вывести с математической точностью. Курс Data Scientist от Skillbox отличается насыщенной программой. Слушателей знакомят с нейронными сетями, инфографикой, работой в библиотеках.
Зарплаты в профессии Data Scientist
Новичок | Средний | Опытный |
От 100 тыс. рублей | От 150 тыс. рублей | От 180 тыс. рублей |
Профессия Data Scientist: машинное обучение
Длительность: 13 месяцев, 3-5 часов в неделю
Формат: занятия в записи, преподаватели проверют дз, есть чат студентов курса
Особенности: В будущем у вас всегда будет открыт доступ к обновлениям этого курса.
Полная стоимость: 59 000₽/курс
Стоимость в рассрочку: от 2 458₽/мес
Программа курса
Особенности профессии Data Scientist
В работе с данными Data Scientist использует различные способы:
- статистические методы;
- моделирование баз данных;
- методы интеллектуального анализа;
- приложения искусственного интеллекта для работы с данными;
- методы проектирования и разработки баз данных.
Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:
- сбор данных из разных источников для последующей оперативной обработки;
- анализ поведения потребителей;
- моделирование клиентской базы и персонализация продуктов;
- анализ эффективности внутренних процессов базы;
- анализ различных рисков;
- выявление возможного мошенничества по изучению сомнительных операций;
- составление периодических отчетов с прогнозами и презентацией данных.
Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным – это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.
Плюсы и минусы профессии Data Scientist
Плюсы
- Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
- Высокооплачиваемая профессия.
- Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.
Минусы
- Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
- В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
Полный курс по Data Science
Длительность: 18 месяцев, Около 8 часов в неделю
Формат: занятия в записи, проверяют дз, есть общий чат и по выходным проводят вебинары с ответами на вопросы
Особенности: Школа специализируется на аналитике и разработке
Полная стоимость: 162 000₽/курс
Стоимость в рассрочку: от 4 500₽/мес
Программа курса
Ступеньки карьеры и перспективы
Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.
Интересные факты о профессии
Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.
ЧТО ТАКОЕ «BIGDATA» в реальных цифрах?
- Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
- 90% всех существующих на сегодня данных появились за последние 2 года.
- До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
- В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
- В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
- Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
- К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
- В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
- Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
- По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.
Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.
В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:
- Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
- Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
- Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
- Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.
В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.
Профессия Data Scientist
Длительность: 12 месяцев, 2-3 занятия в неделю
Формат: проводятся онлайн-вебинары, проверяют дз, есть чат студентов курса
Особенности: Официальная школа Mail.ru Group. Обучают профессией до middle-уровня и гарантируют трудоустройство
Полная стоимость: 130 000₽/курс
Стоимость в рассрочку: от 5 417₽/мес
отзывы о GeekBrains
Профессия Data Scientist: анализ данных
Длительность: 9 месяцев, 3-5 часов в неделю
Формат: занятия в записи, преподаватели проверют дз, есть чат студентов курса
Особенности: Полноценное обучение профессии, первая оплата через 6 месяцев, помощь в трудоустройстве
Полная стоимость: 59 000₽/курс
Стоимость в рассрочку: от 2 458₽/мес
Программа курса
То есть Data Science — то же самое, что и обычная бизнес-аналитика?
Нет, это не одно и то же. Основная разница заключается в результате. Data Scientist ищет в массивах данных связи и закономерности, которые позволят ему создать модель, предсказывающую результат, — то есть можно сказать, что Data Scientist работает на будущее. Он использует программные алгоритмы и математическую статистику и решает поставленную задачу в первую очередь как техническую.
Бизнес-аналитик сосредоточен не столько на технической, программной стороне задачи, сколько на коммерческих показателях компании. Он работает со статистикой и может оценить, например, насколько эффективна была рекламная кампания, сколько было продаж в предыдущем месяце и так далее. Вся эта информация может использоваться для улучшения бизнес-показателей компании. Если данных много и нужен какой-то прогноз или оценка, то для решения технической стороны этой задачи бизнес-аналитик может привлечь дата-сайентистов.
Поясним на примере. Допустим, программа анализирует финансовые операции клиента и рекомендует выдать ему кредит или отказать. То есть задача программы — оценить платёжеспособность клиента. Создание такого програмного алгоритма — работа дата-сайентиста.
А бизнес-аналитик не занимается такими техническими задачами. Его не интересует работа с конкретным клиентом, но он может проанализировать всю статистику банка по кредитам, например, за последние три месяца — и рекомендовать банку сократить или увеличить объёмы кредитования. Это бизнес-задача: предлагаются действия, которые увеличат доходность банка либо снизят финансовые риски.
Работа бизнес-аналитика и дата-сайентиста нередко пересекается, просто каждый занимается своей частью задачи.
А где обычно работает Data Scientist?
Вот несколько вариантов:
- В бизнесе — в любом его направлении. Например, дата-сайентист создаёт алгоритмы, прогнозирующие спрос на услуги компании. Другие алгоритмы помогут решить, нужно ли компании открывать новое направление бизнеса. Вариантов много.
- В банках. Один из примеров мы разобрали в предыдущей карточке.
- В транспортных компаниях. Например, программы помогают выстроить оптимальный маршрут.
- В IT-сфере. Дата-сайентист разрабатывает ботов, поисковые алгоритмы, системы искусственного интеллекта.
- На производстве. Например, программы прогнозируют сбои оборудования и дефекты продукции.
- В страховых компаниях. Машинные алгоритмы оценивают вероятность страхового случая.
- Медицина. Появляется всё больше приборов, автоматически ставящих диагноз на основании данных. Например, программа может указать повреждённые органы на рентгеновских снимках.
- В сельском хозяйстве. Алгоритмы дают прогноз по урожаю, подбирают оптимальные системы землепользования.
- Биоинформатика и современные генетические исследования немыслимы без Data Science. Программы строят генетические карты, определяют вид организма.
- Физические исследования. Например, алгоритмы выявляют элементарные частицы и их следы.
- Метеослужбы. Да, современные прогнозы погоды тоже готовятся с помощью Data Science.
И это далеко не полный список. Везде, где нужны прогнозы, совершаются сделки или оцениваются риски, пригодится Data Scientist. Вот несколько примеров рабочих моделей. Некоторые неожиданные: например, Corrupt Social Interactions— модель, выявляющая коррупцию в Департаменте строительства (Department of Building) США. Или сервис А Roommate Recommendation— он помогает подобрать соседа по комнате в кампусе или хостеле.
Понятно. А работу найти легко? Это точно востребовано?
Легко ли найти работу — зависит и от кандидата тоже. Но сама профессия весьма востребована. В 2016 году американская компания Glassdoor опубликовала рейтинг 25 лучших вакансий в США и профессия Data Scientist возглавила этот список. С тех пор востребованность стала даже выше.
Алгоритмы машинного обучения сейчас стремительно развиваются, прогнозы на их основе становятся точнее, а сфер их применения всё больше. Это значит, что у профессии Data Scientist большое будущее.
Но это за рубежом. А что в России?
У нас спрос на этих специалистов тоже постоянно растёт. Например, в 2018 году вакансий с названием Data Scientist было в 7 раз больше по сравнению с 2015 годом, а в 2019 году рост продолжился.
На середину апреля 2020 года на hh.ru — 323 вакансии с заголовком Data Scientist, из них 204 вакансии — в Москве, 39 — в Санкт-Петербурге и остальные — в других городах.
Читайте про другие современные профессии.
[spoiler title=”Источники”]- https://vc.ru/skillfactory/81058-kakie-navyki-nuzhny-specialistu-po-data-science
- https://techrocks.ru/2020/03/13/learn-data-science-for-free/
- https://www.hse.ru/25professions/data_scientist
- https://checkroi.ru/course/professiya-data-scientist-ot-skillbox/
- https://learn-data-science.ru/reyting-kursov-data-science/
- https://www.profguide.io/professions/data_scientist.html
- https://skillbox.ru/course/profession-machine-learning/
- https://skillbox.ru/course/profession-data-analyst/
- https://skillbox.ru/media/code/chto_takoe_data_science_i_kto_takoy_data_scientist/