SFDA | PSY HSE

Statistics for Data Analysis

Автор

Anton Angelgardt

Опубликовано

March 24, 2026

Начало

Врубаем тэхно для рабочего настроения

Прежде всего, разумно будет попытаться разобраться в том, заради чего мы тут собрались. Ну, попробуем…

Вот, скажем, решили мы замерить уровень счастья российского населения — задача, прямо скажем, не суперпростая. Дать опросник 144 миллионам людей весьма энергозатратно, и хотелось бы как-то упростить себе задачу. Сколько нам надо опросить людей, чтобы наш замер отражал реальность? Как нам их выбрать? Как потом обсчитать цифры, которые мы получим? И вообще, наш опросник — он точный? Надежный? Им вообще законно что-либо измерять?

Или вот мы — учёный. Решили провести некоторый суровый когнитивный эксперимент, чтобы узнать, как пользователи Android и iOS ищут иконки разных приложений. Скачали статей, выдвинули гипотезы, придумали дизайн, запрогали эксп, нашли несчастных, которые прошли этот эксп — по итогу получили какие-то цифири. Возникает справедливый вопрос: и чё? Как нам сказать, что данные подтвердили или опровергли наши гипотезы? Можем ли мы вообще по этим данным что-то сказать? Ну, допустим, мы ленивые и вообще программировать это для умных — отдадим специально обученным аналитикам посчитать это всё. И получим цифири. О, нет — опять! Возникает ещё один справедливый вопрос: и чё? Как нам сказать, что эти цифры подтверждают или опровергают наши гипотезы? Можем ли мы вообще по этим цифрам что-либо сказать осмысленное? А содержательно как это интерпретировать? Иконки-то как пользователи ищут?

Ну, или мы — HR в компании на 100500 тыщ человек сотрудников. Пришел гендир, сказал «уволить нельзя премировать, только непонятно кого». Дал нам экселевскую таблицу со всякими показателями эффективности и сказал «завтра к вечеру должна быть система грейдов, по которой будем оценить сотрудников». И что делать? Придется всю ночь ворочать цифры и статистически моделировать.

А вот, скажем, залезли мы в ковидные новости очередной волны — там что-то страшное, да в графиках, да снова цифры какие-то ужасные. Хлебнули чаю, включили статистический взгляд — а, ну так все норм же. Оценили риски для себя, друзей, родных, убедились в том, что журналисты снова навели излишней суеты, восхитились собой, пошли инвестировать в крипту.

Опять какие-то графики увидели, тренды, прогнозы и всё такое. Как понять? Как прочитать это всё? Как оценить, куда надо стипуху вкласть? Вспомнили статистику, навели шороху, собрали достойный инвестиционный портфельчик — хлебнули кофе, пошли покупать билеты на Бали.

Дальше можно расписывать огромное количество подобных случаев. Приходится признать, что сегодня мы живем в окружении огромного количества алгоритмов, основанных на статистическом анализе. Всё то, что называется модным словосочетанием «машинное обучение» базируется на тех статистических методах, которые мы будем с вами изучать.

Можно ли жить без этого знания? В принципе, да. Однако

  • когнитивщикам и нейроисследователям необходимо анализировать свои данные своих экспериментов и — что значительное более важно — корректно интерпретировать результаты статистического анализа, что невозможно без понимания того, как используемые статистические методы работают
  • социальщикам и личностникам-исследователям также необходимо анализировать данные своих исследований — и используемые ими модели даже сложнее, чем у когнитивщиков и нейроученых
  • организационщикам придется также работать с данными, потому что HR-аналитика на хайпе и экспертный подход к оценке персонала постепенно теряет актуальность [а ещё айтишников нанимать придётся]
  • личностникам-консультантам надо быть в теме того, что творят личностники-исследователи, а значит придется читать статьи и оценивать их адекватность, в том числе, в аспекте анализа данных
  • всем [даже некоторым когнитивщикам] придется работать с опросниками — а вся психометрика строится на статистике
  • всем придется в жизни анализировать потоки информации, возрастающие с невероятной скоростью, данные и графики, критически и оценивать, выявлять неочевидные закономерности, чтобы понимать, что происходит — и статистика в этом сильно поможет
  • все мы продолжаем жить в мире гаджетов и технологий, и понимание того, какие модели лежат в их основе, очень прилично апгрейдит наше понимание того, что восстание машин будет о-о-о-очень не скоро.

Конечно, мы не можем обсудить всё. Мы находимся в рамках суровых институциональных ограничений. Но мы постараемся заложить достаточно прочный фундамент, который при правильном применении и должном уходе поможет вам преуспеть и в жизни, и в работе и вообще.

Зачем изучать анализ данных в эпоху нейросетей?

А действительно? Можно же просто закинуть промпт, и всё готово…

Ну, закинем промпт.

Зачем изучать анализ данных, если существуют нейросети, которые могут проанализировать данные за меня?

Ответ ChatGPT-4 (30 мая 2024)

Это отличный вопрос! Действительно, нейросети и другие методы машинного обучения становятся все более мощными инструментами для анализа данных. Однако есть несколько причин, почему важно изучать анализ данных, даже если существуют такие технологии:

  1. Понимание процесса: Понимание основ анализа данных позволяет лучше понять, как работают нейросети и другие алгоритмы машинного обучения. Это помогает в настройке, интерпретации и улучшении моделей.

  2. Выбор методов: Анализ данных помогает выбирать подходящие методы и инструменты для конкретной задачи. Нейросети — не всегда лучший выбор, особенно для небольших наборов данных или когда требуется интерпретируемость результатов.

  3. Качество данных: Анализ данных включает в себя предварительную обработку данных — очистку, нормализацию, выявление и исправление ошибок. Без этого этапа нейросеть может обучиться на “грязных” данных и выдавать неправильные результаты.

  4. Интерпретируемость моделей: Многие модели машинного обучения (включая нейросети) сложны для интерпретации. Традиционные методы анализа данных, такие как регрессия или дерево решений, могут предложить более простые и интерпретируемые модели, что важно в некоторых приложениях, например, в медицине или финансах.

  5. Обоснование результатов: В некоторых ситуациях требуется не только предсказать результат, но и объяснить, почему модель приняла то или иное решение. Это особенно важно в регулируемых отраслях, таких как банковское дело или страхование.

  6. Комбинаторика методов: Возможно объединение различных методов анализа данных и машинного обучения для достижения лучших результатов. Глубокое понимание как статистических методов, так и нейросетей позволяет строить гибридные модели.

  7. Инновации и новые подходы: Знания в области анализа данных способствуют разработке новых алгоритмов и подходов, что может привести к появлению более эффективных способов решения задач.

В целом, изучение анализа данных дает фундаментальные знания, которые помогут лучше использовать и усовершенствовать нейросетевые модели и другие инструменты машинного обучения.

Зачем мне как аналитику уметь писать код, если можно попросить нейросеть написать код под конкретную задачу по анализу данных?

Ответ ChatGPT-4 (30 мая 2024)

Использование нейросетей для генерации кода под задачи анализа данных может быть полезным, но есть несколько причин, по которым важно уметь писать код самостоятельно, даже если вы аналитик:

  1. Понимание данных и процессов: Знание программирования помогает лучше понять структуру данных и методы, которые вы используете для их анализа. Это особенно важно для интерпретации результатов и их корректного применения.

  2. Отладка и валидность результатов: Автоматически сгенерированный код может привести к ошибкам или неправильным выводам. Умение самостоятельно писать и проверять код позволяет убедиться, что все работает корректно.

  3. Гибкость и адаптация: Ваши задачи могут изменяться, требуя новой логики анализа или дополнительных шагов обработки данных. Умение писать код позволяет легче адаптироваться к новым требованиям и быстро вносить изменения.

  4. Качество данных: Предварительная обработка данных — ключевой этап анализа. Знание программирования помогает эффективно очистить, нормализовать и обработать данные перед анализом.

  5. Оптимизация: Автоматически сгенерированный код может быть неоптимальным. Умение писать собственный код позволяет вам сделать анализ данных более эффективным и производительным.

  6. Интерпретируемость: Полное понимание кода делает результаты вашего анализа более понятными и объяснимыми для заинтересованных сторон.

  7. Командная работа и документация: В команде аналитиков важно уметь читать и писать структурированный код, чтобы эффективно сотрудничать с коллегами и поддерживать документацию проекта.

  8. Навык решения уникальных задач: Задачи анализа данных могут быть очень разнообразными и требовать индивидуального подхода. Нейросеть может не всегда справиться с уникальными или нестандартными задачами без надлежащего контекста.

  9. Профессиональный рост: Знание программирования является важным навыком для роста и развития в карьере аналитика. Это открывает двери к более сложным и интересным проектам.

  10. Безопасность и конфиденциальность: Используя нейросеть, вы можете столкнуться с проблемами, связанными с конфиденциальностью данных. Самостоятельная работа с кодом помогает лучше контролировать безопасность и защиту данных.

Хотя нейросети могут быть полезным инструментом, знание программирования остается важным навыком для аналитиков, обеспечивая гибкость, контроль и качество работы.

В общем-то, автор согласен с мнением большой языковой модели. Пусть и не все обозначенные ею пункты в полной мере актуальны для психологов, так или иначе каждый тезис находит своё отражение в исследовательской работе психолога.

Кроме того, если мы уж и решили использовать нейросеть для генерации кода или подбора статистического метода под имеющуюся у вас задачу, надо каким-то образом надо сформулировать промпт. А как его сформулировать, если не знать хотя бы на концептуальном уровне, что должно получиться в результате анализа данных?

Получается, что всё-таки имеет смысл разобраться в статистике и анализе данных хотя бы на некотором базовом уровне, чтобы использоваться нейросетки с умом.