SFDA | PSY HSE
Statistics for Data Analysis
Начало
Врубаем тэхно для рабочего настроения
Прежде всего, разумно будет попытаться разобраться в том, заради чего мы тут собрались. Ну, попробуем…
Вот, скажем, решили мы замерить уровень счастья российского населения — задача, прямо скажем, не суперпростая. Дать опросник 144 миллионам людей весьма энергозатратно, и хотелось бы как-то упростить себе задачу. Сколько нам надо опросить людей, чтобы наш замер отражал реальность? Как нам их выбрать? Как потом обсчитать цифры, которые мы получим? И вообще, наш опросник — он точный? Надежный? Им вообще законно что-либо измерять?
Или вот мы — учёный. Решили провести некоторый суровый когнитивный эксперимент, чтобы узнать, как пользователи Android и iOS ищут иконки разных приложений. Скачали статей, выдвинули гипотезы, придумали дизайн, запрогали эксп, нашли несчастных, которые прошли этот эксп — по итогу получили какие-то цифири. Возникает справедливый вопрос: и чё? Как нам сказать, что данные подтвердили или опровергли наши гипотезы? Можем ли мы вообще по этим данным что-то сказать? Ну, допустим, мы ленивые и вообще программировать это для умных — отдадим специально обученным аналитикам посчитать это всё. И получим цифири. О, нет — опять! Возникает ещё один справедливый вопрос: и чё? Как нам сказать, что эти цифры подтверждают или опровергают наши гипотезы? Можем ли мы вообще по этим цифрам что-либо сказать осмысленное? А содержательно как это интерпретировать? Иконки-то как пользователи ищут?
Ну, или мы — HR в компании на 100500 тыщ человек сотрудников. Пришел гендир, сказал «уволить нельзя премировать, только непонятно кого». Дал нам экселевскую таблицу со всякими показателями эффективности и сказал «завтра к вечеру должна быть система грейдов, по которой будем оценить сотрудников». И что делать? Придется всю ночь ворочать цифры и статистически моделировать.
А вот, скажем, залезли мы в ковидные новости очередной волны — там что-то страшное, да в графиках, да снова цифры какие-то ужасные. Хлебнули чаю, включили статистический взгляд — а, ну так все норм же. Оценили риски для себя, друзей, родных, убедились в том, что журналисты снова навели излишней суеты, восхитились собой, пошли инвестировать в крипту.
Опять какие-то графики увидели, тренды, прогнозы и всё такое. Как понять? Как прочитать это всё? Как оценить, куда надо стипуху вкласть? Вспомнили статистику, навели шороху, собрали достойный инвестиционный портфельчик — хлебнули кофе, пошли покупать билеты на Бали.
Дальше можно расписывать огромное количество подобных случаев. Приходится признать, что сегодня мы живем в окружении огромного количества алгоритмов, основанных на статистическом анализе. Всё то, что называется модным словосочетанием «машинное обучение» базируется на тех статистических методах, которые мы будем с вами изучать.
Можно ли жить без этого знания? В принципе, да. Однако
- когнитивщикам и нейроисследователям необходимо анализировать свои данные своих экспериментов и — что значительное более важно — корректно интерпретировать результаты статистического анализа, что невозможно без понимания того, как используемые статистические методы работают
- социальщикам и личностникам-исследователям также необходимо анализировать данные своих исследований — и используемые ими модели даже сложнее, чем у когнитивщиков и нейроученых
- организационщикам придется также работать с данными, потому что HR-аналитика на хайпе и экспертный подход к оценке персонала постепенно теряет актуальность [а ещё айтишников нанимать придётся]
- личностникам-консультантам надо быть в теме того, что творят личностники-исследователи, а значит придется читать статьи и оценивать их адекватность, в том числе, в аспекте анализа данных
- всем [даже некоторым когнитивщикам] придется работать с опросниками — а вся психометрика строится на статистике
- всем придется в жизни анализировать потоки информации, возрастающие с невероятной скоростью, данные и графики, критически и оценивать, выявлять неочевидные закономерности, чтобы понимать, что происходит — и статистика в этом сильно поможет
- все мы продолжаем жить в мире гаджетов и технологий, и понимание того, какие модели лежат в их основе, очень прилично апгрейдит наше понимание того, что восстание машин будет о-о-о-очень не скоро.
Конечно, мы не можем обсудить всё. Мы находимся в рамках суровых институциональных ограничений. Но мы постараемся заложить достаточно прочный фундамент, который при правильном применении и должном уходе поможет вам преуспеть и в жизни, и в работе и вообще.
Зачем изучать анализ данных в эпоху нейросетей?
А действительно? Можно же просто закинуть промпт, и всё готово…
Ну, закинем промпт.
Зачем изучать анализ данных, если существуют нейросети, которые могут проанализировать данные за меня?
Зачем мне как аналитику уметь писать код, если можно попросить нейросеть написать код под конкретную задачу по анализу данных?
В общем-то, автор согласен с мнением большой языковой модели. Пусть и не все обозначенные ею пункты в полной мере актуальны для психологов, так или иначе каждый тезис находит своё отражение в исследовательской работе психолога.
Кроме того, если мы уж и решили использовать нейросеть для генерации кода или подбора статистического метода под имеющуюся у вас задачу, надо каким-то образом надо сформулировать промпт. А как его сформулировать, если не знать хотя бы на концептуальном уровне, что должно получиться в результате анализа данных?
Получается, что всё-таки имеет смысл разобраться в статистике и анализе данных хотя бы на некотором базовом уровне, чтобы использоваться нейросетки с умом.