Дивитися на дані як на детектив: невелика добірка каналів і книг для початківця в дата-аналітиці

4 листопада
Слава Зборовський, Middle Data Analyst у DataArt
Дивитися на дані як на детектив: невелика добірка каналів і книг для початківця в дата-аналітиці
За останні два роки я не дізнався нічого революційного щодо технік дослідження даних. Натомість став непоганим детективом, який звертає увагу на контекст. І за співбесідами в нашій компанії бачу, що рівень і професійне зростання дата-аналітика пов’язані насамперед із “детективними” навичками, які більше софт, ніж хард. Через величезний попит на аналітиків даних зростає кількість курсів і програм, де викладають Python та SQL, розповідають, як автоматизувати рутинні задачі та малювати дашборди. Проте наша робота будується не лише на технічних знаннях.

Мої більш досвідчені колеги, коли допомагають джунам, часто просять знайти нестандартний підхід до розв’язання задачі, вигадати незвичайну гіпотезу, приміряти роль інших людей — та подивитися на свої дашборди, скажімо, очима керівника відділу логістики в Любліні. Іншими словами, поводитись як детектив.

Ми з колегами не маємо універсального рецепта, як стати детективом даних. Але я можу поділитися добіркою для поступового формування потрібних навичок — ніби у відповідь на запитання знайомого початківця в дата-аналітиці: “Слава, які 5–7 книг чи телеграм-каналів порадиш?”.

Спільноти та канали

Open Data Science — одна з найбільших і найактивніших DS-спільнот. Широкі двері у світ аналізу даних.

Article image

Підключайтеся до Slack — тут головна тусовка

У спільноті можна підглянути різні підходи до роботи з даними, знайти відповіді на запитання будь-якої складності. Slack спільнота працює як гарний технічний форум. Якщо хтось пише: “Я не знаю, як це зробити, допоможіть”, — одна з перших відповідей буде десь такою: “А навіщо це взагалі робити, краще вчинити так, дивись...”.

Reveal The Dataтелеграм-канал та сайт Роми Буніна, який відповідає за візуалізацію та BI в Яндекс Go. На мій погляд, це насамперед джерело натхнення, куди корисно заходити щодня та розглядати правильні дашборди. Правильні — тобто ними зручно користуватись, вони вгадують запити користувача, випереджають їх. Завдяки надивленості легше налаштувати фільтри так, щоб у користувача не спотворювалась картинка і відразу були помітні слабкі місця у процесах.

Tableau's Viz of the Day телеграм-канал та сайт Public Tableau, безкоштовної платформи для публічного обміну візуалізаціями даних. Естетична насолода від незвичайних і красивих візуалізацій на кожен день. Особисто мені допомагає налаштуватися на роботу вранці.

Article image

Інтерактивний дашборд від фаната Веса Андерсона

Чат Tableau — якщо попередні два джерела мають більше надихаючий характер, у цьому чаті ви здебільшого знайдете відповіді на рутинні запитання. Як правильно підібрати та налаштувати метрики? Як лаконічно організувати джерела даних? Дуже корисно, якщо потрібно, наприклад, швидко перевірити оригінальну гіпотезу, але не вистачає знань, як це реалізувати технічно. Кваліфіковану відповідь у чаті можна отримати в режимі 24 х 7.

Книги

“Статистика та котики” Володимира Савельєва — майже ідеальний формат для трейні та навіть джунів. Втім, проджект-менеджеру або розробнику теж стане у пригоді, якщо хочеться зрозуміти, чим займається колега — аналітик даних.

Книга прихиляє до світу аналізу даних, пояснюючи неймовірно простою мовою та ілюстраціями із всесвіту котиків і совенят такі поняття, як заходи центральної тенденції, статистичні тести, медіанне значення та багато іншого.

“Гола статистика” Чарльза Вілана + “Фрикономіка” Стівена Левітта та Стівена Дабнера — ці дві книги поєднує думка, що до даних потрібно підходити з граничною обережністю. Автори не згодні з твердженням, що статистика — найбільша брехня. Вона не бреше, просто з нею неправильно працюють, адже, крім математики, у статистиці мають бути в’їдливість, творчість, відмінне знання контексту — тоді й висновки будуть правдивими.

Як у більшості праць американських авторів, тут головну думку підкріплюють десятками прикладів. Багато з них однотипні (хоча й цікаві), тому їх можна пропускати.

DAMA-DMBOK: Data Management Body of Knowledge (2-ге видання) — настільна книга дата-аналітиків, що пояснює процеси: як збираються дані, де зберігаються, хто має за них відповідати тощо. Можна сказати, що DAMA-DMBOK задає каркас нашої професії та її доречно порівнювати з конституцією.

Нещодавно я був на зустрічі, де мій колега, синьйор, невдоволений наполегливо пропонованим рішенням, дістав DAMA-DMBOK, знайшов потрібну сторінку і сказав: “Так робити не можна, бо тут написано, що так не можна робити”. І всі погодились. Загалом, навіть у творчій професії має бути лад.

Якщо хочете глибше поринути у Data Science, рекомендую кілька доповідей на безкоштовній онлайн-конференції IT NonStop, яку DataArt проведе вже 18–20 листопада:

Загалом у програмі конференції — 50 доповідей та воркшопів від фахівців із Microsoft, AWS, NVIDIA, Ocado, Codete, Ciklum, Eleks, SoftServe, Toloka, Yandex, DataArt та інших компаній.

  • Україна, Remote.UA; Україна, Дніпро; Україна, Київ; Україна, Львів; Україна, Одеса; Україна, Харків; Україна, Херсон
    31 грудня