10 важливих термінів зі сфери AI та ML — спеціально для DataArt IT NonStop

10 важливих термінів зі сфери AI та ML — спеціально для DataArt IT NonStop
IT NonStop — міжнародна конференція, яку DataArt проводить з 2014 року. Цього року вона пройде 18–20 листопада, вже вдруге цілком онлайн та безкоштовно.

Поряд з Data Science і хмарними технологіями, серед головних тем IT NonStop 2021 — штучний інтелект і машинне навчання. Доповіді про підготовку, тренування та інтерпретацію моделей, проектування та налаштування заснованих на AI додатків представлять університети і технологічні компанії (Amazon Web Services, Microsoft, NVIDIA, OCADO тощо). Частина виступів орієнтована на досвідчених експертів, але для фахівців-початківців рівня Junior і Trainee та для тих, чия спеціальність безпосередньо не пов'язана зі штучним інтелектом чи ML, теж заплановано достатньо.

У сфері ШІ — власна специфічна термінологія, а деякі слова, перенесені сюди з суміжних галузей, можуть помітно змінювати значення. Ми вибрали десять понять, які точно знадобляться всім, хто цікавиться темою, планує читати статті та слухати доповіді. Йтиметься про алгоритми (наприклад, генетичні), дані (зокрема, озера, сховища та навмисне спотворення даних), глибоке навчання. Сподіваємось, що наш маленький глосарій допоможе новачкові підготуватися до конференції IT NonStop 2021.

Алгоритм (1) навчання — фрагмент коду, набір однозначних інструкцій, що дозволяють встановити закономірності всередині масиву даних та підготувати на їхній основі модель машинного навчання. Генетичні алгоритми (2) — один з численних видів ML-алгоритмів, евристичний метод, натхненний принципами природного добору. Найчастіше в машинному навчанні такі алгоритми використовують для виконання оптимізаційних задач при обробці зображень, у робототехніці, розробці ігор, прокладанні маршрутів, комп'ютерній творчості тощо.

Про генетичні алгоритми йтиметься, наприклад, у доповідях Роберта Єнокяна з Вірменії та Павла Гори з Польщі.

Будь-які проекти машинного навчання залежать від інформації, на аналізі якої вони засновані. Тому питання збереження та вилучення даних теж опиняються у сфері інтересів AI та ML-фахівців. Data lake або озеро даних (3) — універсальний репозиторій для аналітики, що дозволяє зберігати велику кількість структурованих, напівструктурованих і неструктурованих даних. У даному випадку «плоске озеро» протиставляють традиційному ієрархічному сховищу даних (4).

Існує й комбінований тип сховища — data lakehouse (5), що дозволяє обійти багато обмежень, властивих його прототипам, поєднуючи гнучкість озера з більш зручним керуванням. Саме тому новий тип привертає велику увагу проектів BI та ML. Ще одне важливе поняття — багатовимірні дані (7) — high dimensional data, під якими розуміють масиви, де кількість ознак перевищує кількість спостережень.

На IT NonStop 2021 керуванню даними буде, зокрема, присвячена доповідь Віталія Бондаренка зі Львова.

У центрі виступу Івайло Станджева з Болгарії — ще одне важливе поняття зі сфери керування даними і машинного навчання — отруєння даних (6). Це найбільш небезпечна атака, якій піддається штучний інтелект — маніпуляція, при якій закладена на етапі навчання помилка змушує модель ухвалювати неправильні рішення в майбутньому.

Повертаючись безпосередньо до алгоритмів машинного навчання, звертаємо вашу увагу на систему YOLO (You Only Look Once) (8), що розпізнає об'єкти в реальному часі. На конференції IT NonStop 2021 Марк Амазаспян із Вірменії розповість про налаштування підготовленої моделі, здатної відрізняти реальні об'єкти від їхніх зображень.

Глибоке машинне навчання (9) — сукупність методів, заснованих на навчанні загальним уявленням, а не алгоритмам під конкретні задачі. Його ідея полягає в імітації розумового процесу людини, найбільш повне втілення вона знаходить в архітектурі глибинної нейронної мережі (10). Якщо ця тема здається вам близькою, зверніть увагу на доповідь Томаша Стахлевського з Польщі. Прямо у процесі ви зможете натренувати власну нейронну мережу для визначення об'єктів, що потрапили в об'єктив камери.

Словник до тексту

1. ALGORITHM (алгоритм) — метод або набір інструкцій, що дозволяє підготувати модель машинного навчання.
2. GENETIC ALGORITHM (генетичний алгоритм) — тип алгоритмів, натхненний принципами природного добору, що зазвичай застосовується для виконання оптимізаційних задач.
3. DATA LAKE (озеро даних) — репозиторій, що дозволяє зберігати величезний обсяг неструктурованих даних.
4. DATA WAREHOUSE (сховище даних) — предметно-орієнтована база даних, призначена для підготовки звітів і бізнес-аналізу.
5. DATA LAKEHOUSE — термін, який зазвичай не перекладають. Це комбінований тип сховища, що поєднує характеристики озера та сховища даних.
6. DATA POISONING (отруєння даних) — маніпуляція, при якій закладена на етапі навчання помилка змушує модель ухвалювати неправильні рішення.
7. HIGH DIMENSIONAL DATA (багатовимірні дані) — масиви, де кількість ознак перевищує кількість спостережень.
8. YOLO-algorithm, зазвичай так і званий YOLO, — алгоритм, розроблений для розпізнавання об'єктів на зображенні в реальному часі.
9. DEEP LEARNING (глибоке або глибинне навчання) — тип машинного навчання, при якому модель готується під широкий пул задач, а не для відповіді на конкретне запитання.
10. DEEP NEURAL NETWORK (глибинна нейромережа) — складна штучна мережа, що складається з декількох шарів та імітує нейронні зв'язки людини.

 

Конференція IT NonStop, присвячена штучному інтелекту, машинному навчанню, керуванню даними та хмарним технологіям, пройде 18–20 листопада. На ній виступлять інженери провідних IT-компаній, зокрема Microsoft, NVIDIA, AWS, Ocado тощо.