Data Science fwdays'19 у Києві

Data Science fwdays'19 у Києві
Перша конференція від Fwdays, присвячена Data Science і Machine learning, відбулась у Києві.

DataArt, золотий партнер конференції, втретє став спонсором Diversity tickets. Ці квитки дають можливість відвідати подію тим, хто мало представлений в IT-спільноті або потребує фінансової допомоги.

13 експертів виступили з доповідями про Artificial Intelligence і Data Science, актуальні питання обговорювали у Speakers' Corner. Конференція зібрала понад 380 учасників, онлайн трансляції доповідей дивилися близько 2000 людей.

Наші колеги поділилися враженнями після конференції.

Інна Гученко (Business Analyst, DataArt):

“Найцікавішими для мене стали доповіді Треку А.

Відкрив конференцію Олександр Краковецький (DevRain) з доповіддю “Чорний ящик машинного навчання”. Тема інтерпретованості (зрозумілості) моделей почала активно розвиватися лише в 2017 році, і сьогодні є особливо актуальною у світлі нових правил захисту персональних даних, прийнятих Євросоюзом (GDRP). Зрозумілість моделі також відіграє важливу роль у побудові взаємодії людина — штучний інтелект, адже абсолютно природно задатися питанням “як я можу зрозуміти рішення моделі та довіряти їм?”.

Досить гострою є тема етики та упереджень при спробах пояснити, чому, наприклад, моделі передбачення скоєння злочинів явно мають перекіс у бік осіб з певним кольором шкіри.

Олександр розглянув найвідоміші програми та фреймворки, які використовують для інтерпретації результатів машинного навчання, зокрема LIME, Shap, RNNVis. Також навів цікавий приклад, як іноді найпростіша модель дає результат не гірший, але більш швидкий та ефективний, ніж складніша (на прикладі розрахунку кількості загиблих на Титаніку).

Великі компанії (Google, IBM, Microsoft) почали активно працювати над інтерпретаторами моделей машинного навчання лише рік тому. Наприкінці доповіді Олександр висловив припущення, що ця тема буде особливо актуальною протягом наступних п'яти років.

Наступна доповідь на треку А — “Конструювання ознак для розпізнавання образливих фраз для української мови у Twitter” Валерії Лакусти (Grammarly). Валерія досліджувала ознаки образливої мови з точки зору комп'ютерної лінгвістики. Дослідження було ускладнене практично повною відсутністю ресурсів та інструментів для української мови, орфографічними помилками, суржиком і неологізмами у соцмережах. Для нівелювання цих особливостей розглядалися такі методи, як відстань Левенштейна та символьні біграми.

Цікавим відкриттям стала більша вага нелінгвістичних ознак образливої мови — кількості фоловерів, друзів, публікацій та лайків — у підсумковій моделі та її калібруванні у порівнянні з лінгвістичними — граматикою, синтаксисом, деревами залежностей, контекстом заперечення, емоджі.

А особисто для мене відкриттям стало існування словника матірних слів української мови з 7130 словоформами”.

 

Багато спікерів конференції торкалися морально-етичних аспектів використання штучного інтелекту. Максим Завгородній (Java Developer, DataArt) розповів про поділ ШІ на слабкий і сильний.

Слабкий штучний інтелект вельми успішно справляється з цілим рядом вузькоспрямованих задач. Наприклад, розпізнаванням образів, класифікацією об'єктів, голосовим набором тексту.

Приклади успішного використання:

AlphaGo Official Trailer

Machine Learning Zero to Hero (Google I/O'19)

Незважаючи на це, все частіше виникають конфлікти морально-етичного характеру. Наприклад, сервіс від Google з пошуку зображень, в основі якого лежить нейромережа, що самонавчається, за запитом "monkey" відображав людей певної раси. Це спричинило безліч судових позовів і скандалів. Також є приклади, які базуються на статистичних моделях і можуть давати значні похибки, виходячи з кольору шкіри, рівня освіти та інших деталей.

Можна сказати що в суспільстві назріває питання не в тому, як навчити комп'ютер думати, а в тому, як навчити його етиці та моралі. Саме тому в 2019 році всесвітня організація GDPR постановила наступні принципи регулювання в галузі машинного навчання і штучного інтелекту:

 

Інакше кажучи, ШІ, який орієнтується лише на розв’язання поставлених задач, не враховуючи етику, виявиться дуже небезпечним.

Наприклад, у світі фінансів можна обрати наступну стратегію:

  1. Інвестувати в акції оборонного підприємства.
  2. Розв'язати війну з сусідньою державою.
  3. Отримати великий прибуток.

Або ж для вирішення завдань з екологічними катастрофами на планеті Земля, оптимальною буде наступна стратегія:

 

Щоб розв’язати перераховані вище задачі, необхідно рухатись у бік сильного штучного інтелекту.

Сильний штучний інтелект не просто використовує алгоритми для маніпуляції з даними (зашиті спочатку або напрацьовані у процесі навчання), а й усвідомлює сенс інформації. Концепція усвідомлення неминуче зачіпає поняття свідомості як нерозривно пов'язаної зі здатністю мислити й усвідомлювати, а отже — бути особистістю.

Щоб успішно розв’язати цю задачу, необхідно створити систему, яка буде здатною усвідомлювати сенси, розмикати справжнє поняття образів. Іншими словами, необхідно створити аналог свідомості.

Класичний приклад даної проблеми — експеримент “Китайська кімната” (Chinese room), опублікований Джоном Серлом у 1980 році. Суть експерименту полягає в тому, що людина, яка не володіє китайською, може, слідуючи інструкціям англійською, за певним запитом повернути відповідний ієрогліф. В експерименті дії будуть виконані алгоритмічно, і не так важливо, чи навчилася цим діям нейронна мережа, чи вони заздалегідь були вкладені програмістом.

Щоб інтелект за правом можна було назвати сильним, він повинен розуміти контекст ієрогліфів. Наприклад істинний сенс певного ієрогліфа в контексті третьої чайної церемонії філософії Дао.

Джон Серл: Найсильніший аргумент проти штучного інтелекту

Consciousness & the Brain: John Searle at TEDxCERN

Також можна згадати уявний експеримент під назвою “Млин Лейбніца”, який був описаний Готфрідом Лейбніцем у “Монадології”. В ході експерименту передбачалося представити машину розміром із млин. Вона здатна симулювати сприйняття, емоції та почуття. Зайшовши всередину, можна виявити, що жодна частина млинів або їхніх взаємодій не будуть свідомістю. Інакше кажучи, одних лише станів недостатньо для функціонування та опису свідомості.

Сучасна наука не дає відповідь на запитання, що таке свідомість. Більш того, наукове співтовариство розділилося на два табори. Когнітивісти вважають, що свідомість є емерджентним станом біології нашого мозку, а воля визначається у ланцюжку фізичних станів Всесвіту. Ідеалісти стверджують, що джерело свідомості знаходиться поза фізичною природою, оскільки ми можемо оперувати поняттями та категоріями, якими наша природа не наділена: нескінченність, ідеальна рівність та інше.

Виходячи з цього, неможливо спроектувати сильний ШІ, не прояснивши перед цим саму область проектування, тобто чим є свідомість сама собою.

Людське розуміння обмежене рамками власної свідомості. Виникає замкнута аксіоматична система, про нерозв'язність якої згадував Курт Гедель у теоремах про суперечливість і неповноту. Простіше кажучи, щоб створити свідомість 1.0, потрібно спочатку вийти за межі власної свідомості, трансформувавшись у свідомість 2.0. Після чого можна буде спробувати вивчити свідомість 1.0 і спробувати її відтворити.

Дивіться презентації всіх доповідей та відеозвіт:

 ​