Що таке Нейромережи

Штучний інтелект

Чи замислювалися ви, як сучасні технології “вчаться” розпізнавати обличчя, прогнозувати погоду або генерувати текст?

Нейромережа – це математична модель, натхненна будовою людського мозку, яка здатна самостійно навчатися на основі даних.

Усе, що ви хотіли знати про нейронки: як вони працюють, чи є у них свідомість і коли вони нас замінять.

Поняття нейромережа

Ви напевно вже знайомі та найімовірніше, встигли попрацювати з ChatGPT та іншими нейромережами. Вони спілкуються, пишуть тексти, малюють картинки та генерують інший контент уже практично як люди. Виходить, людство нарешті винайшло штучний інтелект?

Уявіть, що вам потрібно написати програму, яка розпізнає котів за фото. Можна написати довгий список правил і алгоритмів на кшталт «якщо є вуса і шерсть, то це кіт». Але всіх умов врахувати не можна – скажімо, якщо господиня одягла кота в костюм Санта-Клауса або супергероя, алгоритм буде безсилий. У цьому випадку нам допоможе нейронна мережа.

Нейромережа – це програма, яка вміє навчатися на основі даних і прикладів. Тобто вона не працює за готовими правилами та алгоритмами, а пише їх сама під час навчання. Якщо показати їй мільйон фотографій котів, вона навчиться впізнавати їх у будь-яких умовах, позах і костюмах.

Хитрість нейромережі в тому, що алгоритми в ній влаштовані як нейрони в людському мозку – тобто вони пов’язані між собою синапсами і можуть передавати один одному сигнали. Саме від сили цих сигналів і залежить навчання – наприклад, у випадку з котами нейромережа сформує сильні зв’язки між нейронами, що розпізнають морду і вуса.

А щоб нейронка ще швидше вирішувала завдання, розробники придумали розташовувати нейрони на різних шарах. Ось, наприклад, як працюватимуть шари нейромережі, якщо завантажити в неї, скажімо, картинку з котом зі Шрека:

  • Вхідний шар – отримує дані. Картинка розкладається на пікселі, кожен з яких надходить на окремий нейрон.
  • Приховані шари – творять магію. Саме в них відбувається обробка даних. Нейромережа впізнає кота, капелюх, траву та інші деталі. Умовно можна сказати, що чим більше шарів у нейронці, тим вона розумніша.
  • Вихідний шар – видає результат. Нейромережа збирає пазл воєдино і відповідає: «Це ж той мем, де Кіт у чоботях зворушливо дивиться в камеру».

Спрощено всю цю схему можна уявити так (звісно, в реальності все набагато складніше):

Як бачите, ніякого мислення і свідомості в нейромережі немає – тільки алгоритми і формули. Єдине, що відрізняє її від інших програм, – це здатність навчатися й адаптуватися до нових завдань. Про те, як це працює, поговоримо трохи пізніше.

Як працює нейромережа

Спробуємо пояснити роботу нейромережі детальніше на прикладі Midjourney – популярного генератора картинок за текстовим описом. Для прикладу попросимо її намалювати єнота, який літає на скейтборді в стилі фільму «Назад у майбутнє». Чому б і ні?

Тут важливо уточнити: технічно Midjourney – це не одна нейромережа, а дві. Перша відповідає за обробку тексту, а друга – за картинки. Тобто ми зможемо подивитися, як нейронки працюють із різними видами контенту.

Ось як Midjourney вирішуватиме це завдання:

Крок 1. Перша нейромережа отримує запит і розбиває його на ключові слова: «єнот», «літає», «скейтборд», «стилістика фільму “Назад у майбутнє”».

Крок 2. Потім вона перетворює слова на набори цифр, які називають векторами – так нейромережа зможе визначити їхній зміст.

Крок 3. Слова у вигляді векторів передаються на наступний шар нейромережі, яка створює на їхній основі начерк майбутньої картинки. Наприклад, для набору чисел «єнот» нейронка створить піксельний овал із чорними смугами.

Крок 4. Начерк картинки надходить до другої нейромережі, яка додає об’єктам складніші деталі – кольори, текстуру та освітлення. Скажімо, для фрази «стилістика фільму “Назад у майбутнє”» вона може додати дошці неонове підсвічування в стилі ретрофутуризму.

За складнішу деталізацію відповідає метод стабільної дифузії. Це коли картинка спочатку перетворюється на піксельний шум, а потім воскресає з нього з новими деталями. Щоб нейронка могла творити таке чаклунство, її навчили передбачати, які пікселі мають бути на місці розмитих.

Крок 5. Вихідний шар покращує якість зображення і видає готову картинку.

Ви напевно запитаєте: а звідки взагалі нейромережа знає, що таке єнот, скейтборд, а тим паче фільм «Назад у майбутнє»? Відповідь проста: її цього навчили на великому масиві даних, який називається датасетом. Принцип той самий, що і з дітьми в яслах: «Дивись, Ілля, це яблуко. А це морква. А це, Ілля, літаючий скейтборд у стилі ретрофутуризму» 🙂

Докладніше про те, як влаштований цей процес, дізнаємося в наступному розділі.

Як навчаються нейромережі

У звичайному програмуванні все стабільно: ми пишемо програмі інструкції, а вона за ними видає якийсь результат. Наприклад, можна прописати, як рахувати час поїздки в метро, і вона робитиме це завжди однаково – за заздалегідь заданим алгоритмом.

Нейромережа працює по-іншому: вона не програмується в класичному сенсі, а навчається. Виглядає це так: ми даємо їй завдання на вході, а на виході – готове рішення. А алгоритми та інструкції вона вчиться писати сама, постійно звіряючись із відповіддю. Ідея в тому, щоб дати нейромережі достатню кількість спроб, і рано чи пізно вона видасть потрібний результат.

Наприклад, щоб навчити нейронку всередині Midjourney зіставляти текст із картинками, їй «згодували» величезний масив зображень із підписами. З одного кінця нейромережа отримувала текст, а з іншого – картинку. А потім вчилася визначати, що на фото: людина, водолазка чи садовий шланг.

А ось як нейронка вчиться в цьому випадку:

  • Отримує пару «текст + картинка» з датасету. До цього кроку нейромережа підходить із випадковими вагами – тобто незаданими зв’язками між нейронами.
  • Робить передбачення. Оскільки ваги випадкові, спочатку оцінка буде неточною. Наприклад, вона назве єнота Ракету порцеляновою вазою.
  • Обчислює помилку. Дивиться на готову картинку і підпис, а потім визначає, наскільки точно вона встановила зв’язок.
  • Коригує помилку й оновлює ваги. Посилює зв’язки між тими нейронами, які допоможуть їй розпізнавати єнота. За це відповідає метод зворотного поширення помилки.
  • Повторює ці кроки доти, доки не навчиться вгадувати правильно. Такі спроби називаються епохами навчання.

У результаті ми отримуємо ідеальний алгоритм, який здатен побачити зв’язок між картинкою і текстом. Якщо розгорнути його у зворотний бік, якраз і вийде генератор зображень за запитом.

А щоб навчити нейромережу думати більш гнучко, творці стали давати їй неправильні пари картинок. І з часом вона навчилася визначати силу зв’язку між різними предметами – схожими і не дуже. Це дало змогу нейромережі запам’ятати безліч різних способів вирішення завдання.

У цьому і є головна фішка машинного навчання – воно допомагає програмі думати креативно. Та ж сама Midjourney може видавати вам тисячі різних єнотів за одним і тим самим запитом. І звісно, таку кількість варіантів не під силу написати навіть найбільшій команді розробників.

Види нейронних мереж

Одразу обмовимося: існує кілька десятків архітектур нейромереж – але в цьому розділі ми обговоримо тільки ті, що набули особливої популярності і якось вплинули на культуру. Якщо вам потрібен повний список, можете зазирнути в нейромережевий зоопарк Інституту Азімова.

Перцептрони. Перша модель, яку вдалося запустити на обчислювальній машині – нейрокомп’ютері «Марк I». Її розробив ще 1958 року вчений Френк Розенблатт – він заклав деякі принципи, які потім перейняли складніші моделі. Так, незважаючи на одношарову структуру, перцептрон уже вмів налаштовувати ваги та примітивно коригувати помилку.

Завдяки нейронці «Марк I» міг навіть впізнавати окремі літери алфавіту. За допомогою спеціальної камери машина сканувала картинки, перетворювала їх на сигнали, які потім підсумовувала і видавала результат: 1 або 0.

Багатошарові. Відразу після виходу у перцептрона виявилася проблема – йому було складно розпізнавати об’єкти в нестандартних умовах. Щоб це обійти, придумали багатошарову модель – вона вміє виділяти абстрактні складні ознаки з об’єктів і розв’язувати завдання гнучкіше. Наприклад, вона може розпізнати об’єкт незалежно від освітлення і кута нахилу.

Рекурентні. Нейромережі, заточені на роботу з послідовностями – текстом, мовленням, аудіо або відео. Ідея в тому, що вони пам’ятають весь ланцюжок даних, можуть розуміти його сенс і передбачати, що буде далі. Наприклад, цю модель використовують Google Translate і «Аліса», щоб генерувати зв’язний текст.

Згорткові. Беруть на себе всю роботу з картинками: розпізнавання, генерацію, обробку, видалення фону – все що завгодно. За це в них відповідають два алгоритми: згортка і пулінг. Перший робить пошарову нарізку картинки, а другий – знаходить і кодує на цих шарах найважливіші ознаки.

Генеративні. Будь-які нейромережі, які щось створюють. Коли виходить добре, люди їх бояться, коли погано – відчувають свою перевагу. З актуальних прикладів: генератори картинок Midjourney і DALL-E, автор схожих на написані людиною текстів ChatGPT і обробник селфі Lensa.

Що буде далі

Уже зараз зрозуміло, що нейронки братимуть на себе все більше завдань, які раніше вважалися людськими. Питання тільки в тому, чи розвинуться вони настільки, щоб повністю замінити собою частину професій, чи залишаться на рівні помічників – таких собі творчих калькуляторів.

Щодо цього є дві позиції. Наприклад, лінгвіст Ноам Хомський вважає, що проблема є в самій моделі машинного навчання – мовляв, така система ніколи не зможе наблизитися до людської свідомості:

«ChatGPT від OpenAI, Bard від Google, Sydney від Microsoft – показові приклади машинного навчання. Вони, грубо кажучи, беруть величезні обсяги даних, шукають у них патерни і стають дедалі вправнішими в генерації статистично ймовірних результатів – таких, що видаються подібними до людської мови та мислення.

«Але людський розум, на відміну від ChatGPT і йому подібних, не незграбний статистичний механізм для зіставлення з патерном, що поглинає сотні терабайт даних та екстраполює найхарактерніші розмовні реакції або найімовірніші відповіді на наукове запитання. Навпаки, людський розум – напрочуд ефективна і навіть елегантна система, яка оперує невеликими обсягами інформації; вона прагне не до виведення грубих кореляцій у даних, але до створення пояснень».- пояснює Ноам Хомський,

З іншого боку надходять відверто панічні прогнози. Ось що говорить, наприклад, історик Юваль Ной Харарі, автор книги «Коротка історія майбутнього»:

“На початку було слово. Мова – це операційна система людської культури. З мови виникають міф і закон, боги і гроші, мистецтво і наука, дружба і нації – навіть комп’ютерний код. Оволодівши мовою, ШІ захоплює головний ключ до управління нашою цивілізацією.

Що означає для людей жити у світі, де великий відсоток історій, мелодій, образів, законів, політики та інструментів формується нелюдським розумом, який знає, як з надлюдською ефективністю використовувати слабкості, упередження та пристрасті людей? Знає, як встановлювати з людьми близькі стосунки? У таких іграх, як шахи, жодна людина не може сподіватися перемогти комп’ютер. Що буде, коли те ж саме станеться в мистецтві, політиці та релігії?

ШІ може швидко з’їсти всю людську культуру – все, що ми створили за тисячі років, – переварити її і почати вивергати потік нових культурних артефактів. Не тільки шкільні твори, а й політичні промови, ідеологічні маніфести і навіть священні книги для нових культів. До 2028 року в президентських перегонах у США можуть більше не брати участь люди.”

Під час написання цього тексту ми вирішили поспілкуватися з нейронкою, вбудованою в Microsoft Bing, – по суті, ChatGPT із функціями пошуковика. Вона була чимось на кшталт технічного консультанта для статті: відповідала на запитання, вигадувала прості й цікаві аналогії для складних понять, вела бесіди в рамках цих аналогій, підбирала цікаві приклади.

Були й казуси: чат-бот брехав, помилявся й іноді суперечив сам собі. Плюс без хорошого запиту писав він відверто слабко – водянисто, абстрактно і зовсім нецікаво. Тож використовувати його тексти як повноцінну журналістську роботу поки що, м’яко скажемо, зарано.

Але є й цікавий момент: після багатогодинної бесіди з ChatGPT повертатися у звичайний Google було нелегко – наче пересідаєш із «Сапсана» на приміську електричку. Тобто, можливо, на нас незабаром чекає повна зміна самої суті споживання інформації в Мережі. І ось це вже цікаво.

Висновок

Отже, нейромережі вже не фантастика і не лабораторний експеримент – вони стали частиною нашої щоденної взаємодії зі світом.

Вони пишуть, малюють, радять, генерують, перекладають і навіть сперечаються, поступово змінюючи наші уявлення про творчість, працю і знання. Вони далекі від людської свідомості, але іноді можуть здаватися небезпечно переконливими. Ми поки що на порозі великої трансформації – але двері вже прочинені.

Павлов Максим

Founder & CEO Onpage School

Оцініть автора
Onpage School