Зміст
12 відносини: Atari 2600, DeepMind, Пітер Норвіг, Навчання з підкріпленням, Теорія ігор, Штучна нейронна мережа, Математичне сподівання, Марковський процес вирішування, Випадковий процес, Глибинне навчання, Дилема в'язня, Детерміновані системи.
- Алгоритми машинного навчання
- Навчання з підкріпленням
Atari 2600
Atari 2600 (Atari VCS до 1982 року) — домашня гральна консоль від Atari, випущена 11 вересня 1977 року.
Переглянути Q-навчання і Atari 2600
DeepMind
DeepMind Technologies Limited — це британська компанія штучного інтелекту, заснована у 2010 році, яку в 2014 році придбала компанія Google.
Переглянути Q-навчання і DeepMind
Пітер Норвіг
Пітер Норвиг — американський вчений в галузі обчислювальної техніки.
Переглянути Q-навчання і Пітер Норвіг
Навчання з підкріпленням
Навчання з підкріпленням (reinforcement learning) — це галузь машинного навчання, натхнена біхевіористською психологією, що займається питанням про те, які (actions) повинні виконувати програмні агенти в певному середовищі (environment) задля максимізації деякого уявлення про сукупну винагороду (reward).
Переглянути Q-навчання і Навчання з підкріпленням
Теорія ігор
нобелівський лауреат Тео́рія і́гор — теорія математичних моделей прийняття оптимальних рішень в умовах конфлікту.
Переглянути Q-навчання і Теорія ігор
Штучна нейронна мережа
головному мозку. Тут кожним круговим вузлом представлено штучний нейрон, а стрілкою — з'єднання виходу одного штучного нейрону зі входом іншого. Шту́чні нейро́нні мере́жі (ШНМ, artificial neural networks, ANN), або системи (connectionist systems) — це обчислювальні системи, натхнені біологічними нейронними мережами, що складають мозок тварин.
Переглянути Q-навчання і Штучна нейронна мережа
Математичне сподівання
Математи́чне сподіва́ння, середнє значення — одна з основних числових характеристик кожної випадкової величини.
Переглянути Q-навчання і Математичне сподівання
Марковський процес вирішування
Ма́рковські проце́си вирі́шування (МПВ, Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення.
Переглянути Q-навчання і Марковський процес вирішування
Випадковий процес
Комп'ютерно змодельована реалізація процесу Вінера або процесу Броунівського руху на поверхню кулі. Вінерівський процес вважається найбільш вивченим і це базовий випадковий процес у теорії ймовірності.
Переглянути Q-навчання і Випадковий процес
Глибинне навчання
Глиби́нне навча́ння (також відоме як глибинне структурне навчання, ієрархічне навчання, глибинне машинне навчання, deep learning, deep structured learning, hierarchical learning, deep machine learning) — це галузь машинного навчання, що ґрунтується на наборі алгоритмів, які намагаються моделювати високорівневі абстракції в даних, застосовуючи глибинний граф із декількома обробними шарами, що побудовано з кількох лінійних або нелінійних перетворень.
Переглянути Q-навчання і Глибинне навчання
Дилема в'язня
У теорії ігор дилема в'язня (ДВ) — гра з ненульовою сумою, в якій гравці прагнуть одержати вигоду, співпрацюючи один з одним або зраджуючи.
Переглянути Q-навчання і Дилема в'язня
Детерміновані системи
Детерміно́вані систе́ми — системи, процеси в яких взаємозв'язані так, що можна відслідкувати ланцюг причин і наслідків.
Переглянути Q-навчання і Детерміновані системи
Див. також
Алгоритми машинного навчання
- Q-навчання
- Мережа радіальних базисних функцій
- Метод k-найближчих сусідів
- Метод зворотного поширення помилки
- Розклад невід'ємних матриць
- Стохастичний градієнтний спуск
Навчання з підкріпленням
- Q-навчання
- Навчання з підкріпленням