Нови приступ ОпенАИ-а за учење имитације једним потезом, завиривање у будућност АИ

Једнословно учење имитације Иан Дуан, Марцин Андрицховицз, Брадли Ц. Стадие, Јонатхан Хо, Јонас Сцхнеидер, Илиа Сутскевер, Пиетер Аббеел, Војциецх Заремба

16. маја, истраживачи ОпенАИ-а поделили су видео једног свог пројекта заједно са два важна рада истражујући решења за три кључна уска грла тренутног развоја АИ: мета-учење, учење у једном кадру и аутоматизовано генерисање података. У свом претходном посту обећао сам чланак посвећен фасцинантном проблему учења једним потезом, па ево и даље. За почетак можете погледати видео који су објавили и који објашњава њихов невероватан рад:

У овом видеу видите физичког робота с једном руком који слаже коцке једна на другу. Познавајући сложене задатке које индустријски роботи тренутно могу да извршавају, ако истраживач не покушава да објасни шта се догађа, на многим рачунима то би било веома тешко. У контролисаном окружењу задатак је једноставних, процедуралних (тврдо кодираних) приступа већ решио ове проблеме. Оно што је обећавајуће и револуционарно је колико општи оквир испод њега може достићи вишеструко, сложеније и адаптивно понашање у бучнијим окружењима.

Разлика у уму између човека и виших животиња, велика је, сигурно, степен, а не врсте.
- Чарлс Дарвин

По аналогији, овај чланак је јак доказ да ће разлике у когнитивним системима између постојећег АИ (вештачке интелигенције физичких система) и робота 22. века бити обимне, а не такве врсте. Од конкуренције ИмагеНет-а 2012 *, истраживање дубоког учења је у порасту, не толико да модификује природу расподељених рачунања које врши неуронска мрежа, већ проналажењем нових начина за структуирање мрежа како би се они научили одређеном задатку. Пошто је функција неуронске мреже структура, та структура није тврдо кодирана (није дизајнирана ручно), али су резултати атомских рачунарских јединица које су у почетку повезане између улаза и излаза, које су у стању да модификују своју структуру и везе. Захваљујући модификацији укупне структуре мреже, она учи одређену функцију.

У овом су чланку изградили општи оквир који је способан да обучи агента да представља задатке на апстрактан начин, и научи да то знање преноси на нове невиђене задатке (трансфер учење) након само једне демонстрације новог задатка (један имитацијски снимак).

Задаци

Иако се тачна архитектонска имплементација разликује, они узимају два задатка као примере који показују перформансе општег приступа.

Достизање честица

У првом примеру систем прима уносе обојених циљних положаја у равни и једну видео демонстрацију симулираног агента који иде до наведеног циља.

Слика 2. Робот је тачкаста маса која се контролише дводимензионалном силом. Породица задатака је достизање циља. Идентитет оријентире разликује се од задатка до задатка и модел мора да утврди који циљ треба да следи на основу демонстрације. (лево) илустрација робота; (средина) задатак је доћи до наранџасте кутије, (десно) задатак је доћи до зеленог троугла.

За време тренинга систем мора да репродукује исти задатак (достигне наранџасту боју), али из друге конфигурације, са различитим почетним положајима за робота и циљеве. Није јасно да ли се током тестирања агент тестира на задатку за који је био обучен (достигне наранџасту) или на задатку који никада раније није видео (на пример, посегните за зеленим) или обоје.

Обучена политика вреднује се на новим сценаријима и условљава на новим демонстративним путањама невидљивим током обуке.

Сигурно је да агент мора извести циљану циљеве из јединствене демонстрације и поново кренути из друге конфигурације. То подразумева да се тачна моторичка секвенца није могла сазнати пре тестирања и да се мора закључити апстракцијом (структурирани приказ вишег нивоа) задатка и планирањем мотора.

Слагање блокова

У другом примјеру агент мора научити слагати коцке (идентифициране различитим бојама) истим редослиједом као онај приказан у једној симулираној демонстрацији. Ова симулирана демонстрација представља серију 2Д слика које је генерисао 3Д физички мотор у коме су моделирана својства моторних и сензорних апарата робота.

Политика једног потеза. Једна политика обучена за решавање многих задатака. Главни задатак: {абц, деф}, Доњи задатак: {аб, цд, еф}

У оба примера почетни положаји коцкица у демонстрацији и у стварном тесту су различити, а сваки задатак полази од другог почетног положаја. Робот не покушава да замени коцкице које би одговарале почетном положају демонстрације, он пребацује задатак вишег нивоа да нагомила коцку без обзира на стање у коме се покрене.

Тренинг помоћу рандомизације домена

У оба случаја све слике коришћене током тренинга добијају се симулацијом помоћу рандомизације домена у којој ће рандомизирати следеће аспекте узорака:

Број и облик дистракторских предмета на столу Положај и текстура свих предмета на столу Текстуре стола, пода, оквира за скенирање и робота Положај, оријентација и видно поље камере Број светла у сцени Позиција, оријентација, и спекуларне карактеристике светла Врста и количина случајног шума који се додаје сликама

Тренинг сет за постизање честица

Сматрамо све тежи скуп породица задатака, где се број оријентира повећава са 2 на 10. За сваку породицу задатака сакупљамо 10000 путања за обуку, при чему су положаји оријентира и почетни положај точкастог робота насумични. Користимо тврдо кодирану експертну политику за ефикасно генерисање демонстрација. Трактуријама додајемо буку узнемирујући израчунате радње пре него што их применимо у окружењу, а ми користимо једноставно клонирање у понашању да бисмо обучили политику неуронске мреже

Сет за тренинг за слагање блокова

Конкретно, прикупљамо 140 задатака тренинга и 43 тестна задатка, сваки са различитим жељеним распоредом блокова. Број блокова у сваком задатку може варирати између 2 и 10. Прикупљамо 1000 путањи по задатку за обуку и одржавамо засебан скуп путања и почетних конфигурација које ће се користити за евалуацију. Слично задатку за постизање честица, ми убризгавамо буку у процес сакупљања путање. Путања се прикупљају помоћу тврдо кодиране политике.

Успешне демонстрације се прикупљају коришћењем тврдо кодиране политике

Имајте на уму да се током учења исправних путања генерише процедурално „тврдо кодираном“ политиком, за коју верујем да се ослања на класичне технике идентификације и контроле система. Дакле, током обуке и тестирања агент има два улаза: а) демонстрацију у конфигурацији А и б) почетну конфигурацију Б. Само током тренинга алгоритам учења има приступ идеалном одговору: путањи која почиње од конфигурације Б која одговара на проблем и са којим ће се упоредити одговор агента током учења - чинећи то проблемом учења под надзором.

За сваки задатак тренинга претпостављамо доступност низа успешних демонстрација.

Ако није јасно, у наредном одељку ћу прећи разлике између различитих врста парадигми учења.

Алгоритам оптимизације и функција губитака

Надгледано учење односи се на парадигме тренинга у којима мрежа при свакој одлуци има приступ исправном избору који је требао донети, а самим тим и на појаву грешке. На примјер, у класификацијском задатку паса и мачака, наљепница слика паса и мачака током тренинга се зна унапријед и погрешке се одмах откривају. У том се смислу разликује од ненадзираног учења гдје се од агента у правилу тражи да пронађе непознату структуру у улазима које прими, а без наљепница мачака и паса морало би открити да постоје двије групе различитих предмета засноване само на информације садржане у подацима. Такође се разликује од Ојачавања учења и то што се често примјењују на систем у стварном времену у којем није познат тачан редослијед одлуке која води ка циљу, али само коначна „награда“ ће одлучити да ли је редослијед био тачан или не. Помоћу учења имитацијом они трансформишу класични проблем појачања у надгледани проблем учења, у коме се грешка израчунава из даљине до посматране путање.

Као што је случај са било којим надзором тренинга, задати задатак је у потпуности дефинисан функцијом губитка, која има за циљ да утврди колико је агент био од планираног понашања. Дефинисање ове функције често је критични корак, јер она одређује како алгоритми за оптимизацију ажурирају параметре модела. Ови алгоритми су од значаја за време рачунања и често захтевају подешавање да би се уопште могла конвертирати. Заправо решења која ће минимизирати функцију у врло високој димензији налазе се у врло малој љусци простора параметара, с малим растојањем међу њима, чим се удаљите од тог малог домена, удаљеност између решења брзо расте. Постоји много врло занимљивог рада на ту тему који је између осталог урадила врло невероватна Јеннифер Цхаиес, она је брише тему у врло занимљивом интервјуу у последњој епизоди Талкинг Мацхинес.

Током обуке мрежа политика (цела мрежа, која је у стању да одлучи из којих разлога ће предузети акције) прво обрађују успешну демонстрацијску путању. У овом делу ће упоређивати два приступа, класично бихевиорално клонирање (није баш сигурно у примени које су користили) и алгоритми ДАГГЕР. То ће тада омогућити итеративно минимизирање функције губитака било кроз л2 или цросс-ентропи губитак на основу тога да ли су акције континуиране или дискретне (засноване на дистрибуцији догађаја у низу). Током свих експеримената, они су користили Адамак алгоритам да изврше оптимизацију са стопом учења од 0,001.

Величина корака почиње малим и пропада експоненцијално.

Алгоритам сам по себи не дозвољава трансфер, то ће начинити ваш тренинг сет и функцију губитка која ће омогућити трансфер.

У задацима постоје две врсте преноса. Прва врста се назива "премошћивање јаза у стварности", то је генерализација у учењу која омогућава прелазак између тренинга на симулираним улазима на тестирање природних подстицаја. Подаци симулације су често сиромашна апроксимација стварног света, сувише савршена, да нема сложеност стварног објекта. У стварном свету камера може бити неисправна и бучнија, контрола мотора ће бити мање прецизна, боје ће се мењати, текстуре ће бити богатије итд. Да би омогућили овај први пренос, користе методу коју називају „рандомизација домена“ : мрежа додавањем буке улазима може да научи заједничку релевантну структуру која ће јој омогућити да се уопште генералише у стварном свету. Они ће, на пример, изменити угао камере између примера тренинга, променити текстуру или учинити да путање буду мање савршене. Додавањем буке током тренинга додаје се робусност.

Други овде тестирани трансфер је способност стварања релевантног моторног низа у претходно невидљивом сету конфигурације и циља, заснованом на једној демонстрацији која започиње у другој почетној конфигурацији, али са сличним крајњим циљем. Поново је трансфер омогућен начином на који конструишемо сет за тренинг и моделирамо функцију губитака. Представљајући демонстрације током обуке које не почињу из истог почетног стања да би се постигао сличан циљ, дозвољавате мрежи да научи да уграђује репрезентацију циља вишег нивоа без употребе апсолутних позиција, као и представљање вишег реда моторни низ који није једноставна имитација. Наивна почетна архитектура омогућава обуку да на одговарајући начин модификује структуру, а ова обучена структура подразумева завршну функцију.

Циљеви

За парадигму слагања блокова имали су неколико ограничења због којих су хтјели да се упозна њихов агент за учење.

То би требало бити лако примијенити на инстанце задатка који имају различит број блокова.
Природно би требало генерализовати на различите пермутације истог задатка. На пример, политика треба да ради добро на задатку {дцба}, чак и ако је обучена само за задатак {абцд}.
Требао би да садржи демонстрације различитих дужина.

Имали су неколико питања на која су желели одговорити на овај задатак.

Како се тренинг са клонирањем у понашању упоређује са ДАГГЕР-ом, с обзиром да се може прикупити довољно података ван мреже?
Како се кондиционирање на целој демонстрацији упоређује са условљавањем крајње жељене конфигурације, чак и када коначна конфигурација има довољно информација да у потпуности прецизира задатак?
Како се кондиционирање на целој демонстрацији упоређује са условљавањем на „снимку“ путање, што је мали подскуп оквира који су најоптималнији
Да ли се наш оквир може успешно генерализовати на врсте задатака које никада није видео током тренинга? (++)
Која су тренутна ограничења методе?

Архитектура

Достизање честица

За овај први пример упоређивале су три архитектуре, све засноване на неуронским мрежама дуготрајне меморије (ЛСТМ). Опис ове мреже биће у будућем посту о памћењу и пажњи, који су апсолутно фасцинантни предмети и у когнитивним и у рачунарским наукама. У основи, ЛСТМ храни претходне мрежне излазе (на време) као део улаза мреже у свакој новој временској тачки, омогућавајући информацијама прошлих стања да обавештавају садашњост (отуда и њихов назив краткорочних меморијских мрежа). Они су у основи многих најсавременијих технологија које се баве временским серијама (Алека, Сири итд.).

Овде се користе та три специфична услова:

  1. Обичан ЛСТМ: научи да уграђује путању и тренутно стање да би је напајао у вишеслојном перцептрону који ће произвести моторно дејство
  2. ЛСТМ са пажњом: произвести пондерисани приказ над оријентацијама путање
  3. Завршно стање са пажњом: користите у тренингу само крајње стање како бисте створили пондерирање над оријентацијама, слично као у претходној архитектури

Слагање блокова

Иако је, у принципу, генеричка неуронска мрежа могла да научи пресликавање од демонстрације и тренутног посматрања до одговарајуће акције, нашли смо важним да користимо одговарајућу архитектуру. Наша архитектура за слагање блокова учења један је од главних доприноса овог рада, а верујемо да је репрезентативна на који би начин архитектуре за учење имитације једним слојем могле да изгледају у будућности.

Модули пажње

Чланак остаје релативно висок ниво у опису структуре мрежа које се користе за учење задатка. Кључни састојак архитектуре је њихов модул пажње, али верујем да овом предмету треба детаљно истражити његову суштинску улогу. Аналогно когнитивној науци концепту трајне пажње, модули пажње се користе како би се задржали и усредсређивали на релевантне информације садржане у различитим распонима простора и времена. Израђује излаз фиксне величине који садржи уметање информационог садржаја који је био развучен у времену и простору. Аналогно топологији, грани математике за коју верујем да ће увелико информисати како у будућности разумемо дистрибуиране репрезентације, мрежа пажње врши тополошки изоморфизам информација, исту закривљеност, различитог облика. Имајте на уму да ове мреже не играју улогу детектора плијена који се могу фокусирати на неочекиване или ријетке догађаје, што је функција повезана с појмом пажње у неурознаности.

Овде користе две врсте мреже пажње: а) временску мрежу пажње која производи пондерисани износ преко садржаја (упитника, контекста и вектора меморије) који се чува у меморији, и б) мрежа за пажњу суседа која може да поврати податке у односу на блок позиције у зависности од тренутног упита агента.

Мрежа временске пажње, са ц: вектор контекста, м: вектор меморије, к: вектор упита, в: тежина наученог вектора. Излаз је исте величине као и меморијски вектор. То је линеарна комбинација вектора који омогућава да неки вектор меморије има већи утицај на излаз на основу контекста и вектора упита.Иста идеја овде, систем позорности динамички одржава конкуренцију између просторних информација.

Мрежа политика

Комплетна мрежа састоји се од три различите подмреже: демонстрациона мрежа, контекстна мрежа и мрежа манипулације.

Мрежа демонстрација прими демонстрацијску путању као улаз и производи уградњу демонстрације коју политика користи. Величина овог уграђивања линеарно расте као функција дужине демонстрације као и броја блокова у окружењу.

Као што је овде приказано, демонстративна мрежа је у стању да демонстрацију различите сложености и величине угради у заједнички формат који ће контекстна мрежа користити за представљање задатка. Вероватно се на овом нивоу већ дешава генерализација, уградња демонстрација би требало да изоставља податке о тачној путањи и апсолутним позицијама коцке виђеним током демонстрација.

Проматрајући структуру контекстне мреже, иако с врло високог нивоа, видимо сучеље с демонстрацијском мрежом која убацује уградњу демонстрације у средишње привремене пажње. Такође видимо да се претходне акције (ЛСТМ) и тренутно стање напајају као улаз који је повезан са демонстрацијским уграђивањем ради стварања глобалног уграђивања у контекст који се шаље у моторну мрежу.

Њихов опис мрежних функција је по мом мишљењу најважнији део рада:

Контекстна мрежа започиње рачунањем вектора упита као функције тренутног стања, који се затим користи за присуствовање у различитим временским корацима у демонстрацијском уграђивању. Тежине пажње преко различитих блокова унутар истог временског корака збрајају се заједно, да би се добила једна тежина по временском кораку. Резултат ове временске пажње је вектор чија је величина пропорционална броју блокова у окружењу. Затим примењујемо пажњу комшије да ширимо информације преко уграђених блокова. Овај се поступак понавља више пута, при чему се стање напредује користећи ЛСТМ ћелију са невезаним тежинама.
Претходни низ операција производи уградбу чија величина није зависна од дужине демонстрације, али још увек зависи од броја блокова. Затим примењујемо стандардну меку пажњу да произведемо вектори са фиксним димензијама, где се меморијски садржај састоји само од положаја сваког блока, који заједно са стањем робота формира улаз који је пренесен у мрежу манипулације.
Интуитивно, иако се број објеката у окружењу може разликовати, у свакој фази манипулације, број релевантних објеката је мали и обично је фиксан. Специфично за окружење слагања блокова, робот треба само да обраћа пажњу на положај блока који покушава да преузме (изворни блок), као и на положај блока који покушава да постави на врху ( циљни блок). Према томе, правилно обучена мрежа може научити да се подудара са тренутним стањем са одговарајућом фазом у демонстрацији и закључити о идентитету извора и циљних блокова изражених као мекани утези пажње преко различитих блокова, који се затим користе за извлачење одговарајућих позиција у бити пренесен на мрежу за манипулацију.

Начин на који завршавају свој опис савршен је пример тренутног полетања АИ истраживања од експертног системског приступа ка приступу систему учења, а такође наговештава дискусију о томе како се мозак развијао у наставку.

Иако ову интерпретацију не примењујемо на тренингу, наша експериментална анализа подржава ову интерпретацију како научена политика интерно делује.

Не знају како то ради! Они граде структуру која је способна да обавља одређене рачуне и да чува одређене информације за које мислимо да су а приори корисне, и хране је тренинг сетом у нади да ће цела структура научити! Постоји врста воодоо истраживања вештачке интелигенције у успону, уметност, начин да се хеуристичка потрага усмери у правом смеру. Чини се да читав низ тих мађионичара сада ради за опенАИ.

Према њиховим сопственим речима, мрежа за манипулацију је најједноставнија структура, од контекстног уграђивања храњеног у вишеслојни перцептрон настаје моторичка акција.

Резултати

Резултати су често део за који имам мало интересовања, посебно за оне невероватно сјајне техничке радове. Идем брзо, у основи је то што овај приступ делује, он се врши с тачношћу сличним тврдо кодираним стручним политикама и, супротно оном специфичном процедуралном приступу, може се генерализирати на велики низ задатака.

Достизање честица

Блокирање

У тим су експериментима такође тестирали различита стања. Употребом ДАГГЕР-а упоредили су три различита стања улаза тако што су смањили демонстрирану путању: пуне путање, снимак путање или само користећи крајње стање. Такође су упоредили алгоритам бихевиоралног клонирања са потпуном путањом демонстрације.

Снажан доказ способности система да генерализира идентитет коцке

Дискусија

Читајући напредак брзог темпа који је ОпенАИ постигао протеклих месеци, осећам све већи порив да причам о свом раду и поделим своја размишљања о томе у шта верујем у њихов рад, као и о напретку поља АИ у целини, који подстичу наше разумевање како делују биолошки мозгови Нарочито та растућа идеја да наизглед подељене когнитивне функције између људских бића нису толико последица заједничке структуре која изнутра зна како да изврши задатак, већ је уместо последица релативно сличних наивних структура које се, суочене са истим окружењем, научите да обављате сличне задатке. Функција је резултат функције без функције која је у стању да научи само одређени задатак због специфичног окружења, а не структуре која је у стању да свој задатак уради нативно, једноставно подешавајући пар параметара да би се прилагодили окружењу.

Задаци насупрот конфигурацијама: наизглед произвољна дефиниција

Морам признати да не разумијем зашто су одлучили разговарати о различитим задацима онако како су радили. Задатак је дефинисан у експерименту слагања блокова као скуп низова који представљају положај блокова један према другом, број елемената у скупу дефинише број снопа и број знакова као број блока који треба да се сложи . Задатак је затим распоред блокова у хрпама без обзира на апсолутни положај снопа.

Неки блокови могу бити на столу, али нису део задатка

Њихов избор дефинисања релативног положаја и броја гомила као критеријума за одвојени задатак чини се произвољним. Заправо, такође би могло имати смисла разговарати о различитим задацима на основу апсолутних почетних положаја блокова (онога што називају конфигурацијом). Вјерујем да им је заједничка природа проблема очита, али због јасноће радије не иду у детаље. Има више смисла учење учења о политици схватити као две врсте генерализација, као што то раде касније:

Имајте на уму да се генерализација вреднује на више нивоа: научена политика не само да треба генерализовати на нове конфигурације и нове демонстрације већ виђених задатака, већ их мора и генерализовати на нове задатке.

Само замените "задатке" са "Наручивање снопа". Исправно учење задатка значи да агент научи уградбу која може апстрахирати положај коцке (конфигурацију), али и њихов идентитет (задатак), број снопа (задатак) и путању демонстрације (представљена укратко у цитат) да бисте произвели одговарајући моторни одговор.

Те генерализације изгледају контрадикторно, како иста мрежа може апстрахирати почетну конфигурацију коцке или њихов идентитет, а опет успоставити њихов апсолутни положај због реакције мотора?

Ово објашњава потребу за различитим кооперативним подмрежама током учења, примања различитих улаза и објашњава да се у контекстној мрежи апстрактни приказ задатка доводи до информације нижег реда, попут апсолутних коцкица у коцкама, пре падајуће наредбе.

Можда ћете помислити да је коментарисање ове разлике задатка и конфигурације блесаво, али кључно је схватити да је у суштини исти процес апстракције приликом играња на различитим објектима (а ово се отвара за следећи одељак).

Нема учења без инваријантности

Прелазно учење је можда најфасцинантнији појам сазнања било да је ријеч о ин-силикону или ин-виво-у, то је врло врућа тема и за АИ истраживаче и за неурознанственице, и догађа се да је предмет моје докторске тезе. Имајте на уму да су уско повезани концепти истражени на многим пољима пре машинског учења, а овај апстрактни и увек делимично дефинисани концепт има много назива. Филозофи, антрополози и социолози могли би то назвати (пост-) структурализмом (Цлауде Леви-Страусс, Мицхел Фоуцаулт), лингвиста ће говорити о синтагми и структурама угнежђених дрвећа (Ноам Цхомски), математичари ће вероватно размишљати о хомеоморфизму или инвазији, и образовању истраживачи или неурознанственици могу то назвати структуралним учењем. Такође можете видети повезани концепт на пољу машинског учења попут репрезентативног учења и мета учења, који се у зависности од аутора могу односити на трансферно учење или на парадигму учења која се користи за обављање трансферног учења. Када говоримо о дубоким неуронским мрежама, ове разлике су замагљене, јер у суштини неуронска мрежа учи да угради одређени проблем (репрезентацијско учење) модификујући своју структуру (мета-учење) обично у бучном окружењу које подразумева облик трансферног учења.

Истраживачи АИ и научници когнитивних наука често имају врло конкретну дефиницију трансферног учења, то је процес који омогућава систему да користи сазнања стечена у одређеном задатку да би извршили други задатак који дели заједничку композициону структуру (као што је описано у чланку). Когнитивна наука има овај појам преноса близу и далеког дела, зависно од тога како се чини да се та два задатка разликују. Али из апстрактније перспективе, у бучном и сложеном окружењу, свако учење је облик трансферног учења, а разлика између премештаја који су веома близу и врло удаљени само је питање заједничких информација - опет питање размере, а не природе.

У контролисаном окружењу претходно се улажу напори да се изгради тешко шифрирана дискретизација стварности, али у ствари ова дискретиса процедурално репродукује оно што преноси учење, обједињује бесконачни скуп стања која се налазе у стварности, под заједничком затварачком структуром. У суштини, Трансферно учење односи се директно или проширено на процес кроз који агенси за учење користе инваријанте за изградњу модела света. То је процес који користи сличности, понављања и варијације истих како би се формирао све апстрактнији и сложенији приказ који ће уносом саставити ансамбле преко распона варијанце. У општем смислу омогућава стварање основних операција путем којих манипулишемо информативним групама, слично као што у математици омогућава унијавање и пресеке. Омогућује идентитет, објашњава нашу способност категоризације објеката. Јосх Тенембаум даје пример који ми је заиста говорио: замислите да учите двогодишње дете да први пут препозна коња, покажете му неколико слика различитих коња, а затим му покажете слику другог коња и слику куће и замолите га да вам каже који је коњ. Дете ће овај задатак обављати прилично лако, али то је још увек нешто што рачунар не може да уради са тако мало улаза (учење једним потезом).

Како је дете то урадило?

Препознавање животиња је проучавано код деце и односи се на нашу способност да деконструишемо предмете у одговарајуће делове, распон боја крзна, величину врата, укупни облик итд. Ова способност је такође оно што вам омогућава да отворите врата никада раније нисте видели, научили сте моторни низ који генералише било коју ситуацију (генерализовање домена). То је такође оно што користите за прављење модела објашњавања који поједностављују свет, можда би вас у почетку могли изненадити изненадни прикази кукавице на чувеном швајцарском сату, али након другог појављивања то ћете и очекивати. Проналажење инваријантности је како неуронска мрежа учи и ти модели се граде несвесно. Пример је како интуитивно учимо физику чак и пре него што смо чули за математику и бројеве.

Може се питати на пример, колико брзо би се дете рођено у микрогравитацији прилагодило земљиној гравитацији и интуитивно научило да ће предмети падати на земљу када буду бачени?

Могли бисмо претпоставити да ће новорођенчад и већина животиња несвесно ревидирати свој модел, слично као кад ставите чарапе на псе, а потребно је неко време да се прилагоди новим информацијама.

Али за мало дете ће се догодити свесно испитивање и ревизија његовог интуитивног модела, од радозналости, преко језика, симбола и веровања. Наша способност да свесно испитујемо и мењамо наше моделе је фасцинантна, а као споредни људи, људи су можда једина врста која је способна да вербализује процес, али друге врсте могу да изврше сличне свесне ревизије.

Инваренција је обавезно својство времена, ако је све увек било ново и никако није предвидљиво, још увек би остала ова јединствена инваријантност да је све увек ново и непредвидиво. Немогуће је замислити свет без инваријантности, јер не би могао постојати свет на који би се он реферирао, без инваријанције живот би био немогућ, а наш мозак бескористан. Живот је машина која делује само предвидљивим понављањем догађаја, понављањем узрока и последица, цикличним поновним уносом енергије у организам. И у животној тежњи да побољша своју употребу потребних циклуса, наш мозак је врхунско средство. То је машина за предвиђање, адаптивни орган који је у стању да динамички пронађе понављање и користи га за бољу интеракцију са светом.

Ова метода коју је живот одабрао изузетно је робусна за незнатне промене у структури. Оно што остаје исто је свет, статистичка својства околине, али неуронска структура са којом се сусреће може да варира све док може да угради релевантне информације које су еволуирале да обрађују. То објашњава зашто наш мозак може бити толико различит од појединца до појединца, чак и примарни кортекси, а опет имају исте функције.

Нервни системи су адаптивни, не требају им еволуција и успоравају генетске мутације да би променили понашање на релевантне начине. Једноставан нервни систем, какав је онај у Ц. Елеганс, служи као урођени унутрашњи координатор и спољни сензор: осјети храну и креће се према њој, бјежи од бола, размножава се. Ти једноставни системи су у почетку били крути и извршавали су екстремну апроксимацију нашег врло бучног света како би га дискретисали у малом низу могућих стања (храна са леве стране, топлота испод итд.). Наше моторичке и сензорне способности развијале су се паралелно са предиктивним способностима нервног система. Како су наши сензори постали прецизнији, нервни систем је полако постао способан да модификује своју структуру да би чувао информације и учио из искуства. У почетку је могао да научи да препознаје одређене категорије улаза, попут типова мириса или светлосних образаца, а такође је могао да научи путем покушаја и грешке да контролише свој све сложенији моторни систем. Имајте на уму да је свет толико сложен да је наш мозак природно еволуирао ка парадигми учења, а не урођеном процедуралном приступу. Рачунално, ово има савршеног смисла, једноставна игра Го има простор стања далеко већи (2,10¹⁷⁰) од броја атома у свемиру (10⁸⁰), а како организми постају сложенији, покушавају да строго кодирају апроксимације свих могућих наводи да би то могло брзо постати неизрециво због комбинаторичке експлозије.

Неки људи могу веровати да је наш мозак изграђен на такав начин да унутра представља простор у коме ће се развијати, да у ДНК негде постоји ген за оно што представља лице, или временску организацију звучних таласа који чине горе речи. Они могу веровати да је то урођено знање негде кодирано рођењем. Други би могли веровати, попут мог учитеља филозофије када сам био у средњој школи, да постојање претходи суштини, те да је наш мозак потпуно и искључиво дефинисан сусретом организма и света. Реалност је наравно сложенија, а за већину теленцефалних система који су до сада проучавани, мозак изнутра не кодира функцију коју ће обављати, већ ће је научити у зависности од информација садржаних у њеним уносима. Ако је унос релевантних информација превише слаб, способност учења у тим структурама може имати датум истека (нпр. Амблиопиа). Али ако урођена структура не кодира коначну функцију, мозак има одређену структуру. Ова структура је сачувана код појединаца, а јединке исте врсте имају заједничке функције и погоне. ДНК поставља одређену структуру на месту, структуру која није у стању да изводи своју коначну функцију изнутра, већ структуру која је способна да научи сложеност одређених задатака на основу индивидуалног искуства. Није изненађујуће да је еволуција довела до приказивања врло ефикасне крвно-мождане баријере која изолира мозак од остатка тијела, као и менинге и чврсту коштану љуску који га штите од спољашњег свијета, јер за разлику од других органа у којима структура је кодирана у геному, структура тренираног мозга се не може регенерирати из урођеног модела. Оно што је фасцинантно је да видимо исте механизме учења који настају аналогијом кроз развој све сложенијих дубоких мрежа које изводе све сложеније задатке.

Композиционе структуре је тешко видети, али свуда

Као споредни аспект је чудно да чак ни аутори не препознају да њихов први задатак циљања има композициону структуру.

Честица која досеже задатке лепо показује изазове генерализације у поједностављеном сценарију. Међутим, задаци не деле композициону структуру, чинећи оцену генерализације нових задатака изазовном.

Иако је структура доиста нижа од слагања блокова и није лако доступна експерименталној манипулацији, задатак је заиста састављен од заједничке структуре. Приближавајући свет равнини, једна композициона структура је да се идентитет коцке (боја) чува са преводом, а од блока А - или случајног почетног положаја - у положају (Кса1, Иа1), блокира Б у положају (Ксб1, Иб2 ) је део исте композиционе структуре вишег реда од преласка са блока А на положају (Кса2, Иа2) до блока Б на положају (Ксб2, Иб2).

Интерфејси између мрежа

Стварање неуронских мрежа које могу да третирају уносе на различитим нивоима апстракције требат ће интерфејсе, домен за који верујем да остаје много за откривање. Ти интерфејси могу бити многобројне природе. Они се могу на пример посматрати као заједнички језик између две мреже, као што је показано у чланку, мрежа нижег нивоа наоружана системом пажње (демонстративна мрежа) може превести демонстрацију у репрезентацију коју друга мрежа (контекстна мрежа) може користити усмеравати акцију без обзира на дужину или почетну конфигурацију демонстрације.

Површина овог језика је овде равна, фиксирана у величини, али се могу замислити могуће измене које би могле побољшати комуникацију између мреже. На пример, величина површине се може подесити да се динамички повећава или смањује како мреже међусобно делују током учења, чиме се компримирају или проширују језичне сложености. Могли бисмо замислити и динамичније интеракције, на пример, путем повратних информација. Могли бисмо замислити постојање мрежа које олакшавају комуникацију између мрежа које постоје као паралелна мрежа која уче модулирати улаз прве мреже на основу улаза и излаза друге мреже. Могли бисмо замислити сложене контекстне мреже које делују као тонично (споро варирајући) прилив у више специјализованих мрежа ... Фасцинантно будуће подручје истраживања!

Случајеви неуспјеха наговјештавају могуће улоге које би могли имати нови модули

Вреди напоменути да су грешке често последица моторних грешака, а да се број грешака повећава са сложеношћу задатка.

Моторне функције не би требало да се погоршавају само повећањем броја циљева, ово је снажан доказ да је начин на који репродукциона мрежа учи да разговара са моторном мрежом сувише апстрактан. Чудно је јер кажу да њихов тест показује да је сучеље између контекстне мреже и моторне мреже релативно конкретно (положај робота, положај мете).

Могуће решење може бити, будући да је ово модуларна архитектура, употреба различитих функција губитака или модуларних губитничких функција које представљају сваки одређени аспект задатка. Такође би му помогао еквивалент пред-моторних подручја мозга како би се осигурало да демонстрација и контекстна мрежа могу остати апстрактни без погоршања моторичке команде. Премоторне регије су неопходне за бољу локализацију објеката на основу циља (из апстрактних мрежа) и сензорних улаза, како би се одабрала најбоља моторна команда. Изгледа да контекстна мрежа покушава да демонстрацију пренесе на уграђивање вишег нивоа и да истовремено припреми моторну акцију у тренутном контексту. Улога пре-моторне мреже била би да научи да комуницира са моторичким системом на циљно усмерен и адаптиван начин, комбинујући и функције премотора и можданог мозга за моторичко учење и брзо прилагођавање.

Постоји занимљива теорија, Моравец-ов парадокс, који предвиђа да рачунарство неће бити когнитивно на вишем нивоу, већ о третману сензорних улаза и излаза моторних система. То би заиста могло објаснити велику количину неурона присутних у нашем мождану (више него у остатку нашег мозга) ради адаптивног управљања моторичким деловањем. Овај парадокс формулисан је у време (80-их) када смо још веровали да можемо уложити сопствено знање у машину за обављање сложених задатака у неконтролисаним бучним окружењима. Наравно, овај парадокс има смисла ако је машина некако у стању да представља свет у дискретизованом скупу стања, изградња функције вишег нивоа на њему би била лакша. Али верујем да ће се и једно и друго показати изузетно опорезовањем, а интерно представљање које се користи на интерфејсу између мрежа биће далеко од било чега што личи на наше свесно представљање.

Закључак

Комбиновањем различитих неуронских мрежа за које је свака задужена за одређени третман проблема, овај чланак показује да стварањем задатка који је сам по себи потребна генерализација и изградњом одговарајућег окружења за учење путем рандомизације домена, неуронске мреже са приступом меморији и систем пажње може научити да се генералише и изван једноставне репродукције. Може научити да открије циљ вишег реда који је демонстриран само једном у визуелном току информација и врши рачунање у генерализованом простору да би се пронашли одговарајући поступци у стању репродукције тог циља у различитом контексту.

У будућности ћемо видети све већу сложеност структура изграђених на тим атомским грађевним блоковима који могу научити генерализирати сложене задатке, али што је још важније изводити неколико таквих задатака, у новим окружењима, мање ослањајући се на тврде кодиране методе као што су предрадња улаза или меморија меморије. Меморија меморије ће бити замењена дистрибуираним представњима по меморијској мрежи, а пажње ће бити замењене цикличним активностима у мрежама пажње у реалном времену. Остаје питање како ћемо успети да прилагодимо снажну серијску технологију (Турингове машине) нашем већем ослањању на дистрибуирано рачунање у отеловљеном систему.