DeepMind заявляет, что обучения с подкреплением «достаточно» для достижения ИИ в целом

deepmindзаявляетчтообучениясподкреплениемдостаточнодлядостиженияИИвцелом

Повысьте уровень технологий и стратегии корпоративных данных на Transform 2660155 .


В своей многолетней погоне за созданием искусственного интеллекта компьютерные ученые разработали и разработали всевозможные сложные механизмы и технологии для воспроизведения зрения, языка, мышления, моторики и других связанных с ними способностей. с разумной жизнью. Хотя эти усилия привели к созданию систем искусственного интеллекта, которые могут эффективно решать конкретные задачи в ограниченных условиях, они не достигают уровня общего интеллекта, наблюдаемого у людей и животных.

В новой статье, представленной в рецензируемый журнал Artificial Intelligence , ученые из Британская лаборатория искусственного интеллекта DeepMind утверждает, что интеллект и связанные с ним способности появятся не в результате формулирования и решения сложных проблем, а в результате соблюдения простого, но действенного принципа: максимизация вознаграждения.

Название « Достаточно награды , »Статья, которая на момент написания этой статьи все еще находится в стадии предварительной проверки, черпает вдохновение из изучения эволюции естественного интеллекта, а также извлечет уроки из недавних достижений в области искусственного интеллекта. Авторы предполагают, что максимизации вознаграждения и опыта проб и ошибок достаточно, чтобы развить поведение, демонстрирующее способности, связанные с интеллектом. Из этого они делают вывод, что обучение с подкреплением, ветвь ИИ, основанная на максимизации вознаграждения, может привести к развитию общего искусственного интеллекта .

Два пути для AI

Один из распространенных методов создания ИИ – это попытка воспроизвести элементы интеллектуального поведения компьютеров. Например, наше понимание системы зрения млекопитающих привело к появлению всех видов систем искусственного интеллекта. который может классифицировать изображения, находить объекты на фотографиях, определять границы между объектами и многое другое. Точно так же наше понимание языка помогло в разработке различных систем обработки естественного языка , такие как ответы на вопросы, создание текста и машинный перевод.

Это все экземпляры узкий искусственный интеллект , системы, которые были разработаны для выполнения конкретных задач, вместо того, чтобы иметь общие способности решать проблемы. Некоторые ученые считают, что сборка нескольких узких модулей ИИ приведет к созданию более интеллектуальных систем. Например, у вас может быть программная система, которая координирует между отдельными компьютерным зрением , обработка голоса, НЛП и модули управления двигателем для решения сложных задач, требующих множества навыков.

Другой подход к созданию ИИ, предложенный DeepMind исследователей, состоит в том, чтобы воссоздать простое, но эффективное правило, которое привело к естественному интеллекту. « рассмотрим альтернативную гипотезу: общей цели максимизации вознаграждения достаточно для стимулирования поведения, которое проявляет большинство, если не все способности, изучаемые естественным и искусственным интеллектом », – пишут исследователи.

Так устроена природа. Что касается науки, то в сложных организмах, которые мы видим вокруг себя, не было никакого разумного замысла сверху вниз. Миллиарды лет естественного отбора и случайных изменений отфильтровали формы жизни на предмет их пригодности к выживанию и воспроизводству. Живые существа, которые были лучше оснащены для решения проблем и ситуаций в своей среде, сумели выжить и размножаться. Остальные были устранены.

Этот простой, но эффективный механизм привел к эволюции живых существ со всеми видами навыков и способностей воспринимать, ориентироваться, изменять

«Естественный мир, с которым сталкиваются животные и люди, и, предположительно, также среда, с которой в будущем столкнутся искусственные агенты, по своей природе настолько сложны, что для достижения успеха (например, для выживания) в такой среде им требуются сложные способности », – пишут исследователи. «Таким образом, успех, измеряемый максимальным вознаграждением, требует множества способностей, связанных с интеллектом. В таких условиях любое поведение, которое максимизирует вознаграждение, обязательно должно проявлять эти способности. В этом смысле общая цель максимизации вознаграждения включает в себя многие или, возможно, даже все цели интеллекта ».

Например, представьте себе белку, которая стремится минимизировать чувство голода. С одной стороны, его сенсорные и моторные навыки помогают ему находить и собирать орехи, когда есть еда. Но белка, которая может найти только пищу, обречена на смерть от голода, когда еды становится мало. Вот почему у него также есть навыки планирования и память, чтобы кэшировать орехи и восстанавливать их зимой. А у белки есть социальные навыки и знания, чтобы гарантировать, что другие животные не украдут ее орехи. Если вы уменьшите масштаб, минимизация голода может стать подцелью «остаться в живых», что также требует таких навыков, как обнаружение и укрытие от опасных животных, защита от экологических угроз и поиск лучших мест обитания с сезонными изменениями.

«Когда способности, связанные с интеллектом, возникают как решение единственной цели максимизации вознаграждения, это может фактически обеспечить более глубокое понимание, поскольку объясняет , почему такая способность возникает », – пишут исследователи. «Напротив, когда каждая способность понимается как решение ее собственной специализированной цели, вопрос« почему »отодвигается в сторону, чтобы сосредоточиться на том, что эта способность действует ».

Наконец, исследователи утверждают, что« наиболее общий и масштабируемый »способ максимизировать вознаграждение – использовать агентов, которые учатся через взаимодействие с окружающая среда.

Развитие способностей посредством максимизации вознаграждения

В статье исследователи искусственного интеллекта приводят несколько высокоуровневых примеров того, как «интеллект и связанные с ним способности неявно возникают на службе максимизации одного из многих возможных сигналов вознаграждения, соответствующие многим прагматическим целям, на которые может быть направлен естественный или искусственный интеллект ».

Например, сенсорные навыки служат для выживания в сложных условиях. Распознавание объектов позволяет животным обнаруживать пищу, добычу, друзей и угрозы или находить тропы, укрытия и насесты. Сегментация изображений позволяет им различать разные объекты и избегать фатальных ошибок, таких как сбегание со скалы или падение с ветки. Между тем, слух помогает обнаруживать угрозы там, где животное не может увидеть или найти добычу, когда они замаскированы. Прикосновение, вкус и запах также дают животному преимущество в виде более богатого сенсорного восприятия среды обитания и большего шанса на выживание в опасных условиях.

Награды и окружающая среда также формируют врожденные и усвоенные знания у животных. Например, враждебные среды обитания, которыми правят хищники, такие как львы и гепарды, вознаграждают жвачных животных, которые обладают врожденными знаниями, чтобы убегать от угроз с самого рождения. Между тем, животные также вознаграждаются за их способность изучать конкретные знания о своей среде обитания, например, где найти пищу и приют.

Исследователи также обсуждают основанная на вознаграждении основа языка, социального интеллекта, имитации и, наконец, общего интеллекта, который они описывают как «максимизацию единственной награды в единой сложной среде».

Здесь они проводят аналогию между естественным интеллектом и AGI: «Поток опыта животного достаточно богат и разнообразен, поэтому может потребоваться гибкая способность для достижения широкого разнообразия подцелей (таких как добыча пищи, борьба или бегство. ), чтобы добиться максимальной отдачи (например, от голода или размножения). Точно так же, если поток опыта искусственного агента достаточно богат, то многие цели (например, время автономной работы или выживание) могут неявно требовать способности достичь столь же широкого разнообразия подцелей, и поэтому максимизации вознаграждения должно быть достаточно, чтобы дать общий искусственный интеллект ».

Обучение с подкреплением для максимизации вознаграждения

Reinforcement learning Reinforcement learning

Обучение с подкреплением – это специальная ветвь алгоритмов ИИ, состоящая из трех ключевых элементов: окружения, агентов и вознаграждений. .

Выполняя действия, агент изменяет свое состояние и состояние среды. В зависимости от того, насколько эти действия влияют на цель, которую должен достичь агент, он награждается или наказывается. Во многих задачах обучения с подкреплением агент не имеет начальных знаний об окружающей среде и начинает с выполнения случайных действий. На основе полученных отзывов агент учится настраивать свои действия и разрабатывать политики, которые максимизируют его вознаграждение.

В своей статье исследователи DeepMind предлагают Обучение с подкреплением в качестве основного алгоритма, который может воспроизвести максимизацию вознаграждения, наблюдаемую в природе, и в конечном итоге может привести к созданию общего искусственного интеллекта.

«Если агент может постоянно настраиваться его поведение так, чтобы улучшить его совокупное вознаграждение, тогда любые способности, которые постоянно требуются его средой, должны в конечном итоге быть произведены в поведении агента », – пишут исследователи, добавляя, что в ходе максимизации его вознаграждения хорошее обучение с подкреплением со временем агент может изучить восприятие, язык, социальный интеллект и т. д.

В статье исследователи приводят несколько примеров, показывающих, как агенты обучения с подкреплением могли для изучения общих навыков в играх и роботизированных средах.

Однако Исследователи подчеркивают, что некоторые фундаментальные проблемы остаются нерешенными. Например, они говорят: «Мы не предлагаем никаких теоретических гарантий эффективности выборки агентов обучения с подкреплением». Известно, что обучение с подкреплением требует огромных объемов данных. Например, агенту обучения с подкреплением могут потребоваться столетия игрового процесса, чтобы овладеть компьютерной игрой. И исследователи искусственного интеллекта до сих пор не придумали, как создать системы обучения с подкреплением, которые могут обобщать полученные знания в нескольких областях. Поэтому незначительные изменения в среде часто требуют полного переобучения модели.

Исследователи также признают, что механизмы обучения для максимизации вознаграждения являются нерешенной проблемой, которая не решена. остается центральным вопросом, требующим дальнейшего изучения в обучении с подкреплением.

Сильные и слабые стороны максимизации вознаграждения

Патрисия Черчленд, нейробиолог, философ и почетный профессор Калифорнийского университета в Сан-Диего, описала идеи в документ как «очень тщательно и проницательно разработанный».

Однако Черчленд указал на возможные недостатки в обсуждении в статье принятия социальных решений. Исследователи DeepMind сосредотачиваются на личных выгодах в социальных взаимодействиях. Черчленд, который недавно написал книгу о биологических истоках моральной интуиции , утверждает, что привязанность и привязанность являются мощным фактором в принятии решений млекопитающими и другими людьми в обществе . птицы , поэтому животные подвергают себя огромной опасности, защищая своих детей.

  • наши информационные бюллетени
    • закрытый интеллектуальный контент и льготный доступ к нашим ценным мероприятиям, таким как Преобразование 2021 : Учить больше

      • сетевые функции и многое другое

      Стать членом