В последние годы, машинного обучения зарекомендовал себя ценным инструментом для выявления новых материалов со свойствами, оптимизированными для конкретных приложений. Работа с большими, хорошо определенные наборы данных, компьютеры научатся выполнять аналитические задачи для генерации правильного ответа, а затем использовать тот же метод на неизвестных данных.
Хотя этот подход привел к развитию новых ценных материалов, они, главным образом, органических соединений, отмечает Хизер Кулик К. ’09, доцент кафедры химической инженерии. Кулик вместо этого фокусируется на неорганических соединений, в частности, на основе переходных металлов, семейство элементов (в том числе железо и медь), которые обладают уникальными и полезными свойствами. В те соединения, известные как переходные металлы комплексы — атом металла имеет место в центре с химически связанными руками, или лиганды, изготовлен из углерода, водорода, азота, кислорода или атомы излучают наружу.
Комплексов переходных металлов играют важную роль в различных областях, начиная от хранения энергии для катализа для производства тонкой химии, например, для фармацевтических препаратов. Но Кулик считает, что учебная машина может еще больше расширить их использование. Действительно, ее группа работает не только для применения машинного обучения для неорганики — роман и непростая задача, но также использовать технику, чтобы исследовать новые территории. “Мы были заинтересованы в понимании того, как далеко мы можем подтолкнуть наших моделей, чтобы сделать открытие — делать прогнозы на соединения, которые не были замечены раньше”, — говорит Кулик.
Датчики и компьютеры
За последние четыре года, Кулик и Джон Поль Жане, аспирант в области химической инженерии, были нацелены на комплексах переходных металлов со спин — квантово-механические свойства электронов. Как правило, электроны возникают в парах, один со спином вверх, а другая со спином вниз, так что они компенсируют друг друга и нет чистая спина. Но в переходных металлов, электроны могут быть непарными, и в результате продажи спин-это свойство, которое делает неорганических комплексов, представляющих интерес, — говорит Кулик. “Пошив как неспаренные электроны дает нам уникальную ручку для пошива свойства”.
Данный комплекс имеет предпочтительный спиновое состояние. Но добавить некоторую энергию — скажем, от света или тепла — и он может переключиться на другие государства. В процессе, он может проявлять изменения в макроскопических свойств, таких как размер или цвет. Когда энергия, необходимая, чтобы вызвать флип называемого спинового расщепления энергии близок к нулю, комплекс является хорошим кандидатом для использования в качестве датчика, или, возможно, как один из основных компонентов квантового компьютера.
Химики знают многих металл-лиганд комбинации со спин-расщепление энергии близок к нулю, что делает их потенциальным “спин-кроссовер” (ШОС) комплексы для таких практических применений. Но полный набор возможностей огромен. Спин-расщепление энергии переходных металлов комплекса определяется тем, что лиганды в сочетании с металлом, и почти бесконечные лигандов, из которых можно выбрать. Задача состоит в том, чтобы найти новые комбинации с требуемым свойством, чтобы стать Ого — не прибегая к миллионам проб и ошибок испытаний в лаборатории.
Перевод молекулы в цифры
Стандартный способ анализа электронной структуры молекул с использованием метода численного моделирования называется теория функционала плотности, или ТФП. Результаты вычисления ДПФ достаточно точны, особенно для органических систем — но вычисления для одного соединения может занять несколько часов или даже дней. В отличие от инструмента машинного обучения называется искусственной нейронной сети (ИНС) могут быть обучены, чтобы выполнять один и тот же анализ, а затем сделать это всего за несколько секунд. В результате Инс гораздо практичнее искать возможности гражданского общества в огромное пространство возможных комплексов.
Потому что Энн не требует численного ввода в эксплуатации, из первых исследователей проблемой было найти способ, чтобы представить данную переходных металлов сложный, как последовательность чисел, каждая из которых описывает выбранный объект недвижимости. Есть правила для определения представления органических молекул, где физическое строение молекулы говорит много о его свойствах и поведении. Но когда исследователи следуют этим правилам для комплексов переходных металлов, он не работал. “Металл-органических облигация-это очень трудно”, — говорит Кулик. “Есть уникальные свойства сцепления, которые отличаются большим разнообразием. Есть много больше способов электроны могут выбрать, чтобы сформировать связь”. Поэтому исследователям нужно придумать новые правила для определения представительства, что бы прогнозировать в неорганической химии.
Используя обучающие машины, они исследовали различные способы, представляющие собой переходный металл комплекс для анализа спинового расщепления энергии. Результаты были лучше, когда представительство дало наибольшее внимание на свойства металла в центре и металл-лиганд соединение и меньший акцент на свойства лигандов дальше. Интересно, что их исследования показали, что представления, которые давали больше акцент в целом работает лучше, когда цель была, чтобы предсказать другие свойства, такие как лиганд-металл длина облигаций или склонность к принятию электронов.
Тестирование ИНС
Как испытание их подход, Кулик и Джанет — помощь Лидии Чан, летняя стажер из Трои среднюю школу в Фуллертоне, Калифорния определенный набор комплексов переходных металлов на основе четырех переходных металлов — хрома, марганца, железа и кобальта — в два окисления с 16 молекул (каждая молекула может иметь до двух). Комбинируя эти блоки, они создали “поиск пространства” от 5600 комплексов — некоторые из них знакомы и хорошо изучены, и некоторые из них совершенно неизвестна.
В предыдущей работе, исследователи обучили Энн на тысячи соединений, которые были хорошо известны в химии переходных металлов. Чтобы проверить способность обучающихся Энн изучать новые химические пространство для поиска соединений с заданными свойствами, они попытались применить его в бассейн от 5600 комплексы, 113 из которых он видел в предыдущем исследовании.
Результат был сюжет с маркировкой «цифра 1» в приведенном выше слайд-шоу, которое сортирует комплексов на поверхность, как определяется Энн. Белый регионов указывают комплексов со спин-расщепление энергий в пределах 5 кило-калорий на моль ноль, что означает, что они потенциально хорошие кандидаты ШОС. Красные и синие области представляют комплексы со спин-расщепление энергии слишком большой, чтобы быть полезным. Зеленые алмазы, что появляются на врезке показывают комплексов, содержащих железо центры и подобные лиганды — другими словами, родственные соединения спин-кроссовер, чья энергия должна быть похожа. Их появление в той же области участок свидетельствует о хорошем соответствии между исследователей представления и ключевые свойства комплекса.
Но есть одна загвоздка: далеко не все спинового расщепления прогнозы являются точными. Если комплекс очень отличаются от тех, по которым сеть была обучена, Энн анализа не может быть надежным — стандартная проблема при применении моделей машинного обучения для обнаружения в материаловедении и химии, отмечает Кулик. Используя подход, который выглядел успешным в своей предыдущей работе, исследователи сравнили числовые представления для подготовки и тестирования комплексов и исключил все тестовые комплексы, где разница была слишком велика.
Ориентируясь на лучшие варианты
Выполняя Энн анализа всех 5,600 комплексы заняла всего час. Но в реальном мире, количество комплексов будет изучен может быть в тысячи раз больше — и никаких перспективных кандидатов потребует полного расчета ДПФ. Поэтому исследователям понадобился метод оценки большого набора данных для выявления каких-либо неприемлемых кандидатов еще до Энн анализа. С этой целью они разработали генетический алгоритм — подход, продиктованный естественного отбора — набрать индивидуальные комплексы и отбросить те, которые считаются неподходящими.
Проверить набор данных, генетический алгоритм сначала случайным образом выбирает 20 образцов с полным набором комплексов. Затем он назначает “фитнес” результат для каждого образца на основе трех измерений. Во-первых, это его спин-кроссовер энергии достаточно низкая для того, чтобы быть хорошим ШОС? Чтобы узнать, нейронная сеть оценивает каждый из 20 комплексов. Во-вторых, слишком далеко комплекс от обучающих данных? Если это так, спин-кроссовер энергии из Энн могут быть неточными. И, наконец, это комплекс слишком близко к обучающим данным? Если это так, то исследователи уже запустить вычисления ДПФ на похожие молекулы, поэтому кандидат не представляет интереса в поисках новых вариантов.
На основе трехкомпонентная оценка первых 20 кандидатов, генетический алгоритм выбрасывает негодные варианты и сохраняет наиболее приспособленных к следующему раунду. Для обеспечения разнообразия сохраненных соединений, алгоритм требует некоторые из них видоизменились немного. Один комплекс может быть назначен новый, случайно выбранный лиганд, или две перспективные комплексы могут поменять лигандов. Ведь если комплекс хорошо выглядит, то нечто очень похожее, может быть даже лучше — и цель здесь состоит, чтобы найти новые кандидаты. Генетический алгоритм добавляет некоторые новые, случайным образом выбранные комплексы, чтобы заполнить второй группы 20 и выполняет ее следующий анализ. Повторяя этот процесс в общей сложности 21 раз, оно производит 21 поколений вариантов. Таким образом, протекает через пространство поиска, что позволяет сильнейших кандидатов к выживанию и размножению, и неприспособленных, чтобы умереть.
Выполняя 21-поколения анализ на полный 5,600-сложный набор данных, необходимых только за пять минут на обычном настольном компьютере, и это дало 372 приводит с собой хорошее сочетание высокого разнообразия и приемлемой уверенностью. Затем исследователи использовали ТФП для изучения 56 комплексов, выбранных случайным образом из числа тех, кто ведет, и результаты подтвердили, что две трети из них может быть хорош ого.
В то время как показатель успеха двумя третями может показаться не большим, исследователи делают два очка. Во-первых, их определение того, что может сделать хороший ШОС была очень строгой: за комплекс, чтобы выжить, его спинового расщепления энергии было крайне мало. И во-вторых, учитывая пространство 5,600 комплексов и ничего не происходит, сколько ТФП анализы будут обязаны найти 37 ведет? Как отмечает Джанет, “неважно, сколько мы оценивали с помощью нейронной сети, потому что это так дешево. Это вычисления ДПФ, что займет время”.
Лучше всего, используя их подход позволил исследователям найти некоторые нетрадиционные кандидатов ШОС, которые не были продуманы на основе того, что было изучено в прошлом. “Есть правила, которые люди имеют эвристики в их головах, — как они хотели построить спин-кроссовер комплекса”, — говорит Кулик. “Мы показали, что можно найти неожиданные сочетания металла и лигандов, которые, обычно, не изучал, но может быть перспективным в качестве спин-кроссовер кандидатов”.
Совместное использование новых инструментов
Поддержка клиентов поиск новых материалов, исследователи включили генетического алгоритма и Энн в «molSimplify,» группы в интернете, с открытым исходным кодом инструмент, который любой желающий может скачать и использовать для сборки и моделирования комплексов переходных металлов. Чтобы помочь потенциальным пользователям, на сайте представлены учебники, которые демонстрируют, как использовать ключевые особенности открытые исходные коды программного обеспечения. Развитие molSimplify началась с финансирования от энергетической инициативы в Массачусетском технологическом институте в 2014 году, а все студенты в группе Кулик способствовали его с тех пор.
Исследователи продолжают совершенствовать свои нейросети для расследования возможных Кош и публиковать обновленные версии molSimplify. Между тем, другие в лаборатории Кулика разрабатываем инструменты, которые могут выявлять перспективных соединений для других приложений. Например, одним важным направлением является проектирование катализатора. Аспирант в химии Нанди Адитья делает упор на поиске лучшего катализатора для превращения метана в более простой в использовании жидкого топлива, таких как метанол — особо сложная задача. “Сейчас мы вне молекулы, и наш комплекс — катализатор — должен действовать на молекулы для выполнения химической трансформации, которая разворачивается в целый ряд шагов”, — говорит Нанди. “Машинное обучение будет супер-полезен в выяснении важных конструктивных параметров для переходных металлов комплекса, которые сделают каждый шаг в этом процессе энергетически выгодно”.
Это исследование было поддержано Министерством ВМС США Управление военно-морских исследований, Министерства энергетики США, Национального научного фонда, и МИТ энергетическая инициатива Фонд посевного финансирования программы. Джон Пол Дженет была частично поддержана МИТ-сингапурский университет технологии и дизайна аспирантуре. Хизер Кулик получил Национальный научный награду (2019) и Управлением военно-морских исследований премии молодой следователь (2018), среди других.
Данная статья опубликована в весеннем выпуске 2019 энергии фьючерсы, журнал энергетической инициативы в Массачусетском технологическом институте.
Больше записей автора Роботы и киборги
Маркетинговое исследование рынка робототехники
Объектом исследования является российский рынок робототехники. Рынок робототехники делится на два значимых сегмента: бытовые (домашние роботы) и роботы профессиональные (промышленные/сервисные). …
Обзор рынка промышленной автоматики
Департаментом маркетингового анализа «Текарт» завершен проект, посвященный анализу рынка промышленной автоматики (системы АСУ ТП и КИПиА) в Воронежской области. В …
Перспективы производства промышленных роботов в России
Пандемия ускоряет цифровую трансформацию и автоматизацию бизнеса, стимулируя интерес инвесторов и предпринимателей к робототехнике. Ранее промышленные роботы, в основном, использовались в …