В фильмами Железного Человека, Тони Старк использует голографический компьютер для проекта 3-D данных в воздухе, управлять им руками, и найти исправления к своим бедам супергероя. В том же ключе, исследователи из Массачусетского технологического института и Университета Брауна разработали систему интерактивного анализа данных, которая работает на сенсорных экранах и позволяет всем — не только миллиардер технические гении — решения реальных проблем.
Долгие годы исследователи занимались разработкой интерактивных данных-научная система под названием Нордстар, которая работает в облаке, но имеет интерфейс, поддерживает любые устройства с сенсорным экраном, включая смартфоны и большие интерактивные доски. RSS пользователям системы наборов данных и манипулировать, комбинировать и извлекать объекты на дружественный интерфейс, используя их пальцами или цифровым пером, для выявления тенденций и закономерностей.
В статье были представлены на конференции АСМ SIGMOD, исследователи деталь нового компонента Нордстар, называют VDS для “виртуального ученого данных”, который мгновенно генерирует модели машинного обучения для выполнения задач прогнозирования на их составе. Врачи, например, могут использовать систему, чтобы помочь предсказать которые пациенты более правоподобны для того чтобы иметь определенных заболеваний, в то время как владельцы бизнеса, возможно, захотите, чтобы прогноз продаж. Если с использованием интерактивной доски, все еще могут сотрудничать в реальном времени.
Цель состоит в том, чтобы демократизировать научных данных, что делает его легко делать сложную аналитику, быстро и качественно.
“Кофейня владельца, который не знает, данные науки должны уметь прогнозировать свои продажи в течение ближайших нескольких недель, чтобы выяснить, сколько кофе покупают”, — говорит соавтор и давно Нордстар руководитель проекта Тим краска, адъюнкт-профессор электротехники и компьютерных наук Массачусетского технологического института компьютерных наук и лаборатории искусственного интеллекта (CSAIL) и является директором-основателем новой системы данных и лабораторию ИИ (DSAIL). “В компаниях, которые имеют ученые данные, есть много взад и вперед между учеными данные и nonexperts, поэтому мы также можем привести их в одной комнате для анализа вместе”.
ВДС на основе все более популярным методом в области искусственного интеллекта называют автоматизированного машинного обучения (AutoML), который позволяет людям с ограниченными данными-наука, ноу-хау поезд модели искусственного интеллекта для прогнозирования на основе их данных. В настоящее время инструмент ведет ДАРПА d3m по автоматической машинного обучения конкурс, который раз в полгода принимает решение о наиболее эффективных инструментов AutoML.
Вступление краска на бумаге: сначала автор Zeyuan Шан, аспирант, и Эмануэль Zgraggen, постдока и основной вклад в NorthStar, как ЕЭКУ, CSAIL, и DSAIL; — Бенедетто-буратта, Yeounoh Чунг, Филипп Эйхмана, и Илай Upfal, весь коричневый, и Карстен Биннигом, которые недавно переехали от коричневого до технического университета Дармштадта в Германии.
В “Укрпатент холст” для аналитика
Новая работа основывается на многолетнем сотрудничестве на Нордстар между исследователями в MIT и коричневый. За четыре года исследователи опубликовали множество статей, детализирующих составляющих Нордстар, включая интерактивный интерфейс, операции на различных платформах, ускорения результатов, и изучение поведения пользователя.
Нордстар начинается с чистого, белого интерфейс. Пользователям загружать наборы данных в систему, которые появляются в окне “наборы данных” слева. Любые метки данных будут заполнены автоматически на отдельном “ящике” ниже. Там же есть окно “операторы”, который содержит различные алгоритмы, а также новый инструмент AutoML. Все данные хранятся и анализируются в облаке.
Исследователи хотели продемонстрировать систему на публичных набор данных, который содержит информацию по реанимации пациентов. Считают ученые-медики, которые хотят изучить со-возникновений некоторых заболеваний, в определенных возрастных группах. Они перетащить в середину интерфейс шаблон-проверять алгоритм, который сначала выглядит как пустая коробка. В качестве входных данных, они движутся в поле особенностях заболевания с надписью, скажем, “кровь”, “инфекционные” и “метаболизм”. Доля этих заболеваний в наборе данных появляются в поле. Затем они таскают функция “возраст” в интерфейс, который отображает линейчатую диаграмму распределения возраста пациента. Рисуя линию между двумя ящиками связывает их вместе. На кружащие возрастных групп, алгоритм автоматически вычисляет совпадения из трех заболеваний среди возрастной диапазон.
“Это как большой, неограниченный холст, где вы можете выложить, как вы хотите все”, — говорит Zgraggen, который является ключевым изобретатель интерактивный интерфейс NorthStar делу. “Затем можно связать вместе, чтобы создать более сложные вопросы о ваших данных.”
Аппроксимирующие AutoML
С VDS, пользователи теперь могут выполнить прогнозную аналитику на этих данных, получая моделей на заказ подходит для своих задач, таких как прогнозирование данных, классификация изображений, или анализе сложных графовых структур.
Используя приведенный выше пример, скажем, ученые-медики хотят, чтобы предсказать, какие пациенты могут быть заболевания крови, основанные на все объекты в наборе данных. Они перетащить “AutoML” из списка алгоритмов. Он сначала создавать пустой коробки, но с вкладки “цель”, под которым они уронить “функции крови”. Система автоматически найдет наиболее эффективные машинного обучения, трубопроводов, представлены в виде вкладок с постоянно обновляемой процент точности. Пользователи могут остановить процесс в любой момент произвести поиск и изучить цены ошибки каждой модели, структура, расчеты и другие вещи.
По словам исследователей, ВДС-это самый быстрый инструмент интерактивная AutoML на сегодняшний день, благодаря, в частности, их обычай “двигатель оценке”. Двигатель расположен между интерфейсом и облачное хранилище. Двигатель автоматически использует создает несколько репрезентативных выборок из набора данных, который может быть последовательно обработана для получения качественного результата в секундах.
“Вместе с моими соавторами я потратил два года на разработку ВДС для имитации того, как данные политолога,” Шан говорит, то есть он мгновенно определяет, какие модели и предварительной обработки шаги ему следует или не следует работать на определенные задачи, на основе различных закодированных правил. Сначала он выбирает из большого списка возможных, машинного обучения, трубопроводы и спуски моделирования установленного образца. При этом он запоминает результаты и совершенствует свой выбор. После доставки быстро аппроксимировать результаты, система улучшает результаты. Но окончательные цифры обычно очень близки к первому приближению.
“Для использования предиктора, вы не хотите ждать четыре часа, чтобы получить первые результаты. Вы хотите уже увидеть, что происходит и, если вы обнаружили ошибку, вы можете исправить ее немедленно. Это обычно не возможно в любой другой системе,” краска говорит. Предыдущее исследование ученых, на самом деле, “показывают, что минута промедления предоставляя пользователям результаты, они начинают терять взаимодействие с системой.”
Исследователи оценили средство на 300 реальных данных. По сравнению с другими государство-оф-искусство приближений систем AutoML, ВДС были так точны, но были сгенерированы в течение нескольких секунд, что значительно быстрее, чем другие инструменты, которые работают в нескольких минут до нескольких часов.
Далее исследователи ищут, чтобы добавить функцию, которая уведомляет пользователей о возможной необъективности данных или ошибки. Например, чтобы защитить частную жизнь пациента, иногда исследователи метки медицинских данных пациентов в возрасте от 0 (если они не знаю возраст) и 200 (если пациент старше 95 лет). Но новички могут не признавать такие ошибки, которые могут полностью скинуть их аналитика.
“Если вы новый пользователь, вы можете получить результаты и думают, что они великие,” краска говорит. “Но мы можем предупредить людей, что там, по сути, могут быть некоторые выбросы в наборе данных, которые могут указывать на проблемы”.