Компьютерные ученые Массачусетского технологического института надеются ускорить использование искусственного интеллекта для улучшения медицинского принятия решений, автоматизируя ключевой шаг, который обычно делается вручную — и это становится все более трудоемким, так как некоторые наборы данных становятся все больше.
В области прогнозной аналитики имеет растущие перспективы для помогая врачам диагностировать и лечить пациентов. Модели машинного обучения, могут быть обучены, чтобы найти закономерности в данных о пациенте для помощи в лечении сепсиса, проектирования безопасных схем химиотерапии, и предсказать риск пациента развития рака молочной железы или умирал в реанимации, чтобы назвать только несколько примеров.
Как правило, учебные наборы данных состоят из многих больных и здоровых испытуемых, но с сравнительно мало данных для каждого предмета. Затем эксперты должны найти только те аспекты или “особенности” — в наборах данных, которые будут важны для составления прогнозов.
Этот “реконструирования” может быть трудоемким и дорогостоящим процессом. Но это становится еще более сложной с появлением носимых датчиков, потому что исследователи могут более легко контролировать в течение длительного времени, отслеживание сна, походка, и голосовой активности, например пациентов биометрии. Спустя всего неделю мониторинга, эксперты могут иметь несколько миллиардов выборок по каждому предмету.
В статье будет представлен на машинном обучении для конференции здравоохранения на этой неделе, исследователи Массачусетского технологического института продемонстрировали модели, которые автоматически изучает особенности интеллектуального развития голосовых связок расстройств. Характеристики берутся из набора данных около 100 предметов, в каждом из которых примерно за неделю голос-мониторинг данных и несколько миллиардов образцов — иными словами, малым количеством предметов и большого объема данных по каждому предмету. Набор данных содержит сигналы, полученные из маленького акселерометр, установленный на шеях испытуемых.
В экспериментах, модели используемые функции автоматически извлекаются из этих данных можно классифицировать, с высокой точностью, пациентов с и без узелки. Это патология, которая возникает в гортани, часто из-за моделей речевых злоупотреблений, таких как Бельтинг из песни или орать. Главное, модели справились с этой задачей без большого набора силы меченых данных.
“Это становится все более легким для сбора длинных временных рядов данных. Но у вас есть врачи, которые должны применять свои знания для маркировки набор данных”, — говорит ведущий автор Хосе Хавьер Гонсалес Ортис, аспирант в области компьютерных наук Массачусетского технологического института и лаборатории искусственного интеллекта (CSAIL). “Мы хотим снять, что механическая часть для специалистов и переложить все реконструирования для машинного обучения модель”.
Модель может быть адаптирована для изучения моделей любого заболевания или состояния. Но возможность обнаружить ежедневный голос-использование закономерностей, связанных с узелки-это важный шаг в развитии улучшенных методов профилактики, диагностики и лечения заболевания, говорят исследователи. Это может включать разработку новых способов выявления и оповещения людей в потенциально опасных вокального поведения.
Присоединение Гонсалес Ортис на бумаге Джон Guttag, в Дугальд С. Джексон, профессор компьютерных наук и электротехники и глава CSAIL данные приводимый вывод группы; Роберт Хиллман, Джаррада Ван Стан и Daryush Мехта, все из Массачусетского общего госпиталя Центра хирургии гортани и голосовой реабилитации; и Marzyeh Ghassemi, доцент кафедры информатики и медицины в Университете Торонто.
Функции принудительного обучения
В течение многих лет, исследователи Массачусетского технологического института совместно с Центром хирургии гортани и голосовой реабилитации, разрабатывать и анализировать данные с датчиков, чтобы отслеживать тему использование голоса в течение всего периода бодрствования. Датчик представляет собой акселерометр с узлом, который прилипает к шее и подключен к смартфону. Как человек говорит, смартфона, собирает данные с датчика перемещения акселерометра.
В своей работе исследователи собрали за неделю до этого данных, называемых “временных” данных из 104 предметов, половина из которых была диагностирована узелки. Для каждого пациента существует также контроль соответствия, т. е. здорового человека аналогичного возраста, пола, профессии и других факторов.
Традиционно, эксперты должны вручную определить функции, которые могут быть полезны для модели, чтобы выявить различные заболевания или условия. Что помогает предотвратить общие машинного обучения, проблемы в здравоохранении: переобучения. Вот тогда, на тренировке, модель “запоминает” данные субъекта, а не обучение только клинически значимые особенности. При тестировании этих моделей часто не могут различить похожие модели в ранее невидимые предметы.
“Вместо того, чтобы изучать функции, которые являются клинически значимыми, модель видит и говорит, ‘Это Сара, и я знаю, что Сара является здоровым, и это Питер, который имеет голосовых связок узелок.’ Так что, это просто заучивание шаблонов предметов. Затем, когда он видит данные от Андрея, который имеет в себе новые вокальные особенности использования, он не может вычислить, если эти модели соответствуют классификации,” Гонсалес Ортис говорит.
Главная задача была предотвратить переобучение при автоматизации ручного проектирования характеристик. С этой целью, исследователи заставили модель узнать характеристики без информации. Для своих задач, это означало, захватив все моменты, когда подданные говорят и интенсивность их голоса.
Как их модель пролезает через данные субъекта, он запрограммирован, чтобы найти озвучивая сегментов, которые составляют всего около 10% данных. Для каждого из этих озвучивая электроприводом, модель вычисляет спектрограммы, визуальное представление спектра частот изменяющихся с течением времени, которая часто используется для решения задач обработки речи. Спектрограмм затем хранятся в больших матриц тысяч значений.
Но эти матрицы-это огромный и сложный процесс. Так, автоэнкодер — нейронная сеть, оптимизированная для создания эффективного кодирования данных с большими объемами данных — первый сжимает спектрограммы в кодирование 30 значений. Потом его распаковывает, что кодирование в отдельную спектрограммы.
По сути, модель должна гарантировать, что спектрограммы разжимается напоминает исходное спектрограммы. Поступая так, он вынужден выучить сжатого представления каждой спектрограммы входного сегмента в течение всего времени-серии каждого субъекта данных. Сжатого представления функций, которые помогают тренировать модели машинного обучения, чтобы делать прогнозы.
Сопоставление нормальных и аномальных функций
В обучение, в модель учится на карте эти функции для “пациентов” или “контроль”. Пациенты будут иметь более озвучивая моделей, чем управляет. В тестировании на ранее невидимые предметы, модели аналогично конденсируется все сегменты спектрограммы в сокращенный набор функций. Тогда, это правило большинства: если объект имеет в основном ненормальным озвучивая сегментов, они классифицируются как пациенты, если у них в основном нормальные, они классифицируются как элементы управления.
В экспериментах, модель выполнена настолько точно, насколько это государство-оф-арт модели, которые требуют ручного реконструирования. Главное, модель исследователей выполнены точно в обоих обучения и тестирования, показывающие, что ее изучение клинически значимых закономерностей из данных, не подлежит конкретной информации.
Далее ученые хотят контролировать, как различные методы лечения, такие как хирургия и вокальной терапии — воздействия вокального поведения. Если поведение пациента переместить форму ненормальных к нормальным течением времени, они, скорее всего, улучшение. Они также надеются использовать подобную технику на данные электрокардиограммы, которая используется для отслеживания мышечной функции сердца.