Результаты деятельности

 


Итоги 2018 года


В рамках научной деятельности Центра компетенций НТИ по технологиям хранения и анализа больших данных на базе МГУ начата реализация комплексных научно-исследовательских и опытно-конструкторских проектов, в качестве приоритетных и ключевых выделены следующие:

● Предиктивная аналитика технических систем;

● Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных; 

● Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных;

● Средства интеллектуального анализа больших массивов текстов;

● Математические основы интеллектуального анализа больших данных;

● Новые подходы к проектированию систем считывания для технологии сверхстабильной трехмерной оптической памяти с многоуровневым кодированием на носителях из стекла;

● Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации;

● Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды.

Итоги образовательной деятельности Центра:

● Разработана концепция образовательных программ (их компонентов) и образовательной платформы. Ее ключевые компоненты: профессорско-преподавательский; учебно-методический – репозиторий материалов к обучающим курсам, созданным в ведущих научных/учебных центрах России (МГУ, ФИЦ ИУ РАН, СПбГТУ, ННГУ, РЭУ и др.); инфраструктурный – система электронного дистанционного обучения.

● Начата работа по формированию коллектива и созданию курсов и методических разработок. Привлечены ведущие специалисты в области машинного обучения и математической статистики (г. Белгород, СПбПУ Петра Великого, РАН). Разработано 22 курса лекций: для каждого из них создан стандартный набор документов (учебно-методический комплекс, расширенная программа, согласованная с Минобрнауки России, слайды, лекции, краткий курс лекций, сборник задач).

По направлению развития инфраструктуры Центра обеспечены:

● Исследования технологий, методов, программных систем и инструментов, существующих примеров использования и перспективных направлений в области больших данных;

● Анализ методов виртуализации в обработке больших данных;

● Разворачивание инфраструктуры на суперкомпьютере «Ломоносов-2»;

● Анализ примеров применения технологий хранения и анализа больших данных компаниями из списка Fortune500;

● Сравнительный анализ основных подходов к организации инфраструктуры для хранения и обработки больших данных, основанных как на открытом, так и на коммерческом программном обеспечении.

В рамках развития партнерских отношений по итогам года в консорциум вошли, помимо МГУ, еще 25 организаций-участников.


Итоги 2019 года


В рамках научной деятельности Центра реализуется восемь приоритетных и ключевых проектов. Более подробная информация о ходе разработок по каждому из направлений представлена в разделе «Проекты».

В результате образовательной деятельности Центра разработаны три новых базовых курса, которые включают комплекты учебно-методических материалов (учебно-методические комплексы, слайды лекций, методические материалы с примерами практических заданий и контрольных вопросов).

Произведена модернизация базовых курсов образовательной платформы для дистанционного обучения (в части разработки звукового сопровождения слайдов лекций).

Разработаны три программы повышения квалификации в сфере технологий хранения и анализа больших данных для специалистов государственных учреждений, государственных служащих и сотрудников госкомпаний. Программы ориентированы на повышение квалификации как управленческого, так и инженерно-технического персонала.

Разработанные Центром курсы применяются в ряде ведущих вузов страны, которые входят в консорциум Центра. Среди них – Московский государственный университет имени М.В. Ломоносова, Белгородский государственный национальный исследовательский университет, Нижегородский государственный университет имени Н.И. Лобачевского, Санкт-Петербургский политехнический университет Петра Великого, Ульяновский государственный университет и другие. К концу 2019 года более 800 студентов этих вузов получили специальные знания по направлению «Технологии хранения и анализа больших данных», прослушав курсы, разработанные Центром.

По направлению развития инфраструктуры сформирован Технический проект инфраструктуры. За счет грантовой поддержки Центра в 2019 году приобретены материальные объекты инфраструктуры, которые будут доступны для использования в 2020 году:

● Вычислительное ядро, ориентированное на решение задач машинного обучения, глубинного обучения и искусственного интеллекта, основанное на эффективной аппаратной платформе с использованием графических ускорителей;

● Серверы для развертывания хранилища Ceph – общепринятого и широко распространенного решения для распределенного хранилища в решении задач больших данных;

● Серверы виртуализации, позволяющие эффективно использовать имеющиеся ресурсы для решения задач с существенно отличающимися требованиями по настройке программного окружения и необходимые для развертывания технологии виртуализации OpenStack;

● Серверы системы мониторинга, обеспечивающие эффективное использование ресурсов на всех уровнях;

● Системное программное обеспечение – современные компиляторы, средства разработки и отладки, необходимые для эффективного решения вычислительных задач;

● Коммутационное оборудование, без эффективной работы которого невозможно согласованное совместное использование аппаратной инфраструктуры.

Центр создает унифицированную инфраструктуру, не выделяя каждому направлению НИР по собственному особому сегменту оборудования, что вызвано стремлением предотвратить неприменимость инфраструктуры в будущем.

Виртуализация, мониторинг, программное обеспечение для разработки являются, очевидно, необходимыми факторами для эффективного решения задач Центра.

Реализация приоритетных и ключевых проектов организации базируется на алгоритмах машинного и глубинного обучения, чему соответствует выбранная в качестве ядра аппаратная платформа «Сервер обработки данных на GPU-ускорителях Nvidia DGX-2». Эта платформа необходима проектам по предиктивной аналитике, безопасности и медицине для решения задач в области машинного обучения, глубинного обучения, искусственного интеллекта и других задач data mining в сфере больших данных.

С точки зрения доступа к данным и их хранения требуется обеспечить как доступ к локальным данным, так и к данным распределенного хранилища, что также учтено в выборе состава оборудования системы хранения данных (СХД). На базе Суперкомпьютерного центра МГУ создается СХД для решения задач Центра компетенций НТИ по большим данным с повышенными требованиями к гибкости конфигурации СХД.

В рамках развития партнерских отношений по итогам года в консорциум вошли, помимо МГУ, еще 40 организаций-участников.