В ЦК НТИ по большим данным МГУ разработано решение для интеллектуального анализа больших массивов текстов

В Центре компетенций НТИ на базе МГУ по направлению «Технологии хранения и анализа больших данных» совместно с Институтом проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН и ООО «Технологии системного анализа» разработана платформа текстовой аналитики на основе интеллектуальных систем сбора и обработки текстов на русском и английском языках. Проект является первым в мире промышленным решением, обладающим возможностями кросс-языковой аналитики, сообщает пресс-служба Россиской венчурной компании (РВК).

Разработанное решение может анализировать и обрабатывать любой тип информации, представленной в текстовом виде на русском, английском, белорусском, казахском и татарском языках. Преимуществом проекта является возможность кросс-языковой аналитики текстов: не требуется повторный поиск одних и тех же сведений, представленных в документах на разных языках и описанных терминами из разных языков. Внедрение решения существенно упростит работу специалистов, работающих с анализом больших объемов текстов, и значительно повысит эффективность патентного и исследовательского поиска.

Решение позволяет проводить анализ больших объемов научно-технической информации, анализ социальных сетей на предмет выявления материалов нежелательной тематики, девиантного поведения, анализ психологического состояния пользователей и социальной напряженности слоев общества. Кроме того, решение может выполнять задачи по извлечению информации, анализу медицинских документов, технической информации по закупкам для перевода больших полуструктурированных массивов текстов в форму структурированной информации.

В дальнейшем потребителями разработки могут стать аналитические центры, научные и научно-образовательные организации, предприятия, оказывающие услуги защиты интеллектуальной собственности, государственные корпорации. Также потенциальными потребителями могут стать нормативно-правовые справочные системы и консалтинговые бюро.

Илья Соченков, руководитель проекта, научный сотрудник Центра компетенций НТИ по большим данным на базе МГУ:

«Симбиоз нескольких научных подходов, предложенный президентом Российской академии социальных наук, доктором философских наук, профессором Г.В. Осиповым, позволяет описывать тематику документов через словосочетания и анализировать смысл отдельных высказываний в форме неоднородных семантических сетей. В совокупности с современными методами компьютерной лингвистики, дистрибутивной семантики и машинного обучения созданное решение позволяет достигать большей точности и полноты в задачах текстовой аналитики».

Решение уже прошло стадию пилотных внедрений в таких организациях, как ИНФРА-М, НЦР «Руконт», НТИМИ, Дирекция научно-технических программ, Минобрнауки РФ, что позволило собрать базу технологических запросов заказчиков в области текстовой аналитики.

Стоимость разработки и внедрения готового решения варьируется от 5 до 25 млн руб. в каждом конкретном случае в зависимости от потребности заказчика в услугах по интеграции, кастомизации и глубокой настройке программного обеспечения.

Справочная информация

АО «РВК» — государственный фонд фондов, институт развития венчурной отрасли России. Основные цели деятельности АО «РВК»: стимулирование создания в России собственной индустрии венчурного инвестирования и исполнение функций Проектного офиса Национальной технологической инициативы (НТИ). Уставный капитал АО «РВК» составляет более 30 млрд руб. 100% капитала РВК принадлежит Российской Федерации в лице Федерального агентства по управлению государственным имуществом РФ (Росимущество). Общее количество фондов, сформированных АО «РВК», достигло 29, их суммарный размер – 64,4 млрд руб. Доля АО «РВК» – 38 млрд руб. Фонды с участием капитала АО «РВК» проинвестировали более 290 портфельных компаний на общую сумму 23 млрд руб.

Центры компетенций НТИ – это подразделения, которые создаются на базе образовательных или научных организаций. Центры ведут исследовательскую и образовательную деятельность в консорциуме с ведущими технологическими компаниями в интересах развития сквозных технологий. В числе этих технологий – большие данные, искусственный интеллект, квантовые технологии, новые и портативные источники энергии, технологии беспроводной связи, технологии виртуальной и дополненной реальностей и другие. Всего создано 14 таких Центров. До 2021 года предусмотрено государственное финансирование Центров в размере 10,3 млрд руб. Оператором проекта Центров компетенций НТИ выступает РВК.


15.04.2020