ТОМСК, 31 июл – РИА Томск, Елена Тайлашева. Компьютерные лингвисты Томского госуниверситета (ТГУ) создали программу, которая на русском языке генерирует заголовки новостей, а в перспективе и сама будет писать новости. Как научить машину анализировать текст, какой специалист получается после "скрещивания" филолога и айтишника и зачем классической филологии Big Data – в материале РИА Томск.
Извлечение смысла
В специальное окно загружается текст готовой новости – и через несколько секунд программа выдает свой вариант заголовка к ней. Максимально беспристрастный, без интригующих формулировок и оценочных суждений... Магистрам (а теперь уже выпускникам) программы "Компьютерная и когнитивная лингвистика" ТГУ понадобился год, чтобы создать Web-сервис по извлечению фактов из текстов и автоматическому генерированию новостей.
Разработчики (а проект реализуется совместно с компанией "Элекард-Мед") уверены: сервис, основанный на технологии машинного обучения, будет востребован в современных информационных агентствах.
"На первом этапе мы решали задачу реферирования текста (то есть извлечения из него фактов и их связей) – нужно было научить программу генерировать заголовок, с чем мы успешно справились. Следующий этап – писать лид (первый абзац новости), а затем – новость полностью", – рассказывает Зоя Резанова, заведующая лабораторией когнитивных исследований языка ТГУ, руководитель МП "Компьютерная и когнитивная лингвистика".
Надо сказать, что этот рынок становится очень конкурентным, но прототипы пока есть только англоязычные. На русский язык их просто так не переложишь – грамматика отличается коренным образом: у нас существительные и прилагательные склоняются, глаголы спрягаются, порядок слов гораздо более произвольный...
Поэтому для обучения машины мало было написать программу и загрузить в нее набор данных (десятки тысяч новостей) – нужны были специалисты, которые разбираются в лингвистических тонкостях, то есть в том, как устроен язык вообще, каков механизм порождения речи отдельным человеком.
Новые лингвисты
Зоя Резанова – классический представитель университетской "старой школы": доктор филологических наук, профессор, завкафедрой общего, славяно-русского языкознания и классической филологии ТГУ. Но фразы "Вот раньше было!.." от нее не услышишь, наоборот, Резанова восхищается возможностями, которые получила современная лингвистика.
"Лингвистика в начале XXI века абсолютно изменила свой облик: новые технологии помогли на новый уровень вывести исследования. Но родились и междисциплинарные направления для решения социальных задач. Поэтому, создавая два года назад новую магистерскую программу на базе САЕ "Институт человека цифровой эпохи", мы концептуально объединили два направления – когнитивную лингвистику и компьютерную лингвистику", – говорит Резанова.
Когнитивная лингвистика исследует то, как язык взаимодействует с ментальными механизмами. Среди основных дисциплин, которые изучают магистранты, – "Обработка лингвистической информации: язык и мозг", "Когнитивное моделирование в PR-деятельности", "Статистические методы в гуманитарных исследованиях", "Когнитивная психология".
Зоя Резанова поясняет:
"Язык – это не то, что написано, и не то, что проговаривается. Он рождается в нашем сознании, сознание существует в нашем теле, а наше тело и личность – в природном и социокультурном аспекте. И каждый фактор влияет на порождение речи.
Мы проводим массу поведенческих экспериментов, чтобы лучше узнать сущность и устройство русского языка. Например, в Лаборатории лингвистической антропологии исследуется процесс чтения (с помощью датчика отслеживания движения глаз), чтобы понять, как мы обрабатываем тексты".
Другое направление – компьютерная лингвистика – помогает осмыслить изменения в современных коммуникациях. И, может быть, сделать более качественным диалог "человек – машина". На программе изучают как теорию русского языка, так и языки программирования (Python и R).
"Анализ больших данных – это абсолютный тренд, но огромное количество информации – это языковая информация, следовательно, способ проникновения в эту информацию – это анализ текстов. Необходимо создать эффективные механизмы извлечения информации из текста без участия человека, автоматические анализаторы", – говорит Зоя Резанова.
Например, на форуме U-NOVUS команда магистратуры разработала систему поиска специалистов для решения отраслевых задач в нефтегазовой промышленности. По данным студенческих публикаций – статей, курсовых, выпускных работ – алгоритм может находить молодого специалиста, который исследовал конкретную проблему (скажем, низкую эффективность экспорта или низкий уровень энергосбережения) и может помочь устранить ее.
Следующая базовая задача – не просто заменить человека в извлечении информации, но и генерировать эту информацию, создавать вторичные тексты – то, что магистранты ТГУ делают для информационных агентств. Осмысленный ответ ботов, скажем, из банка – это тоже технологии компьютерной лингвистики. И недалек тот день, когда благодаря им боты научатся распознавать интонацию, эмоции и сами говорить, как люди.