Эволюция старой школы: как в ТГУ объединили лингвистов и программистов

ТОМСК, 31 июл – РИА Томск, Елена Тайлашева. Компьютерные лингвисты Томского госуниверситета (ТГУ) создали программу, которая на русском языке генерирует заголовки новостей, а в перспективе и сама будет писать новости. Как научить машину анализировать текст, какой специалист получается после "скрещивания" филолога и айтишника и зачем классической филологии Big Data – в материале РИА Томск.

Извлечение смысла

В специальное окно загружается текст готовой новости – и через несколько секунд программа выдает свой вариант заголовка к ней. Максимально беспристрастный, без интригующих формулировок и оценочных суждений... Магистрам (а теперь уже выпускникам) программы "Компьютерная и когнитивная лингвистика" ТГУ понадобился год, чтобы создать Web-сервис по извлечению фактов из текстов и автоматическому генерированию новостей.

Разработчики (а проект реализуется совместно с компанией "Элекард-Мед") уверены: сервис, основанный на технологии машинного обучения, будет востребован в современных информационных агентствах.

"На первом этапе мы решали задачу реферирования текста (то есть извлечения из него фактов и их связей) – нужно было научить программу генерировать заголовок, с чем мы успешно справились. Следующий этап – писать лид (первый абзац новости), а затем – новость полностью", – рассказывает Зоя Резанова, заведующая лабораторией когнитивных исследований языка ТГУ, руководитель МП "Компьютерная и когнитивная лингвистика".

Надо сказать, что этот рынок становится очень конкурентным, но прототипы пока есть только англоязычные. На русский язык их просто так не переложишь – грамматика отличается коренным образом: у нас существительные и прилагательные склоняются, глаголы спрягаются, порядок слов гораздо более произвольный...

Поэтому для обучения машины мало было написать программу и загрузить в нее набор данных (десятки тысяч новостей) – нужны были специалисты, которые разбираются в лингвистических тонкостях, то есть в том, как устроен язык вообще, каков механизм порождения речи отдельным человеком.

Новые лингвисты

Зоя Резанова – классический представитель университетской "старой школы": доктор филологических наук, профессор, завкафедрой общего, славяно-русского языкознания и классической филологии ТГУ. Но фразы "Вот раньше было!.." от нее не услышишь, наоборот, Резанова восхищается возможностями, которые получила современная лингвистика.

"Лингвистика в начале XXI века абсолютно изменила свой облик: новые технологии помогли на новый уровень вывести исследования. Но родились и междисциплинарные направления для решения социальных задач. Поэтому, создавая два года назад новую магистерскую программу на базе САЕ "Институт человека цифровой эпохи", мы концептуально объединили два направления – когнитивную лингвистику и компьютерную лингвистику", – говорит Резанова.

Когнитивная лингвистика исследует то, как язык взаимодействует с ментальными механизмами. Среди основных дисциплин, которые изучают магистранты, – "Обработка лингвистической информации: язык и мозг", "Когнитивное моделирование в PR-деятельности", "Статистические методы в гуманитарных исследованиях", "Когнитивная психология".

Зоя Резанова поясняет:

"Язык – это не то, что написано, и не то, что проговаривается. Он рождается в нашем сознании, сознание существует в нашем теле, а наше тело и личность – в природном и социокультурном аспекте. И каждый фактор влияет на порождение речи.

Мы проводим массу поведенческих экспериментов, чтобы лучше узнать сущность и устройство русского языка. Например, в Лаборатории лингвистической антропологии исследуется процесс чтения (с помощью датчика отслеживания движения глаз), чтобы понять, как мы обрабатываем тексты".

Другое направление – компьютерная лингвистика – помогает осмыслить изменения в современных коммуникациях. И, может быть, сделать более качественным диалог "человек – машина". На программе изучают как теорию русского языка, так и языки программирования (Python и R).

"Анализ больших данных – это абсолютный тренд, но огромное количество информации – это языковая информация, следовательно, способ проникновения в эту информацию – это анализ текстов. Необходимо создать эффективные механизмы извлечения информации из текста без участия человека, автоматические анализаторы", – говорит Зоя Резанова.

Например, на форуме U-NOVUS команда магистратуры разработала систему поиска специалистов для решения отраслевых задач в нефтегазовой промышленности. По данным студенческих публикаций – статей, курсовых, выпускных работ – алгоритм может находить молодого специалиста, который исследовал конкретную проблему (скажем, низкую эффективность экспорта или низкий уровень энергосбережения) и может помочь устранить ее.

Следующая базовая задача – не просто заменить человека в извлечении информации, но и генерировать эту информацию, создавать вторичные тексты – то, что магистранты ТГУ делают для информационных агентств. Осмысленный ответ ботов, скажем, из банка – это тоже технологии компьютерной лингвистики. И недалек тот день, когда благодаря им боты научатся распознавать интонацию, эмоции и сами говорить, как люди.

Эволюция старой школы: как в ТГУ объединили лингвистов и программистов

Актуально

Кризис и модернизация: как изменилась Научная библиотека ТГУ за 10 лет

Продукты для пирога с капустой подорожали в Томской области на 4,4%

Шесть аварийных отключений света произошло в Томске ночью из-за ветра

Музей фигур с "Праздника Топора" может появиться в Томской области

День народного единства 2025: чем важен для россиян, краткая история

День народного единства в Томске отметят литургией и концертами

Томичи могут помочь пятилетней Ане с ДЦП пройти реабилитацию

Мультимедиа

Море в миниатюре: Томск принимает "Кубок Сибири" по судомоделированию

Дом за рубль: как стать арендатором исторического здания в Томске

Танцы на ковре: гимнастки из 24 регионов участвуют в томском турнире

Музей через 2 года: как синагогу в Томске "лечат" от советской истории

По мандату депутата: фото с первого собрания думы Томска VIII созыва

С днем первых снеговиков: репетиция зимы в Томске в октябре. Фото