RIATOMSK.RU
+19°C
19 августа 2019  |  
2:28
  |  
+19°C
16:08  31 июля 2019 г.

Эволюция старой школы: как в ТГУ объединили лингвистов и программистов

Тайлашева Елена Владимировна
© предоставила пресс-служба Томского госуниверситетаЭволюция старой школы: как в ТГУ объединили лингвистов и программистов

ТОМСК, 31 июл – РИА Томск, Елена Тайлашева. Компьютерные лингвисты Томского госуниверситета (ТГУ) создали программу, которая на русском языке генерирует заголовки новостей, а в перспективе и сама будет писать новости. Как научить машину анализировать текст, какой специалист получается после "скрещивания" филолога и айтишника и зачем классической филологии Big Data – в материале РИА Томск.

Извлечение смысла

В специальное окно загружается текст готовой новости – и через несколько секунд программа выдает свой вариант заголовка к ней. Максимально беспристрастный, без интригующих формулировок и оценочных суждений... Магистрам (а теперь уже выпускникам) программы "Компьютерная и когнитивная лингвистика" ТГУ понадобился год, чтобы создать Web-сервис по извлечению фактов из текстов и автоматическому генерированию новостей.

Разработчики (а проект реализуется совместно с компанией "Элекард-Мед") уверены: сервис, основанный на технологии машинного обучения, будет востребован в современных информационных агентствах.

"На первом этапе мы решали задачу реферирования текста (то есть извлечения из него фактов и их связей) – нужно было научить программу генерировать заголовок, с чем мы успешно справились. Следующий этап – писать лид (первый абзац новости), а затем – новость полностью", – рассказывает Зоя Резанова, заведующая лабораторией когнитивных исследований языка ТГУ, руководитель МП "Компьютерная и когнитивная лингвистика".

Надо сказать, что этот рынок становится очень конкурентным, но прототипы пока есть только англоязычные. На русский язык их просто так не переложишь – грамматика отличается коренным образом: у нас существительные и прилагательные склоняются, глаголы спрягаются, порядок слов гораздо более произвольный...

Поэтому для обучения машины мало было написать программу и загрузить в нее набор данных (десятки тысяч новостей) – нужны были специалисты, которые разбираются в лингвистических тонкостях, то есть в том, как устроен язык вообще, каков механизм порождения речи отдельным человеком.

© предоставила пресс-служба Томского госуниверситета
"Программист, который приходит к нам в магистратуру, не станет лингвистом – точно также, как филолог не станет специалистом по Big Data. Но это будет специалист, который умеет работать на стыке дисциплин. Междисциплинарность – один из главных трендов образования", – подчеркивает Зоя Резанова.

Новые лингвисты

Зоя Резанова – классический представитель университетской "старой школы": доктор филологических наук, профессор, завкафедрой общего, славяно-русского языкознания и классической филологии ТГУ. Но фразы "Вот раньше было!.." от нее не услышишь, наоборот, Резанова восхищается возможностями, которые получила современная лингвистика.

"Лингвистика в начале XXI века абсолютно изменила свой облик: новые технологии помогли на новый уровень вывести исследования. Но родились и междисциплинарные направления для решения социальных задач. Поэтому, создавая два года назад новую магистерскую программу на базе САЕ "Институт человека цифровой эпохи", мы концептуально объединили два направления – когнитивную лингвистику и компьютерную лингвистику", – говорит Резанова.

Когнитивная лингвистика исследует то, как язык взаимодействует с ментальными механизмами. Среди основных дисциплин, которые изучают магистранты, – "Обработка лингвистической информации: язык и мозг", "Когнитивное моделирование в PR-деятельности", "Статистические методы в гуманитарных исследованиях", "Когнитивная психология".

© предоставлено пресс-службой Томского госуниверситета
Сейчас в магистратуре обучаются 3 кандидата наук – 2 с исторического факультета и 1 с философского. Историки и философы тоже работают с текстами, и математические алгоритмы дают новые возможности для их обработки. В нынешний набор пришли также два информатика, желающие научиться работать с текстами.
Зоя Резанова поясняет:

"Язык – это не то, что написано, и не то, что проговаривается. Он рождается в нашем сознании, сознание существует в нашем теле, а наше тело и личность – в природном и социокультурном аспекте. И каждый фактор влияет на порождение речи.

Мы проводим массу поведенческих экспериментов, чтобы лучше узнать сущность и устройство русского языка. Например, в Лаборатории лингвистической антропологии исследуется процесс чтения (с помощью датчика отслеживания движения глаз), чтобы понять, как мы обрабатываем тексты".

Другое направление – компьютерная лингвистика – помогает осмыслить изменения в современных коммуникациях. И, может быть, сделать более качественным диалог "человек – машина". На программе изучают как теорию русского языка, так и языки программирования (Python и R).

"Анализ больших данных – это абсолютный тренд, но огромное количество информации – это языковая информация, следовательно, способ проникновения в эту информацию – это анализ текстов. Необходимо создать эффективные механизмы извлечения информации из текста без участия человека, автоматические анализаторы", – говорит Зоя Резанова.

Например, на форуме U-NOVUS команда магистратуры разработала систему поиска специалистов для решения отраслевых задач в нефтегазовой промышленности. По данным студенческих публикаций – статей, курсовых, выпускных работ – алгоритм может находить молодого специалиста, который исследовал конкретную проблему (скажем, низкую эффективность экспорта или низкий уровень энергосбережения) и может помочь устранить ее.

© предоставила пресс-служба Томского госуниверситета
Работу команды магистратуры на форуме U-NOVUS высоко оценили сотрудники "Газпромнефть НТЦ", увидев возможность практического применения алгоритма при подборе кадров.
Следующая базовая задача – не просто заменить человека в извлечении информации, но и генерировать эту информацию, создавать вторичные тексты – то, что магистранты ТГУ делают для информационных агентств. Осмысленный ответ ботов, скажем, из банка – это тоже технологии компьютерной лингвистики. И недалек тот день, когда благодаря им боты научатся распознавать интонацию, эмоции и сами говорить, как люди.

Завлабораторией когнитивных исследований языка ТГУ Зоя Резанова о современной лингвистике

Наверх
Сайт РИА Томск /riatomsk.ru/ содержит информацию, подготовленную Региональным информационным агентством «Томск» (РИА Томск) с территорией распространения - Томск, Томская область.
РИА Томск зарегистрировано в Управлении Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) по Томской области 20 марта 2014 г. Свидетельство о регистрации ИА № ТУ70-00327.
Настоящий ресурс может содержать материалы 18+. Материалы, размещенные на правах рекламы, выходят под знаком "реклама". РИА Томск не несет ответственности за партнерские материалы.
Рейтинг@Mail.ru
Яндекс.Метрика
ЧИТАЙТЕ
РИА в VK
Главные новости дня в нашей рассылке