ТОМСК,
31 июл – РИА Томск, Елена Тайлашева. Компьютерные
лингвисты Томского госуниверситета (ТГУ) создали программу, которая на русском
языке генерирует заголовки новостей, а в перспективе и сама будет писать
новости. Как научить машину анализировать текст, какой специалист получается
после "скрещивания" филолога и айтишника и зачем классической
филологии Big Data – в материале РИА Томск.
Извлечение
смысла
В специальное окно загружается текст готовой новости
– и через несколько секунд программа выдает свой вариант заголовка к ней.
Максимально беспристрастный, без интригующих формулировок и оценочных
суждений... Магистрам (а теперь уже выпускникам) программы "Компьютерная и
когнитивная лингвистика" ТГУ понадобился год, чтобы создать Web-сервис по
извлечению фактов из текстов и автоматическому генерированию новостей.
Разработчики (а проект реализуется совместно с
компанией "Элекард-Мед") уверены: сервис, основанный на технологии
машинного обучения, будет востребован в современных информационных агентствах.
"На первом этапе мы решали задачу реферирования
текста (то есть извлечения из него фактов и их связей) – нужно было
научить программу генерировать заголовок, с чем мы успешно справились.
Следующий этап – писать лид (первый абзац новости), а затем – новость полностью",
– рассказывает Зоя Резанова, заведующая лабораторией когнитивных исследований
языка ТГУ, руководитель МП "Компьютерная и когнитивная лингвистика".
Надо сказать, что этот рынок становится очень
конкурентным, но прототипы пока есть только англоязычные. На русский язык их
просто так не переложишь – грамматика отличается коренным образом: у нас существительные
и прилагательные склоняются, глаголы спрягаются, порядок слов гораздо более
произвольный...
Поэтому для обучения машины мало было написать
программу и загрузить в нее набор данных (десятки тысяч новостей) – нужны были
специалисты, которые разбираются в лингвистических тонкостях, то есть в том,
как устроен язык вообще, каков механизм порождения речи отдельным человеком.
© предоставила пресс-служба Томского госуниверситета
"Программист, который приходит к нам в магистратуру, не станет лингвистом – точно также, как филолог не станет специалистом по Big Data. Но это будет специалист, который умеет работать на стыке дисциплин. Междисциплинарность – один из главных трендов образования", – подчеркивает Зоя Резанова.
Новые
лингвисты
Зоя Резанова – классический представитель университетской
"старой школы": доктор филологических наук, профессор, завкафедрой
общего, славяно-русского языкознания и классической филологии ТГУ. Но фразы "Вот
раньше было!.." от нее не услышишь, наоборот, Резанова восхищается возможностями,
которые получила современная лингвистика.
"Лингвистика в начале XXI века абсолютно изменила свой
облик: новые технологии помогли на новый уровень вывести исследования. Но родились
и междисциплинарные направления для решения социальных задач. Поэтому, создавая
два года назад новую магистерскую программу на базе САЕ "Институт человека
цифровой эпохи", мы концептуально объединили два направления – когнитивную
лингвистику и компьютерную лингвистику", – говорит Резанова.
Когнитивная лингвистика исследует то, как язык
взаимодействует с ментальными механизмами. Среди основных дисциплин, которые
изучают магистранты, – "Обработка лингвистической информации: язык и мозг",
"Когнитивное моделирование в PR-деятельности", "Статистические
методы в гуманитарных исследованиях", "Когнитивная психология".
© предоставлено пресс-службой Томского госуниверситета
Сейчас в магистратуре обучаются 3 кандидата наук – 2 с исторического факультета и 1 с философского. Историки и философы тоже работают с текстами, и математические алгоритмы дают новые возможности для их обработки. В нынешний набор пришли также два информатика, желающие научиться работать с текстами.
Зоя Резанова поясняет:
"Язык – это не то, что написано, и не то, что
проговаривается. Он рождается в нашем сознании, сознание существует в нашем
теле, а наше тело и личность – в природном и социокультурном аспекте. И каждый
фактор влияет на порождение речи.
Мы проводим массу поведенческих экспериментов, чтобы
лучше узнать сущность и устройство русского языка. Например, в Лаборатории
лингвистической антропологии исследуется процесс чтения (с помощью датчика
отслеживания движения глаз), чтобы понять, как мы обрабатываем тексты".
Другое направление – компьютерная лингвистика –
помогает осмыслить изменения в современных коммуникациях. И, может быть,
сделать более качественным диалог "человек – машина". На программе
изучают как теорию русского языка, так и языки программирования (Python и R).
"Анализ больших данных – это абсолютный тренд, но
огромное количество информации – это языковая информация, следовательно, способ
проникновения в эту информацию – это анализ текстов. Необходимо создать
эффективные механизмы извлечения информации из текста без участия человека, автоматические
анализаторы", – говорит Зоя Резанова.
Например,
на форуме U-NOVUS команда магистратуры разработала систему поиска специалистов
для решения отраслевых задач в нефтегазовой промышленности. По данным
студенческих публикаций – статей, курсовых, выпускных работ – алгоритм может
находить молодого специалиста, который исследовал конкретную проблему (скажем,
низкую эффективность экспорта или низкий уровень энергосбережения) и может
помочь устранить ее.
© предоставила пресс-служба Томского госуниверситета
Работу команды магистратуры на форуме U-NOVUS высоко оценили сотрудники "Газпромнефть НТЦ", увидев возможность практического применения алгоритма при подборе кадров.
Следующая базовая задача – не просто заменить
человека в извлечении информации, но и генерировать эту информацию, создавать
вторичные тексты – то, что магистранты ТГУ делают для информационных агентств. Осмысленный ответ ботов, скажем, из банка – это тоже технологии
компьютерной лингвистики. И недалек тот день, когда благодаря им боты научатся
распознавать интонацию, эмоции и сами говорить, как люди.
Завлабораторией когнитивных исследований языка ТГУ Зоя Резанова о современной лингвистике