RIATOMSK.RU
ВСЕ НОВОСТИ
18:12 26 октября 2020 г.

Ученый ТГУ озадачил искусственный интеллект словами-омографами

© РИА Томск. Олег Асратян

ТОМСК, 26 окт – РИА Томск. Доцент кафедры теоретических основ информатики института прикладной математики и компьютерных наук Томского госуниверситета (ИПМКНТГУ) Михаил Пожидаев занимается созданием библиотеки для обработки слов-омографов в русском языке; библиотека необходима для автоматического создания аудиокниг, сообщает в понедельник пресс-служба вуза.

Пресс-служба напоминает, что слова-омографы – это слова, которые совпадают в написании, но различаются в произношении. Например, существительное "пОтом" ("обливаясь пОтом") и наречие "потОм" ("как выяснилось потОм"). При переводе текстов в аудиоформат искусственный интеллект не способен автоматически найти правильное звучание слова, что затрудняет доступ к текстам, в том числе техническим, для слабовидящих людей.

"Создание библиотеки для обработки омографов (Михаилом Пожидаевым) напрямую связано с компьютерной лингвистикой. Сейчас во время учебного процесса школьники и студенты с нарушениями зрения часто сталкиваются с рядом неточностей в автоматической обработке текстов на русском языке. Те же проблемы встречают и прочие слушатели аудиокниг", – поясняется в сообщении актуальность проблемы.

По словам Пожидаева, которого цитирует пресс-служба, в настоящий момент даже синтезаторы речи именитых производителей продолжают ошибаться с выбором ударения, не говоря уже о синтезаторах, находящихся в свободном доступе. Решением проблемы занимаются специалисты  в области компьютерной лингвистики. Ученый опирается на собственный опыт погружения в проблему – вследствие болезни ученый полностью лишился зрения.

В русском языке почти 30 тысяч слов-омографов. Нюанс библиотеки для их обработки в том, что когда контексты собраны, можно провести повторный анализ тех же самых текстов и посмотреть, не прослеживается ли статистическая закономерность использования тех же самых контекстов, но без морфологической неопределенности. Однако для этого нужно обработать колоссальные объемы информации, что требует огромных вычислительных мощностей, поясняется в сообщении.

"К счастью, у нас есть достаточный набор средств понизить вычислительную сложность. Если научиться решать такую задачу, этим можно пользоваться и для снятия других типов неоднозначности. Например, для определения склонения дат, денежных сумм и так далее. Для работы с морфологией слов очень помог проект aot.ru Алексея Сокирко и его коллег", – отмечает Пожидаев.




Поделиться в WhatsApp
Соколов Иван
ПОЛНАЯ ВЕРСИЯ
АКТУАЛЬНО
Троллейбусы 5, 7 не будут ходить в Томске 2 дня из-за ремонта ливневок
16:01 20 сентября 2024
Томичи могут прийти на лекцию физика Дмитрия Побединского в ТПУ
17:21 20 сентября 2024
Культурный гид Томска: куда пойти 20 – 26 сентября
09:00 20 сентября 2024
ПОСЛЕДНИЕ НОВОСТИ
Теплая погода сохранится в Томске в субботу
07:16 21 сентября 2024
"Самая черная орхидея в мире" появилась в томском ботсаду
18:15 20 сентября 2024
Ликвидация подтопления Черемошников в Томске продолжается уже месяц
18:13 20 сентября 2024