RIATOMSK.RU
+4°C
16 апреля 2024  |  
19:24
  |  
+4°C
18:12  26 октября 2020 г.

Ученый ТГУ озадачил искусственный интеллект словами-омографами

Соколов Иван
© РИА Томск. Олег АсратянУченый ТГУ озадачил искусственный интеллект словами-омографами

ТОМСК, 26 окт – РИА Томск. Доцент кафедры теоретических основ информатики института прикладной математики и компьютерных наук Томского госуниверситета (ИПМКНТГУ) Михаил Пожидаев занимается созданием библиотеки для обработки слов-омографов в русском языке; библиотека необходима для автоматического создания аудиокниг, сообщает в понедельник пресс-служба вуза.

Пресс-служба напоминает, что слова-омографы – это слова, которые совпадают в написании, но различаются в произношении. Например, существительное "пОтом" ("обливаясь пОтом") и наречие "потОм" ("как выяснилось потОм"). При переводе текстов в аудиоформат искусственный интеллект не способен автоматически найти правильное звучание слова, что затрудняет доступ к текстам, в том числе техническим, для слабовидящих людей.

"Создание библиотеки для обработки омографов (Михаилом Пожидаевым) напрямую связано с компьютерной лингвистикой. Сейчас во время учебного процесса школьники и студенты с нарушениями зрения часто сталкиваются с рядом неточностей в автоматической обработке текстов на русском языке. Те же проблемы встречают и прочие слушатели аудиокниг", – поясняется в сообщении актуальность проблемы.

По словам Пожидаева, которого цитирует пресс-служба, в настоящий момент даже синтезаторы речи именитых производителей продолжают ошибаться с выбором ударения, не говоря уже о синтезаторах, находящихся в свободном доступе. Решением проблемы занимаются специалисты  в области компьютерной лингвистики. Ученый опирается на собственный опыт погружения в проблему – вследствие болезни ученый полностью лишился зрения.

В русском языке почти 30 тысяч слов-омографов. Нюанс библиотеки для их обработки в том, что когда контексты собраны, можно провести повторный анализ тех же самых текстов и посмотреть, не прослеживается ли статистическая закономерность использования тех же самых контекстов, но без морфологической неопределенности. Однако для этого нужно обработать колоссальные объемы информации, что требует огромных вычислительных мощностей, поясняется в сообщении.

"К счастью, у нас есть достаточный набор средств понизить вычислительную сложность. Если научиться решать такую задачу, этим можно пользоваться и для снятия других типов неоднозначности. Например, для определения склонения дат, денежных сумм и так далее. Для работы с морфологией слов очень помог проект aot.ru Алексея Сокирко и его коллег", – отмечает Пожидаев.

Наверх
Сайт РИА Томск /riatomsk.ru/ содержит информацию, подготовленную Региональным информационным агентством "Томск" (РИА Томск) с территорией распространения – Российская Федерация, зарубежные страны.
РИА Томск зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) 06 ноября 2019 г. Свидетельство о регистрации ИА № ФС 77-77122.
Настоящий ресурс может содержать материалы 18+. Материалы, размещенные на правах рекламы, выходят под знаком "#" и/или "реклама". РИА Томск не несет ответственности за партнерские материалы.
Рейтинг@Mail.ru
Яндекс.Метрика
ЧИТАЙТЕ
РИА в VK
Главные новости дня в нашей рассылке