Бразильские физики разработали новый метод автоматического определения смысла полисемантических слов – слов, имеющих несколько значений.

Исследователи разработали инновационную методику, которая определяет значение слова по нескольким узловым словам-определениям, находящимся в том же предложении. Такой метод, как считают ученые, будет просто незаменим для автоматических переводчиков, контент-анализа или информационного поиска.

Во время эксперимента бразильские физики использовали классические литературные произведения. Авторы выбрали десять многозначных слов английского языка, среди которых bear, jam, just, rock или present. Значение этих слов зависит от контекста, и, как правило, у носителей языка при чтении не возникает проблем с определением правильного значения – помогает умение мозга накапливать и анализировать полученную в течение жизни информацию. Однако сложности могут появиться при автоматическом, программном переводе. Автоматический переводчик может учитывать значение идиом, однако смысл многозначного слова ему не всегда понятен. Казусы в переводах случаются нередко, и хорошо, если они становятся лишь поводом для усмешки.

Перед анализом романа Джейн Остин «Гордость и предубеждение» физики создали модель, состоящую из нескольких узлов-слов, которые соединены с другими смежными словами в тексте. Именно смежные слова и являются ключевыми для определения смысла, их присутствие и помогает программе правильно отвечать.

Протестировав оба метода – новый и использующийся сейчас семантический – ученые пришли к выходу, что наилучшего результата удается достичь, сочетая оба метода. То есть, метод бразильских физиков можно называть надстройкой, вспомогательной программой, которые помогает уточнить смысл многозначительных слов. Однако именно эта надстройка делает работу с текстом более комфортной, а переводы с иностранного языка более точными.


Чем точнее автоматические переводчики будет переводить текст, тем реже нам будут нужны бумажные словари

В будущем авторы намерены разработать методы, которые будут определять смысл многозначных слов не только по соседним словам, но и по небольшому «куску» текста, в котором они размещаются. Это должно еще больше повысить точность понимания и перевода слова.