В Массачусетском технологическом институте разработали алгоритм, который позволяет создать ИИ-переводчика со специализацией на одном из утраченных языков. Это те наречия и диалекты, на которых давно никто не говорит, от которых остались лишь некоторые записи, но почти никаких сведений о синтаксисе, грамматике и словарном запасе. Человеку-лингвисту в такой ситуации не хватает данных для работы, но ИИ способен сгенерировать недостающие фрагменты и прочесть древние надписи.
Авторами разработки выступили профессор Регина Барзилай и аспирант Джаминг Луо, которые в прошлом году опубликовали наработки по дешифровке угаритского языка и линейного письма Б. Они отталкивались от того, что первый является эволюционным развитием иврита, а «предком» второго считают греческий язык. Новый ИИ сможет самостоятельно подбирать языки, которые имеют родственные отношения с тем, что подлежит дешифровке, и изучать его через эту связь.
Историческая лингвистика четко указывает, что все языки развиваются по определенным схемам. Например, из-за близости восприятия на слух звуков «б» и «п» их обязательно будут путать при придумывании новых слов. Но спутать «б» и «к» вряд ли выйдет, хотя «Баал» легко перевоплощается в «Ваал». Зная такие закономерности и имея в качестве основы известный язык, ИИ сможет смоделировать множество вариантов образования одних слов от других. Анализируя эти модели, система выстроит наиболее правдоподобный «дизайн» языка, на котором могли бы говорить люди.
Первые эксперименты с алгоритмом доказали правоту тех ученых, которые утверждали, что иберийский язык не является родственным языку басков. Сейчас идет разработка модуля анализа семантического наполнения языка, чтобы ИИ мог выделять ключевые слова и осуществлять их поиск по контексту. Например, если встречается нечитаемое имя полководца, но указано примерное место и время битвы, ИИ сможет отыскать среди исторических хроник это событие и таким образом узнать, как звали воителя.Источник — MIT