15 Февраля 2019

“Он сказал, она сказала”: Вопросы рода в технологии машинного перевода на основе нейронных сетей

Технология искусственного интеллекта столкнулась с деликатной проблемой: “гендерные ошибки”. В ноябре 2018 г. в СМИ было опубликовано сообщение о том, что функция автоматической подсказки для Google Mail не будет поддерживать автоматическую вставку местоимений мужского и женского рода во избежание ошибок.

Функция (под названием Smart Compose) не будет предлагать местоимения мужского или женского рода, так как по словам продакт-менеджера Gmail Пола Ламберта “не все ошибки одинаковы, но [гендерные ошибки] – это очень и очень серьезное дело”. Google Translate, работающий главным образом на системе машинного перевода с использованием нейронной сети (NMT), недавно предпринял попытку решения проблемы гендерных ошибок.

 

“Он – доктор, она – медсестра”

6 декабря 2018 г. Google в своем блоге опубликовал  первое сообщение о попытках исключить гендерные ошибки в Google Translate. Через несколько дней, 10 декабря, в блоге Google AI вышло продолжение с более подробной информацией.

Ранее Google Translate предлагал один вариант перевода на запросы, в которых учитывалось гендерное влияние в данных для машинного обучения. В целом, при переводе слов “strong” или “doctor” на другие языки Google Translate склоняется к использованию мужских окончаний, а “beautiful” и “nurse” – к использованию женских.

Чтобы решить этот вопрос, Google модернизировал систему перевода таким образом, чтобы при запросе на перевод единичных слов с английского на французский, итальянский, португальский или испанский выдавались мужские и женские формы слова. Этот же подход применялся и при переводе фраз с турецкого на английский, когда язык-источник является гендерно-нейтральным.

Для обработки более длинных фраз или законченных предложений требуется более сложный процесс. Уровень сложности так высок, что Google пришлось вносить “существенные изменения” в свою систему перевода. Гендерно-нейтральные фразы и предложения идентифицируются с помощью нового метода машинного обучения, тогда как для распределения переводимых слов по родам требуются еще два этапа, в ходе которых к набору данных для обучения добавляются гендерные атрибуты и отфильтровываются отклоненные предлагаемые переводы.

Согласно заявлению Google, новая система машинного перевода способна “обеспечить 99% точность определения мужского и женского рода”.

 

Универсального решения не существует

Ива Ванмассенхове, аспирант Дублинского университета и сотрудник ADAPT Centre, обратила внимание на ряд недостатков используемой Google методики машинного перевода.

“Проблема заключается не в переводе с других языков на английский, а в переводе с английского на другие языки. В разных языках существуют разные способы обозначения рода. Поэтому нужно понимать, что универсального решения не существует”, – сказала Ванмассенхове.

Ванмассенхове занимается исследованиями в области машинного перевода с 2015 г., в том числе изучением гендерной проблемы перевода. “Даже контекстно-зависимые системы нейронного машинного перевода могут испытывать трудности с правильным пониманием контекста, например, при прогнозировании рода, особенно в тех языках, в которых отсутствует явное маркирование рода (например, в английском). Эта проблема остается нерешенной”.

Фраза “I am a nurse” все равно будет переведена в женском роде, а фраза “I am a surgeon” – в мужском.

Хотя в целом система Google справляется с переводом на указанные языки, по мнению Ванмассенхове, из-за ограниченного охвата языковой лексики при переводе на французский и испанский языки фразы “I am a nurse” все равно будет использован женский род, а при переводе “I am a surgeon” – мужской.

“Еще более проблематичным является перевод следующих фраз: “I am beautiful” на испанский язык переводится в мужском роде (“я красивый”). При этом “I am a beautiful surgeon” переводится в женском роде (“я красивая хирург”)”, – отметила Ванмассенхове.

“Преимущество нейронных сетей в распознавании паттернов и ассоциаций оборачивается их недостатком, этот вид ошибок и системных погрешностей с большим трудом поддается распознаванию и устранению”, сказала она.

По мнению Ванмассенхове, сообщение в блоге Google свидетельствует о том, что решение проблемы гендерных ошибок в машинном переводе все еще находится на начальном этапе.

 

Накопление ошибок 

Затрагивая более широкие аспекты влияния гендерных проблем при переводе, Ванмассенхове подчеркнула, что результаты недавнего исследования  “показали, что нейронные модели не только воспроизводят неоднозначные модели социального неравенства, но и усиливают их.  Я могу представить себе ситуации, в которых подобные ошибки могут повлечь негативные последствия для определенных групп людей”.

Она предложила следующий пример: “Предположим, в поисковую систему или алгоритм выбора встроена внутренняя система машинного перевода. Каким образом мы можем сохранить от отбраковки вполне точные варианты перевода или угадывания только потому, что гендерно-нейтральный термин одного языка переводится на другой язык в мужском или женском роде?”

Первоначальное решение Google ограничивается лингвистическим аспектом и учитывает гендерное влияние только в данных для машинного обучения.

“Я считаю, что устранение гендерных ошибок [в данных для машинного обучения] имеет смысл, но ошибки могут проявляться на самых разных уровнях (гендер, раса, возраст, меньшинства), поэтому я даже не могу себе представить, какие практические шаги нужно предпринять для устранения всех возможных ошибок” – сказала Ванмассенхове.

Она вспомнила о трудностях, с которыми ей пришлось столкнуться при решении аналогичных проблем. “Моя дипломная работа была посвящена изучению кластеризации слов в голландском языке. Я помню, как при представлении результатов своих методов кластеризации мне стало стыдно за то, что некоторые кластеры состояли из расистских фраз, оскорбляющих представителей ряда меньшинств в Бельгии и Нидерландах. Поэтому устранение системной ошибки только за счет исключения “гендерных” фраз будет недостаточно”.

В заключение Ванмассенхове отметила, что ошибки, в том числе гендерные, являются “серьезным поводом для беспокойства”, так как в настоящее время отсутствует понимание причин, по которым алгоритм машинного перевода допускает такие ошибки. Часто они остаются незамеченными, так как “нейронные алгоритмы прекрасно справляются с задачей дать нам то, что, как нам кажется, мы хотим получить”.

“Исключение гендерных ошибок – хорошая отправная точка, но для выработки метода решения аналогичных проблем потребуются дополнительные меры”, – сказала она.

Ознакомиться с оригиналом статьи, Вы можете по ссылке – https://slator.com/technology/he-said-she-said-addressing-gender-in-neural-machine-translation/

 

 

“Он сказал, она сказала”: Вопросы рода в технологии машинного перевода на основе нейронных сетей