Для какого компьютера изначально создавался базовый транслятор

Обновлено: 21.11.2024

До компьютеров процесс попытки перевода без беглого переводчика включал создание глосс. Это было написание слов между строк текста, который нужно было перевести. Таким образом, глосс может быть подготовлен механически кем-то с надлежащим двуязычным словарем, но без знания языка, на который нужно перевести. При дословном переводе материала человек со знанием предмета может сделать полезный перевод.

Импульс к компьютерному переводу возник после запуска спутника в 1957 году. Существовало широко распространенное мнение, что российские технологии опережают западные. Я был в Массачусетском технологическом институте. в то время, и я помню, как профессор держал в руках монографию на русском языке по какой-то технической теме и говорил, что, по его мнению, русские опережают нас на шесть лет.

Если бы мы хотели наверстать упущенное, логично было бы начать с чтения того, что было доступно на русском языке. Но не многие работающие ученые могли позволить себе бросить то, что они делали, и начать изучать русский язык. Очевидно, что перевод технического материала был трудоемким, и многие из тех переводчиков, которые свободно владели русским языком, не имели интереса и опыта в изучении точных наук и технологий для выполнения перевода. Чудесные машины, называемые компьютерами, казались решением проблемы.

В 1958 году, через год после запуска спутника, Конгресс принял Закон об образовании в области национальной обороны. Это обеспечило финансирование образования и исследований, но также обеспечило техническую научную информационную службу. Перед этой информационной службой была поставлена ​​задача помочь американским научным и инженерным организациям получить доступ к информации со всего мира. В законодательстве конкретно упоминается о необходимости использования новых и усовершенствованных методов перевода, таких как механизированные системы. Такие механизированные системы стали известны как машинный перевод. Этот термин сейчас устарел и заменен компьютерным переводом.

Переход к компьютерному переводу предпринимался задолго до Sputnik. В 1946 году Уоррен Уивер из Фонда Рокфеллера предложил распространить успешное использование компьютеров для взлома кодов во время Второй мировой войны на перевод языков. Эндрю Д. Бут считал, что для такого компьютерного перевода требуется только достаточно большой объем памяти. В июле 1949 года Уивер распространил меморандум на эту тему среди представителей компьютерного сообщества. В результате этого меморандума и финансирования со стороны Фонда Рокфеллера исследования по этой теме были начаты в Массачусетском технологическом институте, Калифорнийском университете в Лос-Анджелесе. и Вашингтонский университет.

Весной 1952 года состоялась конференция по компьютерному переводу. В 1954 году Джорджтаунский университет и IBM сообщили, что успешный эксперимент по переводу с русского на английский язык завершен. Это было для узкого диапазона текста, который включал словарный запас всего из 251 слова и шесть правил синтаксиса. Это был искусственно ограниченный диапазон текста, но его успех побудил советское руководство инициировать программу компьютерного перевода. Работа в области компьютерного перевода в Великобритании началась в 1955 году в Кембриджском университете, а во Франции в Гренобльском университете была создана программа исследования компьютерного перевода. В Японии программа была создана в Университете Кюсю в 1955 году.

К 1960 году некоторые исследователи сомневались в возможности высококачественного компьютерного перевода. Известный исследователь программы в Массачусетском технологическом институте Иегошуа Бар-Хиллел опубликовал статью, в которой заявил, что высококачественный компьютерный перевод невозможен. Он покинул поле.

В 1964 году Академия наук США создала комитет для изучения возможностей компьютерного перевода. После года изучения Комитет опубликовал свой отчет как отчет Консультативного комитета по автоматической языковой обработке (ALPAC). Изучив программы в Америке и Европе и сравнив компьютерный перевод с переводом, выполненным человеком, он пришел к выводу, что компьютерный перевод уступает человеческому не только по качеству, но и по стоимости. Он рекомендовал направить дальнейшие усилия в этой области на ускорение и удешевление человеческого перевода. В результате отчета ALPAC финансирование компьютерного перевода правительством США упало практически до нуля. Исследователи в этой области ушли и начали новую карьеру. Это была трагическая потеря опыта. Исследования в области компьютерного перевода практически прекратились с 1965 по 1975 год.

К счастью, было несколько исследователей, которые не покинули эту область. В 1965 году система русско-английского перевода, разработанная в Джорджтаунском университете, была передана в Центр противовоздушной обороны в Риме, штат Нью-Йорк. Там он использовался для перевода русского научного материала.Его результат требовал постредактирования, как и все компьютерные переводы, но он сэкономил время переводчикам-людям, предоставив им первый черновик. Им не нужно было печатать весь текст.

Один из исследователей Джорджтаунского университета Петер Тома, лингвист венгерского происхождения, разработал систему русско-английского перевода, которую в 1973 году он использовал в качестве основы для частной компании SYSTRAN. Компания продолжила разработку программного обеспечения для перевода с французского, итальянского, испанского и португальского языков на английский и с английского. Позже будет больше информации о SYSTRAN. Другая система LOGOS была разработана для перевода с английского на вьетнамский. Во Франции Бернар Вокуа из Национального центра научных исследований разработал компьютерную программу для перевода с русского на французский.

Система TAUM METEO

В Канаде английский и французский языки являются национальными языками. Это означает, что все правительственные документы должны быть опубликованы как на английском, так и на французском языках. Компьютерный перевод, как правило, не имеет подходящего качества, чтобы его можно было использовать для выполнения этого языкового требования. Однако по всей Канаде есть множество метеостанций, которые передают сводки погоды и краткосрочные прогнозы. Диапазон текста узок, а предложения, как правило, очень просты по структуре. Поэтому правительство Канады создало систему, которая начала действовать в 1978 году, в которой сводки на английском языке с метеостанций отправляются в Монреальский университет, где они обычно автоматически переводятся на французский язык. Система распознает, когда сталкивается с необычным предложением, и представляет его перевод человеку-переводчику для проверки или исправления. Таким образом, достигается высокий уровень успеха, 95 процентов. Система работает 24 часа в сутки, семь дней в неделю. Система называется TAUM METEO от Traduction Automatique de l'Université de Montreal.

В результате успеха TAUM METEO была предпринята попытка создать TAUM AVIATION для автоматического перевода сообщений, касающихся технического обслуживания самолетов. Это было намного сложнее из-за более широкого круга тем и не было признано успешным.

Достижения в лингвистической теории и анализе

В то время совершенно отдельно от области компьютерного перевода велись фундаментальные исследования в области лингвистической теории. Ноам Хомский опубликовал в 1957 году свою революционную работу Синтаксические структуры. Это было реализовано в его Аспектах теории синтаксиса в 1965 году. Хомский имел основу в математической теории языков и автоматов, которая придала его теориям форму, пригодную для использования с компьютерами. Структура фраз предложения является таким плодотворным направлением анализа.

Подход Хомского подчеркивал формальную структуру языкового текста. Другие лингвисты считали, что рассмотрение значения, семантики текста необходимо для процесса перевода. Чарльз Филлмор разработал грамматику падежа для описания отношений между словами в предложении с учетом семантики. Это было опубликовано в 1968 году в журнале Universals in Linguistics theory (под редакцией Э. Баха и Т. Хармса). Терри Виноград из Массачусетского технологического института сконструировал систему, позволяющую вести диалог между человеком и компьютером, если в систему включены знания об обсуждаемом мире. Есть некоторые предложения, которые имеют альтернативные лингвистически допустимые интерпретации. Например, предложение Время летит, как стрела имеет философское значение, но компьютер может также интерпретировать его как утверждение о существах, называемых время летит. Знание того, что предметом обсуждения является философия, а не биология, устраняет неоднозначность предложения.

В Японии дальнейшие исследования в области компьютерного перевода продолжались, но в более ограниченном масштабе. Например, был проект по созданию системы автоматического перевода названий научных статей с английского языка на японский. Для лингвистического анализа было собрано около десяти тысяч наименований. Анализ показал, что в этих названиях использовалось всего 18 различных языковых структур.

Компании, занимающиеся экспортом технической продукции, такой как компьютеры, узнали, что стоимость перевода сопроводительной документации составляет значительную часть маркетинговых расходов. Хотя компьютерный перевод не может устранить потребность в переводчиках-людях, он может сократить время и затраты, ограничив человеческий компонент перевода постредактированием. Переводчики-люди могут ускорить процесс перевода путем предварительного редактирования; то есть путем вынесения суждений о том, какой материал подходит для компьютерного перевода, а какой нет.

Европейское сообщество потребовало перевода официальных документов на все языки государств-членов. Это привело к задержкам в проведении заседаний.В 1976 году Европейское Сообщество начало использовать SYSTRAN для перевода с английского на французский, конечно же, с постредактированием переводчиками-людьми. К 1981 году это было расширено до использования SYSTRAN для немецкого и итальянского языков.

Для многоязычных организаций, таких как Европейское сообщество, важен масштаб. Хорошая система компьютерного перевода включает в себя три этапа. Сначала генерируются возможные фразовые структуры предложения. Во-вторых, знание предметной области используется для выбора наиболее вероятной структуры фразы из числа альтернатив. В-третьих, выбранная структура фразы преобразуется в целевой язык с помощью словаря и синтаксических правил. После выполнения более сложных первых двух этапов становится относительно легко производить переводы на различные языки.

Когда я купил программное обеспечение SYSTRAN, я начал использовать его для перевода своих веб-страниц. Я прекрасно понимал, что, хотя SYSTRAN может быть самым лучшим, это не означает, что он идеален. Поэтому я не стал размещать свой несовершенный перевод на сайте университета из уважения к языковым факультетам университета. К моему удивлению, я часто получал в десять раз больше обращений к испанским переводам, чем к исходным английским веб-страницам. Я предположил, что это произошло из-за нехватки испанских веб-страниц по техническим темам.

Я осознал проблему качества, когда воспользовался программой для перевода материалов с испанского на английский. Результаты были на ужасном английском языке, но я смог, приложив немного усилий, отредактировать их на подходящем английском языке. С компьютерным переводом я всегда знал, о чем идет речь, тогда как только с оригиналом это было неправдой.

Компьютерные переводы, даже самые лучшие, часто оскорбляют тех, кто свободно владеет целевыми языками. На протяжении многих лет я рассказывал своим студентам о переводах, и некоторые иностранные студенты смотрели на них. Их замечания часто были весьма откровенны. Один русский студент сказал: «Знаете, ваша программа перевода на русский язык просто не работает!» Польский студент сказал о польских переводах: «Они настолько плохи, что почти бесполезны». Я понимаю, что славянские языки трудны для компьютерных переводов. Я обнаружил, что переводы на другие европейские языки часто появлялись в списке первых десяти поисковых запросов Google и Bing по своим темам.

(Продолжение следует.)

Для более поздней истории компьютерного перевода см. Компьютерный перевод.

Даже с появлением гигагерцовых процессоров и гигабайтов памяти машины по-прежнему терпят неудачу, когда пытаются переводить языки. Последние программы, например, дают понятные результаты, но только в удобном диапазоне использования для обычной электронной почты и деловых веб-страниц.

Отчасти причина заключается не только в том, что многие слова в каждом языке имеют несколько значений, но и в том, что фразы могут иметь как буквальное, так и идиоматическое значение, что делает переводы не носителями языка деликатным упражнением, позволяющим избежать смущения и, что еще хуже, путаницы. Добавьте к этому значительные проблемы, связанные с индивидуальным стилем и контекстом, — не говоря уже о впечатляющем диапазоне значений, которые люди могут вкладывать в любое отдельное слово, от любви до сарказма и юмора, — и вы легко поймете, почему даже самые совершенные машины до сих пор с трудом справляются с этой задачей. воспроизвести мастерство опытного переводчика-человека.

Ранние системы перевода

В 1931 году переводчик IBM-Filene-Finlay был постоянно установлен в Лиге Наций в Женеве. Там некоторые выступления были предварительно переведены и прочитаны синхронно, а другие сначала были представлены на родном языке, а переводчики делали записи. Затем один переводчик произносил речь на своем языке, а остальные одновременно читали речь на своих языках. Система была изменена во время Нюрнбергского процесса над военными преступниками в 1946 году для настоящего синхронного перевода: выступающие должны были говорить медленно, позволяя всем переводчикам говорить вместе с ними.

Печать – перевод по Брайлю

В 1946 году IBM начала производство Banks Pocket Braille Writer, карманного принтера Брайля; который был подарен ветеранам и продан населению по себестоимости. В 1964 году компания представила первую автоматизированную систему перевода Брайля в Американской типографии для слепых (APH), которая переводила тексты на шрифт Брайля.В 1968 году электрическая пишущая машинка IBM Braille Model D, которая позволяла авторам, не использующим шрифт Брайля, создавать документы Брайля, стала первой пишущей машиной Брайля, доступной для индивидуального использования. Для использования с пишущей машинкой было доступно шесть клавиатур на разных языках.

Перевод с русского на английский

В 1952 году компания IBM совместно с учеными-лингвистами Джорджтаунского университета разработала программное обеспечение для перевода на компьютеры. 7 января 1954 года они продемонстрировали экспериментальную программу, которая позволяла компьютеру IBM 701 переводить с русского на английский язык. В 1959 году устройство для перевода Mark 1, разработанное для ВВС США, произвело свой первый автоматический перевод с русского на английский язык. Mark 1 был продемонстрирован публике в павильоне IBM на Всемирной выставке в Нью-Йорке в 1964 году.

Мгновенный перевод

Сегодня программное обеспечение IBM MASTOR (многоязычный автоматический преобразователь речи в речь) обеспечивает двунаправленный перевод для нескольких разных языков. Он работает так же, как человек-переводчик — вы говорите, и ваш разговор мгновенно переводится. В 2007 году IBM подарила правительству США 1000 устройств для перевода и 10 000 копий программного обеспечения MASTOR. Как отмечает адмирал Эдмунд Джамбастиани, заместитель председателя Объединенного комитета начальников штабов США, «технология такого типа может помочь улучшить связь персонала США и коалиции с иракскими гражданами и организациями по оказанию помощи, служащими в Ираке».

IBM имеет богатую историю работы над устройствами машинного перевода, начиная с 1920-х годов, и в настоящее время совершенствует то, что может стать прорывным решением для переводчика следующего поколения.

Основатель IBM Томас Уотсон-старший не понаслышке видел проблему языкового барьера в начале своей работы в Международной торговой палате. В 1927 году под его руководством компания разработала свою первую систему перевода на основе синхронного переводчика Filene-Finlay. По сути, это была аудиосистема из наушников и циферблатов, которая позволяла пользователям слушать выступления профессиональных переводчиков в режиме реального времени.

Установленная и впервые использованная в Лиге Наций (предшественнике Организации Объединенных Наций) в 1931 году, система позволяла слушателям звонить на свой родной язык и слушать предварительно переведенные речи, зачитываемые одновременно с заседаниями. Позднее Filene-Finlay Translator был модифицирован и использовался для синхронного перевода на Нюрнбергском процессе над военными преступниками после Второй мировой войны, а также в Организации Объединенных Наций.

К началу 1950-х годов IBM разработала англо-русский переводчик с использованием машины электронной обработки данных IBM 701, первого коммерческого научного компьютера компании. Эта программа включала в себя логические алгоритмы, которые принимали грамматические и семантические «решения», имитирующие работу двуязычного человека. Эта работа продвинулась вперед в 1960-х годах, когда IBM разработала машину и программы для перевода китайского языка. Исследователи IBM использовали анализ структуры фраз, чтобы сопоставить значение идеографических китайских иероглифов с другими языками.

Примерно в то же время IBM создала Automatic Language Translator, специальный компьютер для военных, который использовал высокоскоростной оптический диск со 170 000 слов и фраз для перевода документов с русского на английский.

IBM также приписывают разработку первого переводчика Брайля. В сотрудничестве с Американской типографией для слепых в Луисвилле, штат Кентукки, компания представила систему перевода Брайля в начале 1960-х годов. Он был основан на IBM 704, первом серийном мейнфрейме компании, и поступил на вооружение Американской типографии для слепых как система APH-IBM.

«Системы преобразования речи в речь могут революционизировать способы общения людей во всем мире, которые не говорят на одном языке. Говорят на тысячах разных языков; представьте, что вы можете мгновенно общаться с кем угодно с помощью универсального переводчика. Преодоление таких коммуникативных барьеров привело бы к огромному росту культурного понимания. Позволить людям принять и жить с различиями каждого было бы очень полезным будущим».

«Ибо именно через печать языка человек всегда стремился более широко общаться со своими современниками, более полно общаться с потомством. Многоязычие (так в оригинале) отчасти помешало этому поиску.Электронный языковой перевод — это еще один шаг вперед в стремлении человека достучаться до своих соседей. … Конкретно, если электронный языковой перевод сделает возможным со временем перевод на языки менее развитых регионов мира основных справочников и научной литературы, существующих на западных языках, это само по себе будет значительным. Еще одна практическая цель — это ценность для исследований, заключающаяся в том, что текущая литература в научных областях легко и быстро доступна в различных идиомах».

«Переводчик 701», пресс-релиз IBM

«Достижения, достигнутые IBM в исследованиях и разработках систем преобразования речи в речь, могут революционизировать способы общения людей во всем мире друг с другом. Использование военными системы MASTOR является очень захватывающим примером этой возможности, в котором мы видим потенциал для повышения безопасности военнослужащих США и спасения жизней».

«Сделано в IBM Labs: технология перевода речи преодолевает языковой барьер для вооруженных сил США в Ираке», пресс-релиз IBM

12 октября 2006 г.

Недавно Исследовательский центр Томаса Дж. Уотсона совместно с Министерством обороны США в Вашингтоне, округ Колумбия, изобрел MASTOR, или многоязычный автоматический переводчик речи. Система, состоящая из программного обеспечения и устройства двустороннего автоматического перевода, может распознавать и переводить словарь из 50 000 английских и 100 000 иракско-арабских слов. Осенью 2007 года IBM подарила систему американским военным, чтобы помочь силам коалиции общаться с иракским народом. IBM Research также создала технологию, которая переводит арабские теле- и радиопередачи в английский текст. Система, получившая название TALES (Translingual Automatic Language Exploitation System), распознает аудиозаписи на арабском языке и переводит их в текст на английском языке, создавая машинные субтитры, которые позволяют англоговорящему слушателю понять суть арабского содержания.

В 2006 году IBM провела инновационный джем среди всех своих сотрудников, чтобы выявить перспективные идеи. Одним из ключевых вопросов, который всплыл, была проблема языкового барьера, присущая компании, сотрудники которой находятся в 170 странах мира. IBM профинансировала общекорпоративный проект с привлечением исследовательских лабораторий, разработчиков программного обеспечения и консультационных услуг для разработки «Службы перевода в реальном времени» в качестве безопасной, корпоративной системы языкового перевода, которую можно использовать для создания более интеллектуальных рабочих мест для сотрудников IBM. и в конечном итоге их будут использовать клиенты IBM, бизнес-партнеры IBM и, возможно, весь мир.

Усилия, которые в настоящее время возглавляет группа многоязычной обработки естественного языка IBM во главе с Салимом Рукосом, главным техническим директором по исследованиям в области перевода, привели к тому, что компания называет системой n.Fluent.

n.Fluent, который произносится как "en-flü-ənt", обучается по мере своего развития на основе данных, полученных от шаблонов использования, предоставленных многоязычными сотрудниками IBM. По-прежнему исключительно для внутреннего использования, добровольцы в этом краудсорсинговом проекте IBM помогли разработать n.Fluent до такой степени, что он может мгновенно переводить с английского на 11 других языков. В настоящее время сотрудники используют его как безопасное средство перевода электронных документов, веб-страниц и даже мгновенных сообщений в режиме реального времени.

На данный момент n.Fluent, дебютировавший внутри IBM в 2008 году, может использоваться для перевода между английским и китайским (как упрощенным, так и традиционным), корейским, японским, французским, итальянским, русским, немецким, испанским, португальский и арабский. Помимо внутреннего использования сотрудниками IBM, n.Fluent также используется для предоставления веб-поддержки клиентам IBM и получает внешнюю лицензию для облачных служб перевода.

Команда n.Fluent приняла подход, основанный на использовании алгоритмов, разработанных на основе большого количества параллельных предложений на родственных языках, таких как английский и испанский, французский и английский. Но поскольку большая часть контента в n.Fluent написана на английском языке, команда обратилась к краудсорсингу среди сотрудников IBM, чтобы получить и постоянно улучшать точность и качество перевода программного обеспечения.

«n.Fluent, — говорит Дэвид Лубенски, один из исследователей IBM, который начал проект, — это своего рода тематическое исследование Гарвардской школы бизнеса о том, как толпы внутри компании помогают вам разрабатывать лучший продукт. Наша цель — воспроизвести это в различных доменах».

Команда
Опыт, технические навыки, готовность идти на риск и общая самоотверженность сотрудников IBM привели к бесчисленному количеству революционных инноваций на протяжении многих лет. Познакомьтесь с членами команды, которые внесли свой вклад в эту икону прогресса.

В начале 1950-х машинный перевод стал реальностью. С тех пор машинный перевод значительно продвинулся вперед.Однако он все еще не может конкурировать с мастерством и изяществом, которые человеческий разум может применить к переводу документа.

Рождение машинного перевода

В 1949 году Уоррен Уивер из Фонда Рокфеллера составил ряд предложений о том, как воплотить идею машинного перевода в жизнь. Он объединил теорию информации, уроки взлома кодов, извлеченные во время Второй мировой войны, и принципы естественного языка, чтобы проложить путь машинам для перевода одного языка на другой.

Одним из первых успешных проектов машинного перевода стал эксперимент Джорджтаун-IBM. В 1954 году IBM продемонстрировала в своем нью-йоркском офисе машину, которая могла переводить русские предложения на английский язык. Хотя машина могла перевести только 250 слов (в 49 предложений), мир был в восторге от этой идеи. Интерес к машинному переводу во всем мире привел к вливанию денег в эту новую область компьютерных наук. Исследователи эксперимента в Джорджтауне, полные уверенности в своем первоначальном успехе, предсказали, что машинный перевод будет освоен в течение трех-пяти лет.

Камни преткновения

Несмотря на раннюю уверенность, машинный перевод оказался намного сложнее, чем предполагалось исследователями в то время. Это подтверждается тем фактом, что спустя более 60 лет он до сих пор по-настоящему не освоен.

Для усовершенствования технологии эксперимента в Джорджтауне использовались двуязычные словари, генеративная лингвистика и трансформационная грамматика. Тем не менее, семантическая двусмысленность была быстро идентифицирована как проблема. Если бы слово могло означать несколько вещей, как бы компьютер, переводящий его, узнал, какое значение имелось в исходном языке, и, следовательно, в какое слово его перевести?

Хотя ранние машинные переводы были достаточно качественными, чтобы обеспечить базовое понимание исходного документа, они были далеки от совершенства. Гонка (в основном между США и Советским Союзом) по завоеванию машинного перевода заняла гораздо больше времени, чем ожидалось. В 1964 году Консультативный комитет США по автоматической обработке языков (ALPAC) нанес удар по усилиям США, сообщив, что машинный перевод, по сути, не стоит ни хлопот, ни затрат. Вместо этого рекомендуется сосредоточить ресурсы на автоматизированных инструментах (таких как словари) для поддержки переводчиков-людей в их работе.

Перевод по всему миру

Несмотря на снижение интереса США к машинному переводу (за исключением одного или двух известных частных предприятий), другие страны продолжали свои усилия. К 1970-м годам в Канаде была разработана система METEO для перевода сводок погоды с английского на французский язык. Система переводила около 80 000 слов в день и имела достаточно приличное качество, чтобы использоваться с 1977 по 2001 год, прежде чем была обновлена ​​новая система.

В других областях глобализация выдвинула потребность в машинном переводе как никогда прежде. Франция, Германия, Советский Союз и Великобритания усердно работали над тем, чтобы взломать машинный перевод. Если бы искусство перевода с помощью компьютеров можно было бы усовершенствовать, экономия средств и времени на перевод документов была бы невероятной. Это знание побудило многие правительства и частные компании продолжить свои усилия, но до сих пор идеальная система машинного перевода ускользала от них.

В частности, к 1980-м и началу 1990-х годов Япония стремилась занять лидирующие позиции, а к концу 1990 года растущая доступность (и мощность) компьютеров означала, что затраты на машинный перевод значительно снизились. .

В 2000-е годы некоторые из крупнейших мировых технологических компаний с еще большим рвением сосредоточились на машинном переводе. Помимо японских усилий, Google и Microsoft в США вложили значительные средства в статистический машинный перевод. Эти усилия позже включали объединение статистических систем с синтаксическими и морфологическими знаниями в поисках лучших результатов.

Нейронные сети и машинный перевод

В последнее время крупные игроки (Google, Facebook и им подобные) увлеклись использованием нейронных сетей и глубокого обучения для совершенствования машинного перевода. Нейронная сеть в общих чертах смоделирована по принципу работы человеческого мозга, при этом искусственные нейроны посылают сигналы другим нейронам при активации. Распознавание речи и компьютерное зрение сделали значительный шаг вперед благодаря нейронным сетям. Машинный перевод также принес пользу.

В 2016 году компания Google сообщила, что сделала значительный шаг вперед в области машинного перевода. Google Translate уже работал десять лет, но переход на нейронную сеть ознаменовал собой шаг вперед от часто неуклюжих переводов к гораздо более впечатляющим результатам. Это произошло благодаря системе нейронного машинного перевода Google (NMT).

Короче говоря, NMT от Google переводит целые предложения, а не отдельные слова или небольшие группы слов.Он работает с использованием кодировщика для разбивки предложений. Затем система представляет значение составных частей этих предложений в виде вектора. Как лаконично поясняет The Register:

"Система интерпретирует предложение целиком, а декодер начинает переводить каждое слово, просматривая взвешенное распределение по закодированным векторам и сопоставляя их с наиболее релевантными словами на целевом языке".

Интересно, что система Google NMT сделала еще один шаг в обучении, начав переводить между языковыми парами, которым ее не учили. Программисты научили систему переводить между английским и португальским, а также английским и испанским языками. Затем сама система стала способна производить переводы приемлемого качества между португальским и испанским языками, даже если ее программисты не вводили эту языковую пару.

Исследователи из Google считают, что их NMT стал первым примером настоящего трансферного обучения в машинном переводе. Это был значительный шаг вперед.

В октябре 2020 года Facebook объявил об еще одной важной вехе: «первой модели многоязычного машинного перевода (MMT), которая может переводить между любой парой из 100 языков, не полагаясь на данные на английском языке». Этот подход обещает дальнейшее повышение качества машинного перевода, поскольку при переводе меньше вероятность того, что значение потеряется.

Машинный перевод сегодня

Эволюция машинного перевода, несомненно, беспокоила многих переводчиков-людей. Так было с тех пор, как в 1954 году в Джорджтауне широко сообщалось об успехе эксперимента в Джорджтауне. В то время многие переводчики опасались, что через несколько лет они останутся без работы. Многие переводчики сегодня думают так же.

Несмотря на эти опасения, машинный перевод еще недостаточно совершенен, чтобы работать лучше, чем переводчики-люди. Это было проверено в феврале 2017 года во время грандиозного конкурса, организованного Киберуниверситетом Седжон и Международной ассоциацией устного и письменного перевода Кореи. В нем приняли участие четыре человека и три машинных переводчика (Google Translate, программа перевода Systran и приложение Naver Papago).

Три (человека) переводчика оценивали результаты на основе точности, языкового выражения, логики и организации. В то время как машины перевели четыре тестовых документа быстрее, люди выиграли безоговорочно, набрав 49 из 60 возможных баллов. Наивысший машинный балл, полученный Google Translate, составил 28. Особое внимание было уделено тонкости выражения и эмоций, поскольку они находятся за пределами понимания машин.

Преимущества машинного перевода

У машинного перевода, безусловно, есть преимущества. Машина может перевести за считанные минуты то, что у человека заняло бы час или больше. Помимо экономии времени, это может значительно сократить расходы.

Машинный перевод, безусловно, имеет место быть. Для компаний с длинными повторяющимися документами, предназначенными только для внутреннего потребления, во многих случаях будет достаточно машинного перевода. То же самое относится и к тем, кто хочет получить базовое понимание документов, написанных на другом языке. Машинный перевод можно использовать для перевода таких документов в стандарт, который удовлетворит обычного читателя.

Недостатки машинного перевода

Вышеприведенное ключевое слово – "достаточно". Хотя многие компании, впервые занимающиеся переводом, начинают с использования компьютера для удовлетворения своих потребностей, они быстро обнаруживают, что качества перевода достаточно только для базового понимания содержания. Сгенерированный машиной перевод не соответствует качеству, необходимому для профессионального делового документа.

Именно здесь люди сохраняют преимущество над машинами: люди производят переводы более высокого качества, чем машины. Киберуниверситет Седжон подтвердил это в 2017 году. Это верно и сегодня в реальном мире, несмотря на заголовки, утверждающие, что «человеческий паритет» достигнут или даже превышен.

Например, ранее в этом году исследователи из Амстердамского университета опубликовали статью под названием "Необоснованная изменчивость моделей нейронного машинного перевода". Как оказалось, даже небольшие изменения в исходном предложении (например, изменение числа или пола подлежащего) могут привести к совершенно другому результату. Системы явно не демонстрируют хорошего понимания лежащих в основе частей предложения — если бы они это сделали, они не привели бы к наблюдаемым несоответствиям.

Существующие стандарты оценки результатов машинного перевода и сравнения их с результатами переводчиков-людей нуждаются в пересмотре. Например, оценки обычно проводятся по предложениям, а это означает, что оценщики-люди не имеют полного контекста, когда они оценивают переводы.Это означает, что некоторые ошибки, упущения и несоответствия в результатах машинного перевода не учитываются должным образом, когда исследователи рекламируют исследования, которые «доказывают», что машинный перевод не уступает человеческому переводу.

Ошибки особенно вероятны в менее часто переводимых языковых парах и для языков, которые сильно отличаются от английского, таких как арабский, китайский и японский.

Кроме того, ошибки машинного перевода могут нанести репутационный и политический ущерб. Среди наиболее частых ошибок Google Translation на данный момент — обращение к Российской Федерации как к «Мордору» на украинском языке.

Будущее машинного перевода

Учитывая недавний скачок в технологии машинного перевода, можно легко предсказать, что всего через несколько лет машины смогут переводить так же компетентно, как люди. Однако тот же прогноз был сделан еще в 1950-х годах и до сих пор не оправдался.

История дала нам повод сомневаться в способности машин переводить, несмотря на невероятную мощь современных вычислительных систем. На данный момент это может быть полезным инструментом, но его необходимо сочетать с тщательным постредактированием лингвистом в рамках надежного процесса контроля качества, как мы это делаем в нашем решении машинного перевода.

Машинный перевод прошел долгий путь с 50-х годов, но ему еще предстоит пройти долгий путь, прежде чем он сможет достичь лингвистической тонкости, которую может передать человеческий мозг. Пока этот момент не наступит, наша выдающаяся команда опытных лингвистов готова предоставить перевод ваших документов на уровне качества, с которым не может сравниться ни одна машина.

Машинный перевод больше не является фантастикой. Компьютерные системы резко улучшаются в понимании сложной природы языка. Но достаточно ли сложны эти системы, чтобы противостоять людям-переводчикам?

Машинный перевод разрабатывался десятилетиями, и с каждым днем ​​он становится не столько надеждой научной фантастики, сколько реальностью. Понимание языковых нюансов трудно уловить даже людям, и теперь очевидно, что это та самая причина, по которой машинный перевод до сих пор не смог развиться.

РАННЯЯ ИСТОРИЯ

Разработчики мечтали о компьютерах, которые быстро понимают и переводят язык, с тех пор как впервые был реализован потенциал такого устройства. Одним из наиболее важных результатов создания и совершенствования технологии перевода является то, что она открывает мир компьютеров не только математическими и логическими функциями, но и более сложными отношениями между словами и их значением.

Ранняя история машинного перевода началась примерно в 1950-х годах. Уоррен Уивер из Фонда Рокфеллера начал совмещать машинный взлом кода и обработку естественного языка, что стало пионером концепции компьютерного перевода еще в 1949 году. Эти предложения можно найти в его «Меморандуме о переводе».

Удивительно, но вскоре проекты по компьютерному переводу начали активно развиваться. В 1954 году исследовательская группа, заложившая основу эксперимента Джорджтаун-IBM, продемонстрировала машину, которая могла перевести 250 слов с русского на английский.

ТЕКУЩИЕ РАЗРАБОТКИ

Люди думали, что машинный перевод быстро решает множество проблем, связанных с коммуникативными барьерами, и многие переводчики начали опасаться за свою работу. Однако продвижение остановилось, не успев начаться, из-за тонких языковых нюансов, которые компьютеры просто не могли уловить.

Независимо от языка слова часто имеют несколько значений или коннотаций. Человеческий мозг просто лучше, чем компьютер, оснащен для доступа к сложной системе значений и синтаксиса. К 1964 году Консультативный комитет США по автоматической обработке языков (ALPAC) сообщил, что машинный перевод не стоит усилий и ресурсов, затраченных на его разработку.

1970-1990

Не во всех странах взгляды совпадают с мнением ALPAC. В 1970-х годах в Канаде была разработана система METEO, которая переводила сводки погоды с английского на французский язык. Это была простая программа, которая могла переводить 80 000 слов в день. Программа была достаточно успешной, чтобы ее можно было использовать в 2000-х годах, прежде чем потребовалось обновление системы.

Французский текстильный институт использовал машинный перевод для преобразования рефератов с французского на английский, немецкий и испанский языки. Примерно в то же время Xerox использовала собственную систему для перевода технических руководств. И то, и другое эффективно использовалось еще в 1970-х годах, но машинный перевод по-прежнему был поверхностным при переводе технических документов.

К 1980-м годам люди погрузились в разработку технологии памяти переводов, что стало началом преодоления проблем, связанных с тонкой вербальной коммуникацией. Но системы продолжали сталкиваться с теми же ловушками при попытке преобразовать текст на новый язык без потери смысла.

2000

Благодаря созданию Интернета и всем возможностям, которые он предоставил, Франц-Йозеф Ох выиграл конкурс на скорость машинного перевода в 2003 году и стал главой отдела переводов в Google. К 2012 году компания Google объявила, что ее собственный Google Translate переводит столько текста, что за день можно заполнить миллион книг.

Япония также ведет революцию в машинном переводе, создавая преобразование речи в речь для мобильных телефонов, которые работают на английском, японском и китайском языках. Это результат инвестирования времени и денег в разработку компьютерных систем, которые моделируют нейронную сеть, а не функции, основанные на памяти.

Таким образом, в 2016 году компания Google проинформировала общественность о том, что внедрение нейросетевого подхода улучшило ясность Google Переводчика, устранив большую часть его неуклюжести. Они назвали это системой нейронного машинного перевода Google (NMT). Система начала переводить языковые пары, которым ее не учили. Программисты научили систему английскому и португальскому, а также английскому и испанскому языкам. Затем система начала переводить португальский и испанский языки, хотя эта пара не была назначена.

БУДУЩИЕ НАМЕРЕНИЯ

Когда-то считалось, что наконец настало время, когда машинный перевод сможет превзойти человеческий аналог. В 2017 году Киберуниверситет Седжон и Корейская международная ассоциация устного и письменного перевода организовали соревнование между четырьмя людьми и ведущими системами машинного перевода. Машины, несомненно, переводили текст быстрее, чем люди, но они все равно не могли конкурировать с человеческим разумом в нюансах и точности перевода.

Люди мечтали о быстроте и простоте, которые обещают точный и надежный машинный перевод, еще до 1950-х годов. Причудливой идее общего способа общения по всему миру еще предстоит пройти долгий путь. Создание компьютера, который будет мыслить как человек, откроет миру возможности, выходящие за рамки простого общения. Технологии шагнули далеко вперед за пределы использования машин для обработки чисел — они с каждым годом делают мир все ближе и ближе друг к другу. Но пока вам лучше использовать переводчиков для текстов, которые имеют значение.

Машинный перевод (МП) пользуется плохой репутацией, потому что его считают низкокачественным (и результаты иногда бывают забавными), но вы будете удивлены, насколько далеко продвинулась эта технология с момента ее появления в 1949 году. нашел исчерпывающую хронологию истории MT от TAUS, и это потрясающее чтение. Но если у вас нет времени читать о 63-летнем развитии машинного перевода, вот краткий обзор:

1949–1965 годы: начинаются исследования в области машинного перевода

Новая область «машинный перевод» появляется в «Меморандуме о переводе» Уоррена Уивера (1949 г.), а первый исследователь в этой области Иегоша Бар-Хиллел начинает свои исследования в Массачусетском технологическом институте (1951 г.). Группа исследователей машинного перевода в Джорджтауне следует (1951 г.) публичной демонстрацией своей системы в 1954 году. МТ рекламируется как решение, которое поможет США следить за русскими. Это также одно из первых нечисловых приложений для компьютеров. Исследовательские программы по МТ появляются в Японии и России (1955 г.), а первая конференция по МТ проводится в Лондоне (1956 г.). Исследователи продолжают присоединяться к этой области, поскольку в США создается Ассоциация машинного перевода и компьютерной лингвистики (1962 г.), а Национальная академия наук формирует комитет (ALPAC) для изучения машинного перевода (1964 г.).

1966–95: МТ идет на работу

В отчете ALPAC говорится, что машинный перевод не может конкурировать с качеством человеческого перевода, и предлагается прекратить финансирование исследований машинного перевода. Но исследования продолжаются. МТ также принимает участие в работе: Французский институт текстиля переводит рефераты с французского, английского, немецкого и испанского языков и на них (1970 г.); Университет Бригама Янга начинает проект по переводу мормонских текстов с помощью автоматического перевода (1971 г.); Xerox использует Systran для перевода технических руководств (1978 г.). Запускаются различные компании машинного перевода, в том числе Trados (1984 г.), которая первой разработала и продала технологию памяти переводов (1989 г.). Первая коммерческая система машинного перевода для русского/английского/немецкого-украинского языков разработана в Харьковском государственном университете (1991 г.).

1996–2012 годы: МТ выходит в Интернет

MT в Интернете начинается с Systran, предлагающей бесплатный перевод небольших текстов (1996 г.), а затем AltaVista Babelfish, которая получает 500 000 запросов в день (1997 г.). Франц-Йозеф Ох (будущий глава отдела переводов Google) выигрывает конкурс DARPA на скорость машинного перевода (2003 г.).Другие инновации за это время включают MOSES, статистический механизм машинного перевода с открытым исходным кодом (2007 г.), службу перевода текста/SMS для мобильных телефонов в Японии (2008 г.) и мобильный телефон со встроенной функцией преобразования речи в речь для английского языка. , японский и китайский (2009 г.). Недавно Google объявил, что Google Translate переводит примерно столько текста, что за один день (2012 г.) можно заполнить 1 миллион книг.

Вау! Это очень много, и мы не охватили 90% истории машинного перевода! Все негативные разговоры о МТ, кажется, забывают, что это невероятная передовая технология. Его качество ниже, чем у человеческого перевода, но это не значит, что он не имеет полезного практического применения, например, для перевода старых пресс-релизов пятилетней давности.

2013–настоящее время (Остин Рингер, менеджер по продукту)

В последние годы в технологии машинного перевода произошел значительный прогресс, и исследования Google в области нейронного машинного перевода указывают на оптимистичное будущее отрасли. Стало ясно, что машинный перевод отходит от высокоскоростного и неприемлемого качества для переводческих организаций, предлагая разумную альтернативу для перевода малозаметного контента. Всего за несколько лет появилось множество поставщиков машинного перевода, обещающих приемлемое качество за небольшую часть стоимости профессиональных лингвистов. Гонка за конкурентное преимущество в качестве идет полным ходом, и поставщики машинного перевода начинают применять дифференцированные подходы к «повышению» качества, которое способны обеспечить их системы. Сегодня провайдеры обычно делятся на три категории:

Гибридные решения Human-MT (например, Unbabel) Машинный перевод, адаптированный к предметной области (например, Lilt, IBM) Нейронный машинный перевод (например, Google, Microsoft, SDL, Yandex) Мы в Smartling уверены, что машинный перевод выполняется быстро. становится важным компонентом эффективной стратегии глобализации. Несмотря на то, что производство контента по низкой цене и как можно быстрее продолжает оказывать негативное влияние на качество, машинный перевод предлагает многим переводческим организациям преимущество в достижении священного Грааля результата перевода — баланса стоимости, качества и времени выхода на рынок. .

Читайте также: