Какой тип компьютерного перевода основан на сравнении больших объемов языковых пар текстов

Обновлено: 21.11.2024

Системы машинного перевода – это приложения или онлайн-сервисы, использующие технологии машинного обучения для перевода больших объемов текста с любого из поддерживаемых языков и на него. Служба переводит «исходный» текст с одного языка на другой «целевой».

Хотя концепции, лежащие в основе технологии машинного перевода, и интерфейсы для ее использования относительно просты, наука и технологии, лежащие в ее основе, чрезвычайно сложны и объединяют несколько передовых технологий, в частности, глубокое обучение (искусственный интеллект), большие данные , лингвистика, облачные вычисления и веб-API.

С начала 2010-х годов новая технология искусственного интеллекта, глубокие нейронные сети (глубокое обучение), позволила технологии распознавания речи достичь такого уровня качества, который позволил команде Microsoft Translator совместить распознавание речи с переводом основного текста. технологии для запуска новой технологии перевода речи.

Исторически основным методом машинного обучения, используемым в отрасли, был статистический машинный перевод (SMT). SMT использует расширенный статистический анализ для оценки наилучшего возможного перевода слова с учетом контекста нескольких слов. SMT используется с середины 2000-х годов всеми основными поставщиками переводческих услуг, включая Microsoft.

Появление нейронного машинного перевода (NMT) привело к радикальным изменениям в технологии перевода, в результате чего качество перевода стало намного выше. Эта технология перевода начала развертываться для пользователей и разработчиков во второй половине 2016 года.

Технологии перевода SMT и NMT имеют два общих элемента:

  1. Для обучения систем в обоих случаях требуется большое количество контента, переведенного человеком (до миллионов переведенных предложений).
  2. Не действуют как двуязычные словари, переводя слова на основе списка возможных переводов, а переводят на основе контекста слова, которое используется в предложении.

Что такое переводчик?

Службы Translator и Speech, входящие в набор API-интерфейсов Cognitive Services, представляют собой службы машинного перевода от Microsoft.

Перевод текста

Переводчик используется группами Майкрософт с 2007 года и доступен в качестве API для клиентов с 2011 года. Переводчик широко используется в корпорации Майкрософт. Он включен в команды по локализации продукта, поддержке и онлайн-коммуникациям. Эта же служба также доступна без дополнительной платы из знакомых продуктов Майкрософт, таких как Bing, Cortana, Microsoft Edge, Office, SharePoint, Skype и Yammer.

Переводчик можно использовать в веб-приложениях или клиентских приложениях на любой аппаратной платформе и в любой операционной системе для выполнения языкового перевода и других операций, связанных с языком, таких как определение языка, преобразование текста в речь или словарь.

Используя стандартную отраслевую технологию REST, разработчик отправляет исходный текст (или звук для перевода речи) в службу с параметром, указывающим целевой язык, а служба отправляет обратно переведенный текст для использования клиентом или веб-приложением.< /p>

Служба Translator – это служба Azure, размещенная в центрах обработки данных Майкрософт, которая обеспечивает безопасность, масштабируемость, надежность и постоянную доступность, присущие другим облачным службам Майкрософт.

Перевод речи

Технология перевода речи Translator была запущена в конце 2014 года, начиная с Skype Translator, и доступна в виде открытого API для клиентов с начала 2016 года. Она интегрирована в функцию трансляции Microsoft Translator, Skype, трансляцию собраний Skype и приложения Microsoft Translator. для Android и iOS.

Перевод речи теперь доступен через Microsoft Speech, комплексный набор полностью настраиваемых служб для распознавания речи, перевода речи и синтеза речи (преобразование текста в речь).

Как работает перевод текста?

Для перевода текста используются две основные технологии: устаревшая, Статистический машинный перевод (SMT), и технология нового поколения, Нейронный машинный перевод (NMT).

Статистический машинный перевод

Реализация статистического машинного перевода (SMT) в Translator основана на более чем десятилетних исследованиях естественного языка в Microsoft. Вместо того, чтобы писать вручную созданные правила для перевода между языками, современные системы перевода рассматривают перевод как проблему изучения преобразования текста между языками на основе существующих человеческих переводов и использования последних достижений в области прикладной статистики и машинного обучения.

Так называемые «параллельные корпуса» действуют как современный Розеттский камень в огромных масштабах, обеспечивая перевод слов, фраз и идиоматических выражений в контексте для многих языковых пар и доменов. Методы статистического моделирования и эффективные алгоритмы помогают компьютеру решить проблему расшифровки (обнаружение соответствия между исходным и целевым языком в обучающих данных) и декодирования (нахождение наилучшего перевода нового входного предложения). Переводчик объединяет силу статистических методов с лингвистической информацией для создания моделей, которые лучше обобщают и обеспечивают более понятные переводы.

Нейронный машинный перевод

Важно постоянно улучшать перевод. Однако с середины 2010-х годов повышение производительности при использовании технологии SMT остановилось. Используя масштаб и мощность суперкомпьютера Microsoft с искусственным интеллектом, в частности Microsoft Cognitive Toolkit, Translator теперь предлагает перевод на основе нейронной сети (LSTM), который обеспечивает новое десятилетие улучшения качества перевода.

Эти модели нейронных сетей доступны для всех языков речи через службу распознавания речи в Azure и через текстовый API с использованием идентификатора категории «generalnn».

Нейросетевые переводы существенно отличаются по способу выполнения от традиционных SMT-переводов.

Следующая анимация изображает различные этапы перевода нейронной сети для перевода предложения. Благодаря этому подходу перевод будет учитывать контекст всего предложения, а не скользящего окна с несколькими словами, которое использует технология SMT, и будет производить более плавный и переводимый человеком перевод.

На основе обучения нейронной сети каждое слово кодируется вектором из 500 измерений (а), представляющим его уникальные характеристики в определенной языковой паре (например, английском и китайском). На основе языковых пар, используемых для обучения, нейронная сеть сама определит, какими должны быть эти размеры. Они могли кодировать простые понятия, такие как пол (женский, мужской, нейтральный), уровень вежливости (сленг, случайная, письменная, формальная и т. д.), тип слова (глагол, существительное и т. д.), а также любые другие неочевидные характеристики. как получено из обучающих данных.

Этапы преобразования нейронной сети следующие:

  1. Каждое слово или, точнее, 500-мерный вектор, представляющий его, проходит через первый слой «нейронов», которые кодируют его в 1000-мерный вектор (b), представляющий слово в контексте других слов в предложение.
  2. После того как все слова были закодированы один раз в эти 1000-мерные векторы, процесс повторяется несколько раз, каждый слой позволяет лучше настроить это 1000-мерное представление слова в контексте полного предложения (в отличие от к технологии SMT, которая может учитывать только окно из 3–5 слов)
  3. Окончательная выходная матрица затем используется уровнем внимания (т. е. программным алгоритмом), который будет использовать как эту окончательную выходную матрицу, так и вывод ранее переведенных слов, чтобы определить, какое слово из исходного предложения должно быть переведено следующим. Он также будет использовать эти вычисления для удаления ненужных слов в целевом языке.
  4. Уровень декодера (перевода) переводит выбранное слово (или, точнее, 1000-мерный вектор, представляющий это слово в контексте полного предложения) в его наиболее подходящий эквивалент целевого языка. Выходные данные этого последнего уровня (c) затем возвращаются обратно на уровень внимания, чтобы вычислить, какое следующее слово из исходного предложения следует перевести.

В примере, показанном в анимации, контекстно-зависимая 1000-мерная модель «the» будет кодировать, что существительное (дом) является женским словом в Французский (la maison). Это позволит соответствующим переводом для «the» быть «la», а не «le» (единственное число, мужской) или «les» (множественное число), как только он достигнет уровня декодера (перевода).

Алгоритм внимания также рассчитает на основе ранее переведенных слов (в данном случае «the»), что следующим переводимым словом должно быть подлежащее («дом»), а не прилагательное («синий»). Этого можно добиться, потому что система усвоила, что английский и французский меняют порядок этих слов в предложениях. Также было бы рассчитано, что если бы прилагательное было «большой» вместо цвета, то оно не должно инвертировать их («большой дом» => «< em>большой дом").

Благодаря такому подходу конечный результат в большинстве случаев получается более плавным и близким к человеческому переводу, чем когда-либо мог быть перевод на основе SMT.

Как работает перевод речи?

Несмотря на то, что на первый взгляд процесс создания технологии перевода речи из существующих технологических блоков может показаться простым, для этого потребовалось гораздо больше работы, чем простое подключение существующего «традиционного» механизма распознавания речи человека к машине к существующий текстовый перевод.

Чтобы правильно перевести «исходную» речь с одного языка на другой «целевой», система выполняет четырехэтапный процесс.

  1. Распознавание речи для преобразования звука в текст
  2. TrueText: технология Microsoft, нормализующая текст, чтобы сделать его более подходящим для перевода.
  3. Перевод с помощью механизма перевода текста, описанного выше, но с использованием моделей перевода, специально разработанных для реальных разговоров.
  4. преобразование текста в речь, когда это необходимо, для создания переведенного звука.

Автоматическое распознавание речи (ASR)
Автоматическое распознавание речи (ASR) выполняется с использованием системы нейронной сети (NN), обученной анализу тысяч часов входящей аудиоречи. Эта модель обучена взаимодействию человека с человеком, а не командам человека с машиной, обеспечивая распознавание речи, оптимизированное для обычных разговоров. Для этого требуется гораздо больше данных, а также более крупная DNN, чем традиционные ASR «человек-машина».

TrueText
Когда люди разговаривают с другими людьми, мы говорим не так идеально, четко и аккуратно, как нам часто кажется. С помощью технологии TrueText буквальный текст преобразуется, чтобы более точно отражать намерения пользователя, удаляя речевые неточности (слова-заполнители), такие как «гм», «а», «и», «нравится», заикание и т. повторения. Текст также стал более читабельным и переводимым за счет добавления разрывов предложений, правильной пунктуации и использования заглавных букв. Для достижения этих результатов мы использовали десятилетия работы над языковыми технологиями, которые мы разработали из Translator для создания TrueText. На следующей диаграмме на реальном примере показаны различные преобразования, которые TrueText выполняет для нормализации этого буквального текста.

Перевод
Затем текст переводится на любой из языков и диалектов, поддерживаемых Translator.

Переводы с использованием API перевода речи (в качестве разработчика) или в приложении или службе перевода речи основаны на новейших переводах на основе нейронных сетей для всех языков, поддерживаемых речевым вводом (полный список см. здесь). Эти модели также были построены путем расширения текущих моделей перевода, в основном обученных письменному тексту, за счет большего количества корпусов устного текста, чтобы создать лучшую модель для типов перевода устной беседы. Эти модели также доступны в стандартной категории «речь» традиционного API перевода текста.

Для любых языков, не поддерживаемых нейронным переводом, выполняется традиционный перевод SMT.

Преобразование текста в речь
Если целевой язык является одним из 18 поддерживаемых языков преобразования текста в речь и вариант использования требует вывода звука, текст затем преобразуется в вывод речи с помощью синтеза речи. Этот этап опускается в сценариях преобразования речи в текст.

Проще говоря, машинный перевод (МП) — это процесс, при котором компьютерная программа автоматически переводит текст с одного исходного языка на другой целевой язык. Машинный перевод имеет долгую и интересную историю, уходящую корнями в 1950-е годы. Со временем технология превратилась в жизнеспособное решение для быстрого и точного перевода. Достижения в области искусственного интеллекта (ИИ), обработки естественного языка и вычислительных возможностей сделали машинный перевод популярным.

Преимущества машинного перевода

Машинный перевод — незаменимый инструмент в процессе перевода. Его можно использовать отдельно или в сочетании с постредактированием человека. Машинный перевод предлагает три основных преимущества для ваших рабочих процессов перевода:

Высокая скорость перевода

С помощью машинного перевода можно перевести миллионы слов в больших объемах переводческих проектов. Но скорость — не единственное преимущество! MT использует ИИ, чтобы становиться умнее по мере перевода большего количества контента. Кроме того, MT может работать с TMS для управления и маркировки большого объема контента. Это поможет вам оставаться организованным, когда вам нужно быстро перевести контент на несколько языков.

Отличный выбор языка

Большинство крупных поставщиков услуг машинного перевода могут переводить от 50 до 100 языков. Эти программы достаточно мощны, чтобы переводить несколько языков одновременно, чтобы вы могли развертывать глобальные продукты и обновления документации.МТ хорошо подходит для языковых пар, таких как английский – французский или английский – испанский.

Снижение затрат

Даже если для постредактирования требуются переводчики-люди, машинный перевод сокращает время и стоимость перевода. MT берет на себя первоначальную тяжелую работу, создавая простые, но полезные переводы, которые переводчик-человек может уточнять и редактировать. Таким образом, готовые версии будут более точно соответствовать первоначальному замыслу текста, а контент можно будет эффективно локализовать.

Типы машинного перевода

Существует четыре типа машинного перевода: статистический машинный перевод (SMT), машинный перевод на основе правил (RBMT), гибридный машинный перевод (HMT) и нейронный машинный перевод (NMT). Вот обзор каждого типа:

Машинный перевод на основе правил (RBMT)

Машинный перевод на основе правил — самая ранняя форма машинного перевода — переводит контент на основе грамматических правил. С момента разработки RBMT в технологии машинного перевода произошли значительные успехи, поэтому у него есть несколько недостатков. Эти недостатки включают в себя необходимость большого количества человеческого постредактирования и добавления языков вручную. Несмотря на такое низкое качество перевода, RBMT полезен в простых ситуациях, когда требуется быстрое понимание смысла.

Статистический машинный перевод (SMT)

Статистический машинный перевод работает путем построения статистической модели взаимосвязей между текстовыми словами, фразами и предложениями. Затем он применяет эту модель перевода ко второму языку и преобразует те же элементы в новый язык. SMT несколько лучше RBMT, но по-прежнему имеет многие из тех же проблем.

Гибридный машинный перевод (HMT)

Гибридный машинный перевод представляет собой смесь RBMT и SMT. HMT использует память переводов, что делает его гораздо более эффективным с точки зрения качества. Однако даже у HMT есть свои недостатки, самым большим из которых является необходимость редактирования вручную.

Нейронный машинный перевод (NMT)

Нейронный машинный перевод использует искусственный интеллект для изучения языков и постоянного улучшения этих знаний. Таким образом, он стремится имитировать нейронные сети в человеческом мозгу. NMT более точен, чем другие типы машинного перевода. С NMT проще добавлять языки и переводить контент. Поскольку NMT обеспечивает более качественные переводы, он быстро становится стандартом при разработке инструментов машинного перевода.

NMT работает за счет включения обучающих данных. В зависимости от потребностей пользователя данные могут быть общими или персонализированными.

  • Общие данные. Это сумма всех данных, полученных из переводов, выполненных с течением времени механизмом машинного перевода (MTE). На основе этих данных создается универсальный инструмент перевода для различных приложений, включая текст, голос и документы.
  • Пользовательские или специализированные данные. Это обучающие данные, которые передаются в механизм машинного перевода для создания специализации в предметной области. Предметы включают проектирование, дизайн, программирование или любую другую дисциплину с собственными специализированными глоссариями и словарями.

Соображения относительно машинного перевода

Вот некоторые факторы, которые следует учитывать при выборе инструмента машинного перевода для вашего проекта:

  • Бюджет.
    Нейронный машинный перевод иногда обходится дороже, чем SMT, но повышение качества перевода может оправдать затраты.
  • Отрасль:
    В некоторых отраслях требуется перевод сложного и технического языка, что требует более сложной обработки, которую обеспечивает NMT.
  • Языковые пары.
    SMT лучше всего подходит для определенных языковых пар. Например, языки на основе латиницы с похожим синтаксисом и лингвистическими правилами лучше всего подходят для машинного перевода.
  • Объем контента:
    NMT требует большого количества исходного текста для обработки и обучения, поэтому он не подходит для небольших проектов.
  • Контент, ориентированный на клиента, и внутренний контент.
    Контент, ориентированный на клиента, например рекламные или маркетинговые материалы, отражающие качество бренда, требует самого сложного сочетания машинного перевода и постредактирования квалифицированными переводчиками. Когда важными факторами являются стоимость и время, основная внутренняя документация или сообщения сотрудников могут быть переведены с помощью базового машинного перевода.

Какая система машинного перевода лучше?

Видные технологические игроки, такие как Google, Amazon и Microsoft, используют нейронный машинный перевод в своих механизмах машинного перевода (MTE). Когда мы сравниваем разные двигатели, важно понимать, что они постоянно учатся и совершенствуются. Читайте дальше, чтобы узнать о лучших системах машинного перевода.

Google Переводчик

Google Translate был первым механизмом машинного перевода, который использовал нейронную обработку языка и машинное обучение на основе многократного использования. Обычно считается одной из ведущих систем машинного перевода на основе использования, количества языков и интеграции с поиском.

Переводчик Amazon

Amazon Translate тесно интегрирован с Amazon Web Services (AWS). Некоторые данные свидетельствуют о том, что Amazon Translate обеспечивает более точные переводы на определенные языки, особенно на китайский.

Переводчик Майкрософт

Microsoft Translator интегрируется с такими продуктами, как MS Office и Skype. Эта функция обеспечивает мгновенный доступ к переводу в документах и ​​совместимых программах.

Переводчик языка Watson

Watson Language Translator — это инструмент машинного перевода от IBM. Он интегрируется с IBM Watson Data и IBM Watson Studio. Эти инструменты помогают управлять данными и создавать модели ИИ.

Глубокий перевод

DeepL Translate – это независимая система машинного перевода, созданная небольшой компанией в Германии. Благодаря запатентованному нейронному искусственному интеллекту компании DeepL обеспечивает естественно звучащие и детализированные переводы. Использование Deepl во всем мире за последние годы значительно возросло.

Выберите систему управления переводами (TMS), которая включает машинный перевод

Внедрение машинного перевода в вашу стратегию перевода и локализации является обязательным. Localize ускоряет рабочий процесс с помощью встроенной службы машинного перевода. Затем наша платформа предоставляет вашим профессиональным переводчикам легкий доступ к постредактированию ваших машинных переводов. В результате получается качественный перевод.

В отличие от многих переводческих служб, Localize не взимает дополнительную плату за машинный перевод. Мы предлагаем бесплатную интеграцию с Google, Amazon, Microsoft, Watson и DeepL.

Свяжитесь с нашими экспертами в Localize сегодня, чтобы узнать, как наши решения могут вам помочь.

Машинный перевод (MT) – это технология автоматического перевода текста с использованием терминологических баз и передовых методов грамматического, синтаксического и семантического анализа.

Идея о том, что компьютеры могут переводить человеческие языки, так же стара, как и сами компьютеры. Первые попытки создания такой техники в 1950-х годах в США сопровождались большим энтузиазмом и значительным финансированием. Однако за первое десятилетие исследований не удалось создать пригодную для использования систему, и ныне известный отчет Консультативного комитета по автоматической обработке языков (ALPAC) в 1966 году показал, что десятилетние усилия не оправдали ожиданий. В следующий раз широкая публика услышала о машинном переводе, вероятно, в конце 1990-х годов, когда интернет-портал AltaVista запустил бесплатную службу онлайн-перевода под названием Babelfish. Хотя качества часто не хватало, оно стало чрезвычайно популярным и снова привлекло внимание к МТ. Вскоре аналогичные сервисы представили и другие интернет-гиганты, самым известным из которых стал Google Translate.

Несмотря на значительный прогресс в области технологий и добавление десятков новых языковых пар, эти бесплатные сервисы можно использовать для «основного» или случайного перевода, но обычно не в коммерческих целях. С другой стороны, коммерческие поставщики технологии машинного перевода работали над улучшением своих платных предложений, и благодаря настройке такие механизмы машинного перевода находят коммерческое применение в ограниченных областях. Однако проблемы с пониманием контекста, тона, языковых регистров и неформального выражения остаются причиной того, что МП не заменит людей-переводчиков в обозримом будущем. Машинный перевод чаще всего используется в приложениях, требующих взаимодействия в реальном времени или почти в реальном времени, для усвоения текстов и «чата», а также в качестве инструмента повышения производительности, поддерживающего переводчиков-людей.

Машинный перевод не следует путать с инструментами автоматизированного перевода (CAT).

Для чего подходит МТ?

Самые распространенные способы использования технологии машинного перевода:

Gisting. Результаты машинного перевода, как правило, не так хороши, как переводы, сделанные людьми, но они полезны для приблизительного понимания того, о чем говорится в тексте. Такой перевод может быть достаточно хорошим в зависимости от цели и целевой аудитории.

MT-человек. В некоторых случаях переводчики-люди редактируют результаты машинного перевода, чтобы получить окончательный перевод, что называется постредактированием.

Немедленная потребность. Его также можно использовать для предоставления переводов материалов, которые требуют срочного перевода и которые не могут ждать времени, необходимого для перевода человеком, например результатов запросов к базе данных.

Контролируемый язык. Для текстов, написанных на контролируемом языке, специализированные механизмы машинного перевода могут обеспечить очень качественный перевод, например, при переводе патентов или листов технических спецификаций.

Большой объем. Производители контента создают экспоненциально растущие объемы материала, и во многих случаях человеческий перевод просто экономически или технически нецелесообразен.

Псевдоперевод. Локализаторы могут использовать машинный перевод для перевода исходного текста, чтобы проверить наличие проблем интернационализации на целевых языках, прежде чем приступать к профессиональному переводу.

Поддержка переводчиков-людей. Современные CAT-инструменты позволяют пользователям переводить исходные фрагменты с помощью машинного перевода.Переводчики могут использовать результаты как есть или отредактировать их вручную, что ускорит их работу.

Типы машинного перевода

Машинный перевод на основе правил (RBMT)

RBMT, разработанный несколько десятилетий назад, стал первым практическим подходом к машинному переводу. Он работает, анализируя исходное предложение, чтобы идентифицировать слова и анализировать его структуру, а затем преобразовывать его в целевой язык на основе установленного вручную набора правил, закодированных экспертами-лингвистами. Правила пытаются определить соответствие между структурой исходного языка и структурой целевого языка.

Преимущество RBMT заключается в том, что хороший движок может переводить широкий спектр текстов без необходимости в больших двуязычных корпусах, как при статистическом машинном переводе. Однако разработка системы RBMT требует много времени и труда и может занять несколько лет для одной языковой пары. Кроме того, правила, закодированные человеком, не могут охватить все возможные языковые явления, а конфликты между существующими правилами могут привести к плохому качеству перевода при работе с реальными текстами. Например, движки RBMT плохо справляются со сленгом или метафорическими текстами. По этой причине перевод на основе правил в значительной степени был заменен статистическим машинным переводом или гибридными системами, хотя он по-прежнему полезен для менее распространенных языковых пар, где недостаточно корпусов для обучения механизма SMT.

Статистический машинный перевод (SMT)

SMT работает путем обучения механизма перевода очень большому объему двуязычных (исходные тексты и их переводы) и одноязычных корпусов. Система ищет статистические корреляции между исходными текстами и переводами как для целых сегментов, так и для более коротких фраз внутри каждого сегмента, выстраивая так называемую модель перевода. Затем он генерирует оценки достоверности того, насколько вероятно, что данный исходный текст будет сопоставлен с переводом. Сам механизм перевода не имеет понятия о правилах или грамматике. SMT — это ядро ​​систем, используемых Google Translate и Bing Translator, и наиболее распространенная форма машинного перевода, используемая сегодня.

Ключевым преимуществом статистического машинного перевода является то, что он устраняет необходимость вручную создавать механизм перевода для каждой языковой пары и создавать наборы лингвистических правил, как в случае с RBMT. Имея достаточно большую коллекцию текстов, вы можете обучить универсальный механизм перевода для любой языковой пары и даже для конкретной отрасли или области знаний. При наличии больших и подходящих учебных корпусов SMT обычно достаточно хорошо переводится для понимания. Основным недостатком статистического машинного перевода является то, что он требует очень больших и хорошо организованных двуязычных корпусов для каждой языковой пары. Механизмы SMT терпят неудачу при представлении текстов, которые не похожи на материалы в учебных корпусах. Например, механизм перевода, обученный на технических текстах, будет с трудом переводить тексты, написанные в стиле casual. Поэтому важно обучать движок текстами, похожими на материал, который будет переведен.

Машинный перевод на основе примеров (EBMT)

В системе EBMT предложение переводится по аналогии. В качестве примеров используется ряд существующих пар перевода исходных и целевых предложений. Когда нужно перевести новое исходное предложение, извлекаются примеры, чтобы найти похожие в источнике, затем целевое предложение генерируется путем имитации перевода совпадающих примеров. Поскольку процент совпадений для длинных предложений очень низок, обычно примеры и исходное предложение разбиваются на небольшие фрагменты.

Этот подход может обеспечить высокое качество перевода, если будут найдены очень похожие примеры. Наоборот, когда аналогичный пример не найден, качество перевода может быть очень низким. EBMT не получил широкого распространения как коммерческая услуга.

Нейронный машинный перевод (NMT)

NMT основан на парадигме машинного обучения и представляет собой новейший подход к машинному переводу. NMT использует нейронные сети, состоящие из узлов, концептуально смоделированных по образцу человеческого мозга. Узлы могут содержать отдельные слова, фразы или более длинные сегменты и связаны друг с другом в сети сложных отношений, основанных на двуязычных текстах, используемых для обучения системы. Сложный и динамичный характер таких сетей позволяет формировать значительно более обоснованные предположения о контексте и, следовательно, о значении любого переводимого слова. Системы NMT постоянно обучаются и адаптируются для обеспечения наилучшего результата и требуют большой вычислительной мощности. Вот почему этот подход стал жизнеспособным только в последние годы.

Гибрид

  • механизмы на основе правил, использующие статистический перевод для постобработки и очистки,
  • статистические системы, основанные на правилах.
  • любое из вышеперечисленного с некоторым вводом от нейронной системы машинного перевода.

В первом случае текст сначала переводится механизмом RBMT. Затем этот перевод обрабатывается механизмом SMT, который исправляет все допущенные ошибки. Во втором случае механизм RBMT не переводит текст, но поддерживает механизм SMT, вставляя метаданные (например, существительное/глагол/прилагательное, настоящее/прошедшее время и т. д.)

Почти все практические системы машинного перевода в определенной степени используют гибридные подходы, сочетающие подходы, основанные на правилах, и статистические подходы. В последнее время все больше и больше систем в той или иной степени используют преимущества NMT.

Измерение качества машинного перевода

Измерение и сравнение качества машинного перевода остается сложной задачей. Хотя существуют стандартизированные шкалы качества, они обеспечивают только сравнительную, а не абсолютную меру качества. Это важно, потому что то, что действительно необходимо, — это автоматизированный способ выявления проблемных текстов, чтобы их можно было направить на проверку человеком и последующее редактирование. В настоящее время стандартная практика заключается в том, чтобы люди просматривали определенный процент текстов или тратили определенное количество времени на просмотр подмножества проекта.

Самый надежный метод оценки качества машинного перевода требует, чтобы оценщики оценивали каждое предложение либо в тексте, переведенном с помощью механизма машинного перевода, либо в сравнении с другими предложениями. Средний балл по всем предложениям от всех оценщиков является окончательным баллом. Наиболее распространенными показателями оценки человека являются адекватность и беглость перевода.

Оценка человеком является дорогостоящей и трудоемкой процедурой, поэтому она не подходит для частого использования в ходе исследований и разработок двигателей МТ. Доступны различные методы автоматической оценки для измерения сходства перевода MT и перевода человека-переводчика. Некоторые примеры:

  • Коэффициент ошибок в словах (WER) определяется на основе расстояния между выводом системы и эталонным переводом на уровне слова.
  • Позиционно-независимый коэффициент ошибок (PER) вычисляет коэффициент ошибок в словах, рассматривая каждое предложение как набор слов и игнорируя порядок слов.
  • Bilingual Evaluation Understudy (BLEU) вычисляет точность n-грамм, а не частоту ошибок в словах.
  • Метрика оценки перевода с явным порядком (METEOR) учитывает корень и синонимы.

Автоматическая оценка качества перевода играет важную роль в исследованиях по машинному переводу, поскольку помогает измерять качество между итерациями движка и между разными движками. Однако корреляция между показателями автоматической и человеческой оценки неудовлетворительна.

Подробнее об этой и других технологиях локализации см. в Полном руководстве по технологиям автоматизации.

Какой для вас оптимальный MT Engine? Узнайте об этом в последнем отчете Memsource по MT.

Машинный перевод – неотъемлемая часть большинства технологий локализации. Это помогает переводить в масштабе и снижает затраты на перевод. Все больше и больше ресурсов вкладывается в развитие машинного перевода, что приводит к постоянному совершенствованию механизмов и более качественному переводу. Но как это работает? Как вы внедряете машинный перевод в свою глобальную стратегию? Качество какое-нибудь хорошее? Мы здесь, чтобы ответить на все ваши вопросы по машинному переводу.

1. Что такое машинный перевод?

Машинный перевод (МП) — это автоматический перевод с помощью компьютерного программного обеспечения. Пользователи вводят текст на исходном языке и выбирают целевой язык. Затем механизм МП генерирует желаемый перевод. Машинный перевод можно использовать для быстрого перевода больших объемов текста, что было бы практически невозможно при использовании традиционных методов перевода. Его можно использовать для перевода целых текстов без участия человека (необработанный машинный перевод) или вместе с переводчиками-людьми, например, для постредактирования машинного перевода.

2. Как работает машинный перевод?

Машинный перевод имеет очень долгую историю: самые первые механизмы перевода, продемонстрированные в 1950-х годах, были ближе к реальным машинам, чем к компьютерам, и часто полагались на ввод физических перфокарт. Сегодня технология перевода совершенствуется и постоянно совершенствуется.

Существует несколько различных типов подходов машинного перевода, таких как основанный на правилах, статистический, основанный на примерах, и по мере развития технологии старые системы были заменены более новыми, более эффективными технологиями. Самыми значительными достижениями последнего десятилетия стали появление нейронного машинного перевода и искусственного интеллекта.

Нейронный машинный перевод

Нейронный машинный перевод (NMT) – это подход, основанный на глубоких нейронных сетях.В NMT используются различные сетевые архитектуры, но обычно сеть можно разделить на два компонента: кодировщик, который считывает входное предложение и генерирует представление, подходящее для перевода, и декодер, который генерирует фактический перевод. Слова и даже целые предложения представлены в виде векторов действительных чисел в NMT. По сравнению с предыдущим поколением машинного перевода, NMT генерирует более беглый и грамматически точный вывод. SMT оценивает беглость предложения только по паре слов за раз, тогда как NMT оценивает беглость всего предложения.

Данные машинного перевода

Машинный перевод работает с обучающими данными. Данные могут быть общими или пользовательскими в зависимости от ваших потребностей. Универсальные механизмы машинного перевода, такие как Google Translate, Microsoft Translator и Amazon Translate, предназначены для более общих целей и не обучаются на данных для конкретной области или темы. Данные постоянно собираются и используются для улучшения результатов. Пользовательские механизмы машинного перевода, с другой стороны, лучше настраиваются, поскольку они обучаются на конкретных данных, что приводит к более точным выводам машинного перевода (и большей защите данных), но также обходится дороже.

3. Каковы преимущества машинного перевода?

Машинный перевод имеет несколько существенных преимуществ по сравнению с традиционным переводом, которые делают его очень привлекательным предложением для бизнеса:

  • Это быстро: современные механизмы машинного перевода способны обрабатывать большие объемы контента и почти мгновенно переводить их.
  • Масштабируемость: механизмы машинного перевода могут легко обрабатывать один документ или тысячу.
  • Это рентабельно: по некоторым оценкам, машинный перевод примерно в тысячу раз дешевле.

Однако всегда нужно помнить, что машинный перевод подходит не для всех вариантов использования и всех типов контента. Человеческий перевод или постредактирование по-прежнему являются золотым стандартом для переводов, требующих безупречного качества.

Как МТ обрабатывает различные типы контента? Ознакомьтесь с нашей серией отчетов MT. Загрузить последний выпуск.

4. Когда следует использовать машинный перевод?

Следует ли вам использовать машинный перевод, зависит от нескольких факторов.

Тип контента

Машинный перевод подходит для разных типов контента в зависимости от выбранной вами стратегии. Однако для творческого контента, такого как рекламные тексты, машинный перевод может быть не идеальным. Его можно использовать в качестве отправной точки, но лучше всего иметь переводчиков, способных творчески подойти к тексту.

Аудитория

Для кого? Независимо от вашего варианта использования, вы должны быть уверены, что результат машинного перевода будет соответствовать ожиданиям читателя. Вы переводите веб-страницы, которые приносят прибыль, или внутреннюю документацию для ваших сотрудников? Контент, демонстрирующий вашу компанию или продукт, обязательно должен быть проверен человеком. Если контент предназначен для внутренних целей, подходящим решением будет MT.

Громкость

Переводишь небольшие фрагменты тут и там? Конечно, вы можете использовать МТ. Однако истинная ценность машинного перевода заключается в возможности переводить большие объемы текста.

Время выполнения

Если у вас сжатые сроки и нет рабочей силы для выполнения перевода, машинный перевод — отличный вариант.

Приоритет содержания

Контент с низким приоритетом, например внутренняя документация, или контент с коротким жизненным циклом — идеальный кандидат на машинный перевод.

5. Так почему же не все используют МТ?

Последним камнем преткновения, конечно же, является качество вывода. Несмотря на то, что усовершенствования машинного перевода со временем значительно повысили качество вывода, они далеки от стабильного достижения паритета с переводчиками-людьми.

Компания Memsource ежеквартально отслеживает, как разные поисковые системы работают в разных языковых парах и доменах. Это может помочь вам принять взвешенное решение, использовать ли машинный перевод. Вы можете узнать больше в нашем последнем отчете по машинному переводу.

6. Как начать работу с МТ?

Для эффективного использования машинного перевода нужно больше, чем просто выбрать правильный механизм машинного перевода. Предприятия преуспеют в MT, если они разработают эффективную стратегию, которая работает для них.

Выбор правильной стратегии машинного перевода

В зависимости от ваших потребностей в переводе вы можете использовать различные стратегии машинного перевода.

Необработанный машинный перевод

Raw MT — это результат машинного перевода, который не был проверен переводчиком-человеком. Когда вы используете Google Translate для перевода веб-страницы, это сырой MT. Выход не будет идеальным, но по большей части он сносный. Публикация необработанного машинного перевода не рекомендуется для контента, предназначенного для клиентов, но это может быть простым решением для перевода пользовательского контента, внутренней документации или в случаях, когда требуется быстрый перевод, но точность не важна.

Постредактирование машинного перевода

Постредактирование машинного перевода сочетает машинный перевод с переводом, выполняемым человеком, что дает вам скорость и способность машин машинного перевода быстро обрабатывать большие объемы текста, с навыками и чуткостью обученных лингвистов. Постредактирование (PE) — относительно новое явление. Стандарт ISO для постредактирования результатов машинного перевода был кодифицирован только в 2017 году. PE — это процесс проверки и адаптации необработанных результатов машинного перевода, завершить перевод.

Вы можете выбрать оптимальный уровень MTPE в зависимости от ваших потребностей в переводе:

При использовании LPE необработанный машинный перевод модифицируется только в случае крайней необходимости, чтобы гарантировать разборчивость вывода и точную передачу смысла исходного документа.

С помощью FPE необработанный машинный перевод тщательно проверяется и модифицируется, чтобы гарантировать отсутствие каких-либо ошибок, а также учитывать стиль, тон и культурные нюансы.

Хотите еще несколько советов по постредактированию машинного перевода? У нас как раз самое то! Посмотрите наше введение в веб-семинар по постредактированию машинного перевода.

Человеческий перевод

Конечно, бывают случаи, когда MT не подходит для вашего контента. Когда в игру вступают брендинг и культурный контекст, постредакторам может потребоваться больше времени, чтобы «исправить» переводы, чем если бы они были переведены человеком.

7. Как реализовать машинный перевод?

После того как у вас есть стратегия, вам нужно подумать о ее реализации. Добавление машинного перевода в рабочий процесс локализации не должно быть сложной задачей. Есть несколько шагов внедрения машинного перевода, которым вы можете следовать, чтобы добиться успеха.

  • Выберите правильный контент для машинного перевода.
  • Ознакомьтесь с политикой конфиденциальности вашего поставщика услуг машинного перевода. Вы должны знать, что происходит с вашими данными и как они хранятся.
  • По возможности обучите движок вашими данными, чтобы повысить качество вывода.
  • Если вы выберете стратегию постредактирования машинного перевода, вам нужно выбрать команду, которая прошла обучение или имеет опыт постредактирования, или убедиться, что они открыты для такой идеи.
  • Запустите образцы перед развертыванием, чтобы получить представление о качестве или определить области, которые можно улучшить перед развертыванием.
  • Согласуйте модель ценообразования и обязательно привлеките к принятию решения все заинтересованные стороны.
  • Развернуть! Имейте в виду, что результаты могут не сразу оправдать ваши ожидания, но со временем они улучшатся.

Если вам нужны советы по настройке машинного перевода в Memsource, обязательно посетите наш веб-семинар.

8. Что означает МП для переводчиков?

Одно из распространенных заблуждений о повествовании машинного перевода состоит в том, что он делает переводчиков излишними. К счастью, это не машинный перевод, а человеческий. Хотя некоторые проповедники машинного перевода предсказывают, что в конечном итоге машинный перевод достигнет паритета с переводчиками-людьми, вряд ли это произойдет в ближайшее время. Лингвисты по-прежнему будут играть важную роль в процессах перевода на основе машинного перевода в качестве постредакторов, помогая адаптировать результаты машинного перевода для обеспечения неизменного качества.

9. Качество машинного перевода: достаточно ли хорош машинный перевод? Откуда я знаю?

Несмотря на то, что с МП был достигнут значительный прогресс, все еще есть некоторые сомнения в качестве переводов, из-за чего некоторые пользователи не решаются вкладывать больше средств в МП. Многие пользователи обеспокоены тем, что переводы будут недостаточно качественными, что потребует дорогостоящего постредактирования, в то время как другие не знают, как эффективно масштабировать свои оценки, чтобы они соответствовали объему вывода, который может быть произведен с помощью машинного перевода.

К счастью, есть шаги, которые вы можете предпринять, чтобы всегда добиваться наилучших возможных результатов и эффективно оценивать результаты. Один из ключевых шагов, перечисленных в нашей статье «Управление качеством механизма машинного перевода», — максимально эффективное использование существующих технологий, будь то специализированные механизмы, решения для управления машинным переводом или оценка качества на основе ИИ.

10. Будущее машинного перевода

Машинный перевод постоянно совершенствуется быстрыми темпами благодаря использованию новейших разработок в области аппаратного и программного обеспечения. Механизмы машинного перевода не только становятся лучше, их сейчас больше, чем когда-либо прежде (только Memsource поддерживает более 30 уникальных механизмов машинного перевода). Сочетание быстрого развития и жесткой конкуренции, несомненно, будет полезным для машинного перевода в долгосрочной перспективе. Однако в настоящее время большое количество постоянно меняющихся параметров может затруднить доступ к машинному переводу для новичков и оптимально использовать его для существующих пользователей.

Большая часть разработок Memsource была направлена ​​на то, чтобы у наших пользователей всегда был лучший машинный перевод.Чтобы помочь нашим пользователям найти идеальный механизм, мы недавно запустили Memsource Translate, решение для динамического управления механизмом, которое автоматизирует и оптимизирует процесс выбора механизма машинного перевода. Сложный ИИ-алгоритм отслеживает производительность движка в режиме реального времени и всегда рекомендует оптимальный движок для вашего контента. Как сказал в недавнем интервью технический директор Memsource Далибор Фривальдски, «мы хотели сделать использование технологии машинного перевода максимально простым, без необходимости проходить сложный процесс выбора одного поставщика услуг машинного перевода».

Чтобы узнать больше о Memsource Translate и о том, как вы можете использовать его, чтобы получить больше от MT, вы можете подключиться к нашему веб-семинару на Memsource Translate — максимально эффективное использование MT.

Как МТ обрабатывает различные типы контента? Ознакомьтесь с нашей серией отчетов MT.

Существует больше платформ машинного перевода, чем когда-либо, доступных для компаний, которые хотят управлять своими собственными проектами локализации. Но что подходит для вашего бизнеса? И может ли кто-нибудь из них заменить профессионального поставщика лингвистических услуг? Мы рассмотрели 5 платформ машинного перевода, чтобы помочь вам сделать выбор.

Переводчик Amazon

Amazon Translate использует нейронный механизм машинного перевода Amazon для предоставления «быстрых, качественных и доступных» переводческих услуг компаниям. Варианты использования включают перевод веб-сайтов и приложений, перевод больших объемов текста и многоязычное обслуживание клиентов.

Основные языковые пары

Согласно отчету Intento о коммерческих системах машинного перевода за 2020 г., лучшие языковые пары Amazon Translate включают английский и португальский, английский и корейский, английский и испанский, английский и русский, английский и финский, английский и японский, а также английский и нидерландский.< /p>

Однако отрасль/сектор и тип исходного контента также влияют на качество перевода.

Параметры настройки

Amazon Translate можно настроить с помощью функций пользовательской терминологии и активного пользовательского перевода.

Цена: примерно 15 долларов США за 1 млн символов

Глубокий

DeepL называет себя «лучшим машинным переводчиком слова», и его переводы предпочитают профессиональные переводчики. Они уделяют особое внимание безопасности данных, шифрованию соединений со своими серверами и удалению текстов сразу после перевода. DeepL также предоставляет возможность перевода целых документов с сохранением исходных шрифтов и форматирования (хотя исходное форматирование может по-прежнему нуждаться в настройке, чтобы обеспечить расширение и сжатие текста).

Основные языковые пары

DeepL предлагает ограниченное количество доступных языков и языковых пар по сравнению с другими поставщиками: только 7 языков и 42 языковые комбинации. В соответствии с оценкой Intento, в которой предпочтение отдается качеству, а не количеству, перевод с английского на немецкий превосходен.

Параметры настройки

Выберите тон вашего перевода (формальный или неформальный) и создайте собственный глоссарий утвержденных переводов для определенных языковых пар.

Цена: у DeepL есть ограниченный бесплатный вариант, но если ваш перевод должен превышать бесплатную версию или вам нужен доступ к их API, вы можете в конечном итоге заплатить больше, чем с некоторыми другими поставщиками, где-то в диапазоне $20 за 1 млн символов.

Переводчик Майкрософт

Microsoft Translator предлагает компаниям ряд услуг, включая перевод текстов для приложений, документов веб-сайтов и т. д. Они также предлагают комплексную услугу перевода речи в режиме реального времени.

При этом их общее качество перевода было оценено Intento ниже, чем у конкурентов.

Основные языковые пары:

Параметры настройки

Microsoft Translator позволяет относительно просто использовать ранее переведенные документы для «обучения» своего механизма NMT производить переводы, адаптированные к вашему бизнесу и отрасли.

Цена: 10 долларов США за 1 млн символов или меньше, в зависимости от объема.

Облачный перевод Google

Google предлагает бесплатный перевод через Google Translate, но также предлагает платную платформу машинного перевода для бизнеса. Выберите базовый API перевода, расширенный API перевода или используйте AutoML для обучения собственных моделей машинного обучения.

Основные языковые пары

Google предлагает более 100 языков, но их наиболее эффективные языковые пары включают английский – французский, английский – немецкий и английский – русский.

Параметры настройки

Клиенты могут использовать ранее переведенные тексты для «обучения» пользовательской модели с помощью перевода AutoML и добавления глоссария с помощью Advanced Translation API.

Цены: Google Translate может быть бесплатным, но Google Cloud Translation стоит около 20 долларов США за 1 млн символов.

Systran Pure Neural MT

Systran делает большие заявления о своем движке NMT, в частности, о том, что он может производить перевод, «превзошедший текущий уровень техники и лучше, чем не носитель языка». (Небольшое напоминание: лингвисты, с которыми мы работаем, ЯВЛЯЮТСЯ носителями языка, потому что это золотой стандарт перевода, выполняемого человеком.) Их профессиональные продукты включают 55 языков и 140 языковых пар.

Основные языковые пары

Основные языковые пары Systran PNMT включают английский – португальский, английский – турецкий, английский – румынский, английский – арабский и английский – польский.

Параметры настройки

Платные планы Systran позволяют компаниям настраивать их в зависимости от отрасли, а также использовать память переводов и пользовательские словари.

Цены. Вообще говоря, Systran является одним из самых дешевых вариантов со средней ценой около 10,50 долларов США за 1 млн символов.

Зачем использовать LSP?

С учетом того, что так много компаний продают платформы машинного перевода напрямую бизнесу, почему и когда имеет смысл использовать LSP вместо этого? Если у вас еще нет специальной внутренней команды со всеми наборами навыков, необходимых для эффективного управления переводом и локализацией от начала до конца, вы увидите лучшие результаты с LSP для всех проектов, кроме самых низких.

Точность машинного перевода может быть разной, и даже при настройке в большинстве случаев вам нужен человек-постредактор, который изучит содержание и выявит неправильные переводы и неудобные фразы. Если вы переводите более чем на один язык, учтите, что производительность ведущих платформ машинного перевода значительно различается в зависимости от тестируемых языков. Фактически, отчет Intento о состоянии отрасли машинного перевода показал, что «требовались модели от восьми разных поставщиков, чтобы добиться наилучшего качества в популярных языковых парах». Вывод: если вы используете машинный перевод и точность важна, необходим надежный процесс контроля качества.

Есть также проблема убедиться, что ваш переведенный контент передает именно то сообщение, которое вы хотите отправить. Культурные различия означают, что часто необходимо вносить изменения в исходный контент, чтобы сохранить исходное влияние сообщения на разных языках.

Игнорирование этих других аспектов успешного перевода и локализации может привести к затруднениям и ущербу для репутации. Например, рассмотрите развертывание собственного веб-сайта Amazon на шведском языке. Несмотря на то, что Amazon предлагает один из самых популярных движков NMT, их первоначальный запуск на шведском языке был отмечен оплошностями, включая NSFW-переводы описаний продуктов и случайное использование аргентинского флага вместо шведского.

Преимущество машинного перевода с добавленной стоимостью

Качественные LSP предлагают больше, чем просто слова. Они являются надежными партнерами, гарантирующими, что сообщение вашего бренда не потеряется при переводе. Благодаря команде опытных лингвистов, дизайнеров, многоязычных копирайтеров, экспертов по соблюдению требований, консультантов и менеджеров проектов, которые координируют все это, работа с LSP, такой как K International, экономит ваше время, защищает ваш бизнес и дает вам душевное спокойствие.

В K International мы знаем, когда и как использовать машинный перевод, чтобы сэкономить время и деньги наших клиентов, какие проекты требуют большего участия человека и как разработать процесс обеспечения качества, который предотвращает дорогостоящие и/или досадные ошибки. Свяжитесь с нами для получения дополнительной информации о том, как мы можем помочь вам с вашим следующим проектом по переводу или локализации!

Читайте также: