Можно ли считать прикладную и компьютерную лингвистику синонимами

Обновлено: 21.11.2024

Автоматическое извлечение синонимов играет важную роль во многих системах обработки естественного языка, таких как поиск информации и ответы на вопросы. В последнее время исследования были сосредоточены на извлечении семантических отношений из вложений слов, поскольку они фиксируют родство и сходство между словами. Однако использование только встраивания слов создает проблемы для извлечения синонимов, поскольку оно не может определить, является ли связь между словами синонимией или каким-либо другим семантическим отношением. В этой статье мы представляем новое решение этой проблемы, предлагая конвейер SynoExtractor, который можно использовать для фильтрации похожих вложений слов для сохранения синонимов на основе заданных лингвистических правил. Наши эксперименты проводились с использованием вложений KSUCCA и Gigaword и обучались на моделях CBOW и SG. Мы оценили автоматически извлеченные синонимы, сравнив их с тезаурусами синонимов арабского языка Alma’any. Мы также организовали ручную оценку двумя арабскими лингвистами. Результаты проведенных нами экспериментов показывают, что использование конвейера SynoExtractor повышает точность извлечения синонимов по сравнению с использованием только меры косинусного сходства. SynoExtractor получил среднюю среднюю точность (MAP) 0,605 для корпуса классического арабского языка Университета короля Сауда с улучшением на 21% по сравнению с базовым уровнем и 0,748 MAP для корпуса Gigaword с улучшением на 25%. SynoExtractor превзошел тезаурус Sketch Engine для извлечения синонимов на 32% с точки зрения MAP. Наша работа показывает многообещающие результаты для извлечения синонимов, предполагая, что наш метод можно использовать и с другими языками.

1. Введение

Синонимия — одно из самых известных лексико-семантических отношений. Синонимы – это слова, имеющие сходное значение или одинаковое значение, но разные формы. Напротив, существительные «конец» и «окончание» имеют схожие формы, но «окончание» не считается лучшим синонимом «окончания», чем существительное «заключение» [1]. Автоматическое извлечение синонимов может улучшить многочисленные приложения обработки естественного языка (NLP), такие как ответы на вопросы и поиск информации [2, 3], автоматическое создание лексической базы данных [4], автоматическое суммирование текста [5], получение лексических следствий [6], и генерация языка [7].

Тезаурус WordNet — это тезаурус, наиболее широко используемый для синонимов [1], и различные приложения НЛП используют его в качестве источника синонимов. Тем не менее, самая большая версия WordNet доступна для английского языка, но она мала или вообще недоступна для других языков, потому что создание таких ресурсов вручную требует много времени и денег. Словарь Alma’any [8] представляет собой арабско-арабский словарь, в котором есть раздел, посвященный современным стандартным арабским синонимам и антонимам. Хотя он больше, чем арабский Wordnet, он не охватывает значительное количество арабских терминов и не обновляется часто.

Было много попыток разработать методологию автоматического извлечения и обнаружения синонимов. В первые дни сопоставление с образцом использовалось для извлечения синонимов для построения словарей и тезаурусов; например, McCrae и Collier [9] использовали новый алгоритм извлечения набора синонимов из биомедицинской литературы с использованием обнаружения лексических паттернов. Точно так же Ван и Херст [10] предложили три новых метода: один подход машинного обучения и два метода, основанных на правилах, для извлечения синонимов из текстов определений в словаре. В [43] используется комбинация структуры ссылок различных онлайн-энциклопедий, таких как Википедия, в сочетании с методами машинного обучения. Модели условного случайного поля (CRF) были обучены и использованы для поиска синонимов в Интернете.

Наоборот, для извлечения турецких синонимов использовалось машинное обучение, основанное на семантических признаках и признаках зависимости [11]. Кроме того, графовые модели использовались для извлечения синонимов, например, Вей [12] использовал граф синонимов для уточнения извлечения синонимов, следуя двум подходам. Первый разбивает каждый результат извлечения на две части (синонимы и шум). Второй подход ранжирует извлеченные слова-синонимы, вычисляя их семантическое расстояние в графе синонимов. В работе Ху и др. [13] Сахин классифицировал различные отношения, которые являются парами гипонимии, холонимии и антонимии в турецком языке, используя набор классификаторов машинного обучения. Он исследовал эффект от использования различных функций, включая лексико-синтаксические шаблоны, косинусное сходство векторов Word2Vec и меры сходства WordNet. Наилучший результат равен 84% от F1, который был получен классификатором случайного леса с использованием признаков лексико-синтаксического шаблона.

В последние годы основное внимание в исследованиях уделялось извлечению синонимов с помощью встраивания слов, поскольку они фиксируют различные типы сходства и родства между словами. Вложения слов представлены в виде низкоразмерных векторов.Размерности распределенных векторов слов представляют собой признаки слов, которые представляют различные аспекты значения слова [14]. Вложения слов широко используются для извлечения и обнаружения синонимов в английском языке [15–19]. Автор в [19] использует косинусное сходство, «меру сходства между двумя ненулевыми векторами пространства скалярного произведения, которая измеряет косинус угла между ними» [20]. Однако список наиболее похожих слов, полученных с помощью косинусного подобия, содержит слова, которые имеют некоторые отношения с исходным словом, включая не только синонимию, но и другие отношения, такие как флексии и антонимы [19]. Таким образом, косинусное сходство само по себе не является эффективной мерой для извлечения синонимов. Точно так же Мохаммед [21] использовал встраивание слов с классификатором нейронной сети с учителем для классификации синонимов из других родственных слов в попытке преодолеть недостаток меры косинусного сходства. Однако использование контролируемых подходов требует большого количества человеческого труда и неэффективно для многих задач НЛП. Кроме того, Чжэн и соавт. [22] исследовали две модели извлечения семантических отношений: модель на основе CNN и модель на основе LSTM.

Эта статья посвящена арабскому, семитскому языку. Почти 500 миллионов человек по всему миру говорят на арабском языке. Это язык, официально используемый во многих арабских странах с разными диалектами. Официальный письменный арабский язык — это современный стандартный арабский язык (MSA). MSA - это одна из форм классического арабского языка и языка, используемого в Коране, но в настоящее время он содержит более обширный и модернизированный словарный запас. Поскольку его понимают почти все в арабском мире, MSA используется в качестве формального языка в средствах массовой информации и образовании. Арабский язык имеет особенности правописания, грамматики и произношения, которые отличают его от других языков [23]. Арабский язык является одним из самых богатых морфологически языков и занимает шестое место в мире по распространенности. Как и в других языках, в арабском языке есть семантические отношения между словами, которые связывают их, чтобы придать смысл высказываниям [24].

Насколько нам известно, единственное исследование, посвященное автоматическому извлечению арабских синонимов, включало построение коранической арабской WordNet (QAWN) с использованием модели векторного пространства (VSM) в качестве представлений слов и косинусного сходства [23]. Однако это исследование не дало адекватных результатов, потому что оно группировало похожие слова для создания синсета, который не был подтвержден как содержащий настоящие синонимы.

В этой статье мы представляем неконтролируемую и независимую языковую методологию автоматического извлечения синонимов с использованием двухэтапного подхода. На первом этапе мы обучили наши вложения арабских слов, используя два очень больших корпуса, Корпус классического арабского языка Университета короля Сауда (KSUCCA) [25] и Gigaword [26], с обширными экспериментами, чтобы определить лучшие настройки обучения для захвата синонимии. связи. Затем мы использовали SynoExtractor, новый конвейер, который мы разработали для извлечения синонимов путем фильтрации похожих вложений для устранения недостатков косинусного сходства. Мы использовали тезаурус Alma’any в качестве золотого стандарта и ручной оценки для оценки нашей методологии. Кроме того, мы сравнили нашу методологию со Sketch Engine, инструментом анализа текста, который используется для исследования текста и поиска отношений между словами [27]. Следовательно, эта статья направлена ​​на то, чтобы ответить на следующие исследовательские вопросы: (1) Можно ли с помощью предложенного нами конвейера в пространстве встраивания слов извлекать арабские синонимы? (2) Улучшает ли использование новой меры относительного косинусного сходства (RCS) вместо косинусного сходства в пространстве вложений слов извлечение арабских синонимов? (3) Сопоставим ли наш подход к извлечению синонимов с подходом Sketch Engine?

Остальная часть статьи организована следующим образом. В разделе 2 обсуждается связанная с этим работа по извлечению синонимов на арабском и других языках. Раздел 3 описывает нашу методологию. Раздел 4 представляет нашу экспериментальную установку. В разделе 5 сообщается об обучении встраиванию слов. Раздел 6 содержит наши экспериментальные результаты и обсуждение. Раздел 7 завершает документ обсуждением ограничений нашего метода и нашей будущей работы.

2. Похожие работы

В этом разделе мы рассмотрим недавние исследования по автоматическому извлечению и обнаружению синонимов с использованием различных контролируемых и неконтролируемых подходов.

2.1. Контролируемые подходы

Контролируемые подходы требуют аннотированных данных для извлечения синонимов. В своей работе [11] Yıldız et al. исследованы с использованием гибридного подхода на основе шаблонов с контролируемым машинным обучением для извлечения турецких синонимов. Они создали некоторые лексико-синтаксические модели для очень большого корпуса на основе определенных грамматических отношений между словами. Затем они использовали эти шаблоны в качестве признаков для логистической регрессии в качестве контролируемого классификатора машинного обучения для обнаружения синонимов, получив F-показатель 80,3%.

Встраивания слов фиксируют некоторые отношения между словами. Однако они не могут определить тип отношения или сходство или родство двух слов.Таким образом, некоторые исследователи пытались использовать наблюдение из языковых тезаурусов для обучения чувствительных вложений слов для семантических отношений. Одно исследование Ono et al. [15] предложили модель обучения встраиванию слов для обнаружения антонимов с использованием информации о распространении необработанного текста статей Википедии и информации тезаурусов, включая WordNet [1] и Roget [28]. Они модифицировали целевую функцию SkipGram (SG) и использовали контролируемую информацию о синонимах и антонимах из тезаурусов с информацией о распределении из крупномасштабных немаркированных текстовых данных. Кроме того, они оценили свою модель с помощью задачи обнаружения антонимов GRE и получили F-показатель 89%.

Используя аналогичный подход, Dou et al. [16] предложили новую модель обучения встраиванию слов, Word Embeddings Using Thesauri and SentiWordNet (WE-TSD). В этой модели исследователи изменили целевую функцию модели SG и внедрили информацию об антонимах и синонимах из тезауруса во вложения. Они оценивали свои вложения в трех задачах: обнаружение антонимов GRE, сходство слов и семантическое сходство текста. Их модель получила F-балл 92 % в задаче обнаружения антонимов GRE.

Нгуен и др. [17] предложили модификацию модели SG Word2Vec путем интеграции информации о дистрибутивном лексическом контрасте в качестве наблюдения за встраиванием слов и изменения целевой функции SG. Они усилили доминирующие признаки сходства слов на основе признаков лексического контраста с помощью тезауруса. Их встраивания достигли точности от 0,66 до 0,76 для прилагательных, существительных и глаголов при различении синонимов и антонимов и превзошли продвинутые модели при угадывании сходства слов в SimLex-999.

2.2. Неконтролируемые подходы

В отличие от контролируемых подходов, неконтролируемые подходы не требуют маркировки данных при обучении с минимальным участием человека. Чжан и др. [18] использовали вложения Word2Vec со спектральной кластеризацией для автоматического извлечения синонимов. Они обучили корпус английской Википедии с помощью модели Word2Vec, выбрали несколько ключевых слов из корпуса, а затем извлекли наиболее похожие слова для каждого из них на основе их косинусного сходства. Далее строился граф с матрицей смежности термов. Наконец, они сгруппировали похожие слова, используя спектральную кластеризацию. Для оценки они сравнили использование спектральной кластеризации с кластеризацией K-средних. Спектральная кластеризация превзошла кластеризацию K-средних и достигла точности 80,8 %, полноты 74,4 % и F-показателя 77,5 %.

Леувенберг и др. создал автоматический подход к извлечению синонимов с использованием встраивания слов на двух языках, английском и немецком [19]. Они использовали корпус NewsCrawl, пометили его тегами части речи (POS) и обучили его различным моделям встраивания слов, Word2Vec, SG с непрерывным набором слов (CBOW) и Glove. Затем исследователи оценили использование косинусного сходства для извлечения синонимов из вложений слов и определили, что косинусное сходство не является хорошей мерой для захвата синонимов. Следовательно, они предложили RCS, новую меру, которую можно использовать для захвата синонимов, а не флексий или родственных слов. Затем они автоматически оценили свой подход, используя тезаурусы WordNet и GermaNet, и провели оценку человеком 150 извлеченных пар для каждого языка. Результаты оценки показали, что использование тегов POS и меры относительного косинуса повысило точность извлечения синонимов из встраивания слов для двух языков. Кроме того, было обнаружено, что наилучшей используемой моделью, фиксирующей отношения синонимов, является CBOW. Их модель не зависит от языка и может применяться к другим языкам.

Основываясь на предыдущем исследовании, Мохаммед [21] попытался использовать аналогичную методологию для извлечения синонимов из вложений слов, обученных с помощью моделей Word2Vec. Исследователь обучила свои собственные вложения, используя корпус NewsCrawl 2014. Затем она разработала контролируемый классификатор нейронной сети для классификации синонимов из других родственных слов. Однако контроль и аннотация в ее методологии не подходили для наших целей, поскольку в этом исследовании мы стремимся обучить модель без учителя.

Единственное исследование по извлечению арабских синонимов было проведено AlMaayah et al. [23]. Они создали Quranic Arabic WordNet (QAWN), используя три ресурса: Boundary Annotated Quran, некоторые ресурсы лексики, которые использовались для сбора набора производных слов для слов Quranic, и некоторые традиционные арабские словари. Они представили Коран с помощью VSM и извлекли значение слова Корана из арабских словарей. Затем они использовали косинусное сходство, чтобы измерить сходство между словами Корана и их извлеченными определениями, группируя похожие слова для создания синсета. Аль-Маая и др. получили 6 918 синсетов, содержащих 8 400 значений слов.Они оценили эффективность синсетов в системе поиска информации и обнаружили, что они увеличили базовую производительность с 7,01% до 34,13% при запоминании. Однако их результаты были очень низкими с точки зрения точности.

Исходя из предыдущих исследований, мы заметили, что контролируемый подход является наиболее точным. Однако для этого подхода требуются размеченные данные, и он использовался для того, чтобы отличать идентифицированные синонимы от других отношений (т. е. помеченных отношений), а не для извлечения отношений. Исследования встраивания с использованием этого подхода сосредоточены на модификации моделей обучения встраиванию слов для обучения чувствительных вложений слов для конкретных отношений. Модификация требует контроля с использованием больших наборов примеров отношений из лексических тезаурусов, которые доступны не для всех языков. В неконтролируемом подходе любой необработанный текстовый корпус может быть использован для извлечения с помощью методов кластеризации, основанных на гипотезе о распределении. Использование вложений слов для неконтролируемого извлечения отношений очень многообещающе, поскольку такие вложения не зависят от языка. Таким образом, было бы хорошо, если бы мы могли использовать его в качестве отправной точки, поскольку он фиксирует сходство между словами. Однако для фильтрации синонимов из других подобных отношений требуется еще один слой. По этим причинам мы разработали конвейер SynoExtractor для фильтрации арабских синонимов, извлеченных из недавно обученных вложений слов с использованием двух арабских корпусов.

3. Методология

В этом разделе мы представляем нашу методологию, состоящую из двух этапов. На первом этапе мы обучили наши арабские вложения с помощью обширных экспериментов, чтобы определить наилучшие настройки обучения для захвата отношений синонимов. Затем мы использовали SynoExtractor, новый конвейер, который мы разработали для извлечения синонимов путем фильтрации наиболее похожих слов для данного слова с использованием косинусного сходства.

3.1. Обучение встраиванию Word

Чтобы получить вложения слов, которые используются для процесса извлечения синонимов, мы разработали собственные модели вложений арабских слов на основе двух арабских корпусов. На рис. 1 показаны шаги, которые мы выполнили для создания окончательных вложений.

Этапы создания окончательных вложений. (1) Предварительная обработка. (2) Установка гиперпараметров. (3) Обучение встраиванию слов. (4) Оценка для выбора лучших вложений, которые будут использоваться в процессе извлечения синонимов.

Во-первых, мы использовали предварительную обработку двух корпусов (KSUCCA и Gigaword) (подробнее об этих корпусах можно найти в разделе экспериментальной настройки), включая токенизацию, удаление диакритических знаков, удаление английских букв и цифр и нормализацию. На этапе нормализации мы удалили tatweel (Удлинение) (_) и заменили (ة) на ((ه и (أ،إ،آ) на (ا). Затем, используя две модели Word2Vec, CBOW и SG, мы обучили корпуса с различными гиперпараметрами, включая количество векторных измерений, размер контекстного окна и количество итераций обучения.Цель обучения с различными гиперпараметрами заключалась в точной настройке моделей и определении наилучших вложений для извлечения синонимов.Кроме того, на этом этапе мы исследовали эффект добавления POS-тегов к словам перед процессом обучения. Наконец, мы выбрали лучшие модели для использования на этапе извлечения синонимов.

3.2. SynoExtractor

Конвейер SynoExtractor: он начинается с поиска наиболее похожих слов с использованием косинусного сходства для набора исходных слов; затем список наиболее похожих слов фильтруется с помощью фильтров SynoExtractor, чтобы получить окончательный список синонимов.

55-го ежегодного собрания Ассоциации компьютерной лингвистики, Ванкувер, Канада, том.

В материалах 55-го ежегодного собрания Ассоциации компьютерной лингвистики 2, 217–223.

В: Под редакцией Карлгрена Х., Материалы 13-й Международной конференции по компьютерной лингвистике, том 3; 1990 г.; Хельсинки, Финляндия.

219-35) сравнивает классификацию частей речи в компьютерной лингвистике и западной грамматической традиции, где части речи классифицируются в соответствии с их значением, формой и отношением к другим частям речи, с индийскими классификациями, которые основывается главным образом на формальных критериях.

Зонг, "Двуязычные ограничения фраз для машинного перевода", в материалах 52-го ежегодного собрания Ассоциации компьютерной лингвистики, стр.

Примечательно, что все более широкое использование сетевых наук со статистическим обучением [7–9] делает сетевые подходы надежным инструментом в когнитивной науке и компьютерной лингвистике [10, 11].

B Основанная в феврале 2014 года группой специалистов по автоматическому распознаванию речи, связанных с Лабораторией компьютерной лингвистики Пекинского университета, компания Ling Ban — это высокотехнологичное предприятие из Пекина, специализирующееся на разработке и применении интерактивного голосового ответа и автоматического распознавания речи. связанные технологии.

Если бы вам снова пришлось выбирать степень для учебы в университете, вы бы выбрали компьютерную лингвистику?

Ежегодного собрания Ассоциации компьютерной лингвистики и 4-й Международной объединенной конференции по обработке естественного языка AFNLP, стр.

Его основные исследования относятся к области математического анализа, математической и компьютерной лингвистики и компьютерных наук, но он также опубликовал множество статей по различным гуманитарным темам: поэтике, лингвистике, семиотике, философии и истории науки и образования.< /p>

Некоторые из основных тем презентации на конференции включают морфологию, лексикологию, синтаксис, стилистику, анализ дискурса, компьютерную лингвистику и социолингвистику.

Компьютерная лингвистика охватывает практически все, что объединяет естественный язык с вычислениями. Под естественным языком мы подразумеваем естественный человеческий язык. Естественные языки контрастируют с формальными языками, такими как компьютерные языки и логические вычисления, с изобретенными языками, такими как эсперанто и синдарин, и с языками животных, хотя методы компьютерной лингвистики, безусловно, могут быть распространены и на эти другие разновидности языка.

Термин «обработка естественного языка» (NLP) пришел из сообщества искусственного интеллекта и часто рассматривается как синоним вычислительной лингвистики, хотя его можно рассматривать в более узком смысле как относящийся к подразделу искусственного интеллекта, касающемуся обработки языка.

Содержание

[править] Концепции компьютерной лингвистики

Можно выделить как минимум три различных широких концепции компьютерной лингвистики с тремя разными представлениями об общих целях дисциплины.

[править] Вычислительные модели обработки человеческого языка

Возможно, наиболее важной «конечной целью» компьютерной лингвистики является создание системы, которая либо демонстрирует, либо моделирует возможности человеческого языка. Выбор между «демонстрацией» и «моделями» зависит от того, интересует ли человека то, как человеческий язык может обрабатываться в принципе, или, более конкретно, то, как люди обрабатывают человеческий язык. Чтобы быть немного насмешливым, вопрос заключается в том, заинтересованы ли мы в обработке [человеческого языка] или в человеческом [обработке языка].

  • обработка естественного языка направлена ​​на создание «говорящей машины» — работающего артефакта, демонстрирующего способности обработки языка на уровне человека — в качестве подцели создания искусственного интеллекта.
  • компьютерная психолингвистика стремится определить и протестировать формальные вычислительные модели языкового компонента человеческого разума или, более абстрактно, языковых возможностей человека

[править] Технология человеческого языка (HLT)

Небольшие системы искусственного интеллекта конца 60-х и начала 70-х вызвали значительный интерес, и ожидалось, что их масштабирование быстро приведет к созданию настоящего ИИ. Но масштабировать их оказалось очень сложно. Это привело к сосредоточению внимания на краткосрочных целях и выявлению полезных языковых технологий, которые можно было бы создать в ближайшее время. В таких технологиях достигнут значительный прогресс, в том числе:

  • извлечение информации
  • машинный перевод
  • распознавание речи
  • оптическое распознавание символов
  • синтез речи
  • системы разговорного языка
  • языковое обучение с компьютерной поддержкой

Области технологии человеческого языка уделяется так много внимания, что ее часто считают синонимом компьютерной лингвистики.

[править] Цифровая лингвистика

На первый взгляд, компьютерная лингвистика должна относиться к разделу лингвистики, аналогичному "вычислительной биологии" или "вычислительной астрономии". Это, пожалуй, наименее развитая концепция компьютерной лингвистики, отсюда (с другой стороны) та область, в которой можно найти самые легкие плоды. Компьютерная лингвистика в этой концепции представляет собой применение вычислительных методов к научному изучению языка. Вычислительную психолингвистику, упомянутую выше, можно рассматривать как частный случай, но в целом не предполагается, что выполняемые вычисления имеют какое-либо отношение к обработке человеческого языка. Сюда относятся любые вычисления, необходимые для лингвистики, например, автоматическая обработка больших коллекций языковых данных.

Эта статья посвящена научной сфере. Информацию о журнале см. в разделе Компьютерная лингвистика (журнал).

Компьютерная лингвистика — это междисциплинарная область, связанная со статистическим или основанным на правилах моделированием естественного языка с точки зрения вычислений.

Традиционно компьютерной лингвистикой обычно занимались компьютерщики, специализирующиеся на применении компьютеров для обработки естественного языка.Вычислительные лингвисты часто работают в составе междисциплинарных групп, включающих лингвистов (со специальной подготовкой в ​​области лингвистики), языковых экспертов (лиц, обладающих определенным уровнем владения языками, относящимися к данному проекту) и специалистов по информатике. Как правило, в компьютерной лингвистике участвуют лингвисты, компьютерщики, специалисты по искусственному интеллекту, математики, логики, философы, когнитивисты, когнитивные психологи, психолингвисты, антропологи и нейробиологи, среди прочих.

Компьютерная лингвистика имеет теоретический и прикладной компоненты, где теоретическая компьютерная лингвистика занимается вопросами теоретической лингвистики и когнитивистики, а прикладная компьютерная лингвистика фокусируется на практических результатах моделирования использования человеческого языка. [ 1 ]

Содержание

Происхождение

Компьютерная лингвистика как область предшествует искусственному интеллекту, области, в которой ее часто группируют. Компьютерная лингвистика зародилась в Соединенных Штатах в 1950-х годах с целью использования компьютеров для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. [ 2 ] Поскольку компьютеры могут производить арифметические вычисления намного быстрее и точнее, чем люди, считалось, что это лишь короткий вопрос времени, прежде чем можно будет позаботиться о технических деталях, которые позволят им иметь такую ​​же замечательную способность обрабатывать язык. [ 3 ]

Когда машинный перевод (также известный как механический перевод) не сразу дал точные переводы, автоматическая обработка человеческого языка была признана гораздо более сложной, чем первоначально предполагалось. Вычислительная лингвистика родилась как название новой области исследований, посвященной разработке алгоритмов и программного обеспечения для интеллектуальной обработки языковых данных. Когда в 1960-х годах появился искусственный интеллект, область компьютерной лингвистики стала тем подразделением искусственного интеллекта, которое занимается пониманием и созданием естественных языков на человеческом уровне. [ необходима ссылка ]

Чтобы перевести один язык на другой, было замечено, что нужно понимать грамматику обоих языков, включая как морфологию (грамматику словоформ), так и синтаксис (грамматику структуры предложения). Чтобы понять синтаксис, нужно было также понять семантику и лексику (или «словарь») и даже кое-что понять в прагматике использования языка. Таким образом, то, что началось как попытка перевода между языками, превратилось в целую дисциплину, посвященную пониманию того, как представлять и обрабатывать естественные языки с помощью компьютеров. [ 4 ]

В настоящее время исследования в области компьютерной лингвистики проводятся на кафедрах компьютерной лингвистики, [ 5 ] в лабораториях компьютерной лингвистики, [ 6 ] на кафедрах информатики, [ 7 ] и на кафедрах лингвистики. [ 8 ] [ 9 ]

Подходы

Подобно тому, как компьютерной лингвистикой могут заниматься специалисты в самых разных областях и во множестве отделов, области исследований также могут охватывать широкий спектр тем. В следующих разделах обсуждается часть литературы, доступной по всей области, разбитой на четыре основные области дискурса: лингвистика развития, структурная лингвистика, лингвистическое производство и лингвистическое понимание.

Подходы к развитию

Язык — это навык, который развивается на протяжении всей жизни человека. Этот процесс развития был изучен с использованием ряда методов, и вычислительный подход является одним из них. Развитие человеческого языка накладывает некоторые ограничения, которые делают возможным применение вычислительного метода для его понимания. Например, во время овладения языком человеческие дети в основном сталкиваются только с положительными данными. [ 10 ] Это означает, что в ходе языкового развития индивидуума предоставляются только доказательства того, что является правильной формой, а не доказательства того, что неправильно. Этой информации недостаточно для простой процедуры проверки гипотезы о такой сложной информации, как язык [ 11 ], и поэтому она обеспечивает определенные границы для вычислительного подхода к моделированию развития и приобретения языка у человека.

Были предприняты попытки смоделировать процесс развития овладения языком у детей с вычислительной точки зрения. Работа в этой области также была предложена в качестве метода объяснения эволюции языка на протяжении истории. Используя модели, было показано, что языки могут быть изучены наиболее эффективно с комбинацией простого ввода, сначала представленного постепенно, и ребенок развивает лучшую память и более продолжительное внимание. [ 12 ] Это одновременно представлялось причиной длительного периода развития человеческих детей.[ 13 ] Оба вывода были сделаны из-за силы нейронной сети, созданной проектом.

Способность младенцев развивать речь также была смоделирована с помощью роботов [ 14 ] для проверки лингвистических теорий. Имея возможность учиться, как дети, модель была создана на основе модели доступности, в которой сопоставления между действиями, восприятием и эффектами были созданы и связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов со значениями, не нуждаясь в грамматической структуре, что значительно упростило процесс обучения и пролило свет на информацию, которая способствует современному пониманию языкового развития. Важно отметить, что эту информацию можно было проверить только эмпирически с использованием вычислительного подхода.

Поскольку наше понимание языкового развития человека в течение жизни постоянно улучшается с помощью нейронных сетей и обучающихся роботизированных систем, важно также помнить, что сами языки меняются и развиваются с течением времени. Вычислительные подходы к пониманию этого явления дали очень интересную информацию. Используя уравнение цены и динамику урны Полиа, исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об истории эволюции современных языков. [ 15 ] Это усилие по моделированию достигло с помощью компьютерной лингвистики того, что иначе было бы невозможно.

Ясно, что понимание языкового развития у людей, а также на протяжении всего эволюционного времени было фантастически улучшено благодаря достижениям в области компьютерной лингвистики. Возможность моделировать и модифицировать системы по своему усмотрению предоставляет науке этический метод проверки гипотез, который в противном случае был бы неразрешим.

Структурные подходы

Чтобы создавать более совершенные вычислительные модели языка, крайне важно понимать структуру языка. С этой целью английский язык был тщательно изучен с использованием вычислительных подходов, чтобы лучше понять, как язык работает на структурном уровне. Одним из наиболее важных аспектов изучения лингвистической структуры является наличие больших лингвистических корпусов. Это дает вычислительным лингвистам необработанные данные, необходимые для запуска их моделей и лучшего понимания базовых структур, присутствующих в огромном количестве данных, содержащихся в любом отдельном языке. Одним из наиболее цитируемых английских лингвистических корпусов является Penn Treebank. [ 16 ] Этот корпус, содержащий более 4,5 миллионов слов американского английского, был аннотирован для информации о частях речи. Этот тип аннотированного корпуса позволяет другим исследователям применять гипотезы и меры, которые в противном случае было бы невозможно выполнить.

Также были представлены теоретические подходы к структуре языков. Эти работы позволяют компьютерной лингвистике иметь основу для разработки гипотез, которые будут способствовать пониманию языка множеством способов. Один из оригинальных теоретических тезисов об интериоризации грамматики и структуры языка предлагал два типа моделей. [ 17 ] В этих моделях изученные правила или шаблоны усиливаются по мере того, как частота их встречается. [ 18 ] Эта работа также поставила перед компьютерными лингвистами вопрос, на который нужно ответить: как младенец выучит специфическую и ненормальную грамматику (нормальную форму Хомского), не выучив чрезмерно обобщенную версию и не застряв [ 19 ]? Теоретические усилия, подобные этим, задают направление для исследований в области изучения на ранних этапах существования и имеют решающее значение для развития области.

Структурная информация о языках позволяет обнаруживать и осуществлять распознавание сходства между парами текстовых высказываний. [ 20 ] Например, недавно было доказано, что на основе структурной информации, присутствующей в паттернах человеческого дискурса, концептуальные графики повторения могут использоваться для моделирования и визуализации тенденций в данных и создания надежных мер сходства между естественными текстовыми высказываниями. [ 21 ] Этот метод является мощным инструментом для дальнейшего изучения структуры человеческого дискурса. Без вычислительного подхода к этому вопросу чрезвычайно сложная информация, представленная в данных дискурса, осталась бы недоступной для ученых.

Информация о структурных данных языка доступна не только для английского, но и для других языков, например японского. [ 22 ] Используя вычислительные методы, были проанализированы корпуса японских предложений, и была обнаружена закономерность логарифмической нормальности по отношению к длине предложения. [ 23 ] Хотя точная причина этой логарифмической нормальности до сих пор остается неизвестной, именно такого рода интригующую информацию призвана раскрыть вычислительная лингвистика.Эта информация может привести к дальнейшим важным открытиям, касающимся базовой структуры японского языка, и может оказать любое влияние на понимание японского языка как языка. Вычислительная лингвистика позволяет вносить очень интересные дополнения в базу научных знаний быстро и практически без сомнений.

Без вычислительного подхода к структуре лингвистических данных большая часть информации, доступной сейчас, все еще была бы скрыта под огромным объемом данных в рамках любого отдельного языка. Вычислительная лингвистика позволяет ученым надежно и эффективно анализировать огромные объемы данных, создавая возможности для открытий, которых нет в большинстве других подходов.

Подходы к производству

Создание языка столь же сложно с точки зрения информации, которую оно предоставляет, и необходимых навыков, которыми должен обладать беглый производитель. Другими словами, понимание — это только полдела общения. Другая половина — это то, как система производит язык, и компьютерная лингвистика сделала несколько очень интересных открытий в этой области.

В ныне известной статье, опубликованной в 1950 году, Алан Тьюринг предположил, что однажды машины смогут «думать». В качестве мысленного эксперимента для определения того, что может определить концепцию мышления машин, он предложил «имитационный тест», в котором человек ведет два текстовых разговора, один с другим человеком, а другой с машиной, пытающейся ответить как человек. . Тьюринг предполагает, что если субъект не может отличить человека от машины, можно сделать вывод, что машина способна мыслить. [ 24 ] Сегодня этот тест известен как тест Тьюринга и остается влиятельной идеей в области искусственного интеллекта.

Одним из самых ранних и наиболее известных примеров компьютерной программы, предназначенной для естественного общения с людьми, является программа ELIZA, разработанная Джозефом Вейценбаумом в Массачусетском технологическом институте в 1966 году. Пользователь. Казалось, что он способен понимать, что ему говорят, и разумно реагировать, но на самом деле он просто следовал процедуре сопоставления с образцом, основанной на понимании лишь нескольких ключевых слов в каждом предложении. Его ответы были сгенерированы путем рекомбинации неизвестных частей предложения вокруг правильно переведенных версий известных слов. Например, во фразе «Кажется, ты меня ненавидишь» ЭЛИЗА понимает «ты» и «я», что соответствует общему шаблону «ты [некоторые слова] меня», что позволяет ЭЛИЗА обновить слова «ты» и «я» на «Я» и «ты» и ответ «Почему ты думаешь, что я тебя ненавижу?». В этом примере ЭЛИЗА не понимает слова «ненависть», но оно и не требуется для логического ответа в контексте этого типа психотерапии. [ 25 ]

Некоторые проекты все еще пытаются решить проблему, из-за которой компьютерная лингвистика впервые стала отдельной областью. Однако методы стали более изощренными и умными, и, следовательно, результаты, полученные компьютерными лингвистами, стали более информативными. В целях улучшения компьютерного перевода было проведено сравнение нескольких моделей, в том числе скрытых марковских моделей, методов сглаживания и их конкретных усовершенствований для применения к переводу глаголов. [ 26 ] Было обнаружено, что модель, обеспечивающая наиболее естественные переводы немецких и французских слов, представляет собой усовершенствованную модель выравнивания с зависимостью первого порядка и моделью рождаемости[16]. Они также предоставляют эффективные алгоритмы обучения для представленных моделей, которые могут дать другим ученым возможность улучшить свои результаты. Этот тип работы характерен для компьютерной лингвистики и имеет приложения, которые могут значительно улучшить понимание того, как язык создается и понимается компьютерами.

Также была проделана работа по тому, чтобы компьютеры воспроизводили язык в более естественной манере. Используя лингвистический ввод от людей, были созданы алгоритмы, способные изменять стиль производства системы на основе такого фактора, как лингвистический ввод от человека, или более абстрактных факторов, таких как вежливость или любой из пяти основных аспектов личности. [ 27 ] В этой работе используется вычислительный подход с использованием моделей оценки параметров, чтобы классифицировать широкий спектр языковых стилей, которые мы наблюдаем у разных людей, и упростить его для работы компьютера таким же образом[11], что делает взаимодействие человека с компьютером намного более естественным.

Подходы к пониманию

Большая часть внимания современной компьютерной лингвистики сосредоточена на понимании. С распространением Интернета и изобилием легкодоступной письменной человеческой речи возможность создать программу, способную понимать человеческий язык, открыла бы много широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматизированное обслуживание клиентов и онлайн-обучение.

Ранние работы в области понимания включали применение байесовской статистики к задаче оптического распознавания символов, как показано Бледсо и Броуингом в 1959 году, когда большой словарь возможных букв был сгенерирован путем «обучения» из букв-примеров, а затем вероятности того, что любой один из этих изученных примеров соответствовал новому вводу, который был объединен для принятия окончательного решения. [ 28 ] Другие попытки применить байесовскую статистику к языковому анализу включали работу Мостеллера и Уоллеса (1963), в которой анализ слов, используемых в статьях федералистов, использовался для попытки определить их авторство (приходя к выводу, что Мэдисон, скорее всего, является автором большинство документов). [ 29 ]

В 1979 году Терри Виноград разработал ранний механизм обработки естественного языка, способный интерпретировать естественно написанные команды в простой среде, управляемой правилами. Программа синтаксического анализа основного языка в этом проекте называлась SHRDLU, которая была способна вести несколько естественный диалог с пользователем, дающим ей команды, но только в рамках игрушечной среды, предназначенной для этой задачи. Эта среда состояла из блоков различной формы и цвета, и SHRDLU мог интерпретировать такие команды, как «Найди блок, который выше того, который ты держишь, и положи его в коробку». и задавать такие вопросы, как «Я не понимаю, какую пирамиду вы имеете в виду». в ответ на ввод пользователя. [ 30 ] Несмотря на то, что этот вид обработки естественного языка впечатляет, он оказался гораздо более сложным за пределами ограниченных возможностей игрушечной среды. Точно так же проект, разработанный НАСА под названием LUNAR, был разработан, чтобы дать ответы на естественно письменные вопросы о геологическом анализе лунных пород, возвращенных миссиями Аполлона. [ 31 ] Такого рода проблемы называются ответами на вопросы.

Первоначальные попытки понять устную речь были основаны на работах, проведенных в 1960–1970-х годах в области моделирования сигналов, когда неизвестный сигнал анализируется для поиска закономерностей и прогнозов на основе его истории. Первоначальный и несколько успешный подход к применению такого рода моделирования сигналов к языку был достигнут с использованием скрытых моделей Маркова, подробно описанных Рабинером в 1989 г. [32] Этот подход пытается определить вероятности для произвольного числа моделей, которые могут быть использованы. используется для генерации речи, а также для моделирования вероятностей различных слов, сгенерированных из каждой из этих возможных моделей. Подобные подходы использовались в ранних попытках распознавания речи, начиная с конца 70-х годов в IBM, с использованием вероятностей пар слово/часть речи. [ 33 ]

В последнее время такие статистические подходы применялись к более сложным задачам, таким как идентификация тем с использованием оценки байесовских параметров для определения вероятностей тем в текстовых документах. [ 34 ]

Подполя

Компьютерную лингвистику можно разделить на основные области в зависимости от среды обрабатываемого языка, будь то устная или текстовая; и в зависимости от выполняемой задачи, будь то анализ языка (распознавание) или синтез языка (генерация).

Распознавание речи и синтез речи связаны с тем, как разговорный язык может быть понят или создан с помощью компьютеров. Синтаксический анализ и генерация — это подразделения компьютерной лингвистики, занимающиеся, соответственно, разбором языка и его соединением. Машинный перевод остается подразделением компьютерной лингвистики, занимающимся компьютерным переводом между языками.

Некоторые из областей исследований, изучаемых компьютерной лингвистикой, включают:

    естественного языка, в значительной степени смоделированного на теории автоматов, с применением контекстно-зависимой грамматики и линейно ограниченных машин Тьюринга. включает в себя определение подходящей логики для представления лингвистического значения, автоматическое их построение и рассуждения с ними
  • Компьютерная корпусная лингвистика
  • Разработка парсеров или чанкеров для естественных языков
  • Разработка тегов, таких как POS-теггеры (теггеры частей речи), как одного из самых ранних и сложных приложений компьютерной лингвистики опирается на многие подобласти.
  • Моделирование и изучение языковой эволюции в исторической лингвистике/глоттохронологии.

Ассоциация компьютерной лингвистики определяет компьютерную лингвистику как:

<р>. научное изучение языка с вычислительной точки зрения. Компьютерные лингвисты заинтересованы в предоставлении вычислительных моделей различных видов языковых явлений. [ 35 ]

Вы должны — в нашем бесплатном онлайн-словаре более 200 000 слов, но вы ищете только одно из словарей Merriam-Webster Unabridged Dictionary.

Начните бесплатную пробную версию сегодня и получите неограниченный доступ к крупнейшему словарю Америки с:

  • Более 250 000 слов, которых нет в нашем бесплатном словаре.
  • Расширенные определения, этимология и примечания по использованию
  • Расширенные функции поиска
  • Без рекламы!

Первое известное использование компьютерной лингвистики

1961 г. в значении, определенном выше

Узнайте больше о компьютерной лингвистике

Поделиться компьютерной лингвистикой

Путешественник во времени для компьютерной лингвистики

Первое известное использование компьютерной лингвистики было в 1961 году

.

Словарные статьи рядом с компьютерной лингвистикой

Статистика для компьютерной лингвистики

Процитировать эту запись

СЛОВО ДНЯ

уничтожить

Получайте новости дня ежедневно по электронной почте!

Проверьте свой словарный запас

Назовите это животное

Сможете ли вы правильно написать эти 10 слов с ошибками?

Ежедневное задание для любителей кроссвордов.

Подпишитесь на крупнейший словарь Америки и получите тысячи дополнительных определений и расширенный поиск без рекламы!

Относительно неправильного использования слова "Decimate"

Хватит жаловаться на это слово

Слова недели — 25 марта

Мы изучаем «Акт Люка», «торнадо» и многое другое

Отчужденность, слабохарактерность и другие слова для интровертов

Слова для застенчивых и застенчивых

Непонятные слова

Мы стремимся предоставить вам самые редкие слова

Завершение предложения предлогом

Старое правило, с которым мы больше не можем мириться.

Слов года: 1066

Английский язык уже никогда не был прежним после норманнского завоевания

Как запомнить слова «влияние» и «эффект»

Простой способ разделить их. (В большинстве случаев.)

Слово-призрак

Вымышленное слово, которое проскользнуло мимо наших редакторов

Назовите эту еду

Можете ли вы отличить макаруны от макаронс?

Отличные слова для Scrabble

Читайте также: