Cuneiform не может записывать изображения Windows 10

Обновлено: 21.11.2024

Гонсало Рубио целыми днями читает мертвые языки, на которых не говорят уже тысячи лет. Ассириолог из Пенсильванского государственного университета Рубио изучает самые первые в мире письменные языки, шумерский и аккадский, которые использовались в древней Месопотамии (на территории современного Ирака).

Первый шумерский язык появился почти 5 000 лет назад, около 3 100 года до н. э. Это письмо было нацарапано на мягких глиняных табличках остроконечной палочкой, вырезанной в форме клина. Археологи называют это первое письмо «клинописью» от латинского «cuneus», что означает клин.

Шумерский и аккадский языки были языками древней месопотамской цивилизации, которая процветала в бронзовом веке в регионе, который часто называют колыбелью цивилизации, потому что он породил первые в мире сложные городские культуры. Здесь были развиты не только письменные языки, но и важные достижения в науке, математике, искусстве и политике. Рубио поговорил с LiveScience о том, что рассказывают о затерянном мире любовная поэзия этих древних людей и квитанции о продаже.

LiveScience: Что такого интересного в ассириологии и что вас в ней привлекло?

Рубио: Постоянно появляются новые архивы и новые тексты; археологические памятники в Сирии и даже в Ираке, несмотря на нынешнюю ситуацию, регулярно дают новые материалы. Это невероятно захватывающая область, в которой точки зрения и предположения должны постоянно модифицироваться и уточняться в свете новых данных. Я чувствовал, что мне нужно работать в сфере, в которой я мог бы не только говорить новое, но и видеть новое.

LiveScience: Что значит называть шумерский и аккадский мертвыми языками?

Рубио: Шумерский и аккадский — мертвые языки в самом буквальном смысле: они вымерли навсегда, и никто не знал их, не мог их читать или преподавать на них почти два тысячелетия. Аккадский снова стали понимать в середине 19 века, а шумерский по-настоящему только в 20 веке. В отличие от таких языков, как латынь, греческий и иврит, не существует непрерывной традиции изучения шумерского и аккадского языков. Сама их мертвость представляет собой невероятный интеллектуальный вызов для современных ученых, и вызовы по своей сути привлекательны.

LiveScience: Каково это — изучать мертвый язык?

Рубио: Во многих отношениях мы реанимируем мертвую цивилизацию, понимая ее мертвые языки. При изучении экономических документов древней Месопотамии встречаются имена лиц, заключающих договор или совершающих покупку, обычно в присутствии нескольких поименованных свидетелей: это все люди, жившие три или четыре тысячи лет назад, люди, чьи имена были забыты и закопаны в песок, пока современные ученые не вернули их к жизни в своих статьях и книгах.

Когда ассириолог держит в руках табличку с клинописными письменами, будь то на шумерском или на аккадском языке, есть шанс, что он или она может быть первым человеком, который снова прочитает этот текст после тысячелетий забвения. Даже если человек не эпиграф, впервые взглянувший на таблички, найденные на месте археологических раскопок, даже ученый, читающий тексты в музее, у него возникает непреодолимое чувство открытия и восстановления, волнение от возрождения цивилизации путем понимания это, текст за текстом, планшет за планшетом.

LiveScience: Вы когда-нибудь разговаривали на шумерском или аккадском языках с другими исследователями?

Рубио: Мы даже не пытаемся. Поскольку это мертвые языки, на которых не говорили и не писали в течение тысячелетий, нет особого смысла пытаться генерировать новые тексты или предложения. Даже акт высказывания может быть сложным. В случае с шумерским было бы ограниченное соглашение о том, как на самом деле произносить многие слова. В случае с аккадским есть очень интересный проект молодого коллеги из Кембриджского университета Мартина Уортингтона, который просит ассириологов записывать, как они читают отрывки из «Вавилонского Гильгамеша» и других произведений. [«Вавилонский Гильгамеш» — старейшая в мире эпическая поэма.]

LiveScience: Какие документы остались с того времени?

Рубио: Наряду с литературными сочинениями, мифами, королевскими надписями и королевскими анналами у нас есть десятки тысяч экономических документов, всевозможных юридических текстов, тысячи и тысячи писем всех периодов и другие записи, которые открывают многочисленные окна в повседневная жизнь древних жителей Месопотамии.

Более того, у нас есть тексты, охватывающие все аспекты интеллектуальной жизни человека, помимо экономики, политики и литературы, такие как научные и академические тексты всех жанров (медицинские, математические, астрономические и астрологические тексты).Мы можем углубиться в тонкие и не очень тонкие различия между официальным культом (о чем свидетельствуют многие ритуалы) и народной религией и религиозностью, проблески которых мы получаем в магических текстах, заклинаниях, гадательных текстах и ​​так далее. Жители Месопотамии особенно интересовались гаданием, поскольку у нас есть ряд захватывающих серий предзнаменований, которые идут от небесных предзнаменований до предзнаменований печени — они наблюдали за печенью забитой овцы в соответствии с ранее существовавшими глиняными моделями печени и искали нарушения, которые они интерпретировали как знаки.

Ассириолог может перейти от чтения любовной поэмы или рассказа о деяниях мифического царя или божества к медицинским текстам об эпилепсии или приметам о сексуальном поведении. Количество информации, которую можно извлечь из этих многочисленных текстов и жанров текстов, настолько впечатляет, что многие ассириологи в последние десятилетия становятся все более и более специализированными.

LiveScience: Как вы думаете, древние жители Месопотамии сильно отличались от современных людей?

Рубио: Нет, совсем нет. Идиома, используемая для передачи своего опыта, может быть обусловлена ​​культурой и контекстом. Но у всех нас есть схожие страхи и желания. Чтение месопотамских писем, например, часто открывает окно в повседневную жизнь людей, чьи стремления, симпатии и антипатии не отличаются от наших. Верно то, что некоторые авторы говорили о резком различии в восприятии или в природе осознания между древними культурами и цивилизациями и нашей; но я твердо верю, что такие предположения в основном являются этноцентрической ерундой.

LiveScience: Насколько похожи аккадский и шумерский языки на современные языки?

Рубио: аккадский — это семитский язык, поэтому по грамматике и структуре он очень похож на арабский и иврит.

Шумерский язык совсем другой. С точки зрения структуры шумерский язык гораздо ближе, например, к языкам американских индейцев, чем к аккадскому. Современные языки, структурно напоминающие шумерский (хотя они совсем не связаны между собой и не имеют родственных языков), включают японский, турецкий, финский и венгерский.

LiveScience: Как развитие первой письменности стало важным поворотным моментом для человеческой цивилизации?

Рубио: Письмо представляет собой очень полезную и революционную технологию. Важно отметить, что не нужно быть грамотным, чтобы письмо было важным. В древней Месопотамии лишь небольшая группа людей была достаточно грамотна, чтобы читать таблички или надписи. Из всех месопотамских царей всех месопотамских городов в течение трех тысячелетий, вероятно, только один из них можно с достаточной уверенностью назвать грамотным: Ашшурбанипал. [Его также называют последним «великим» царем Ассирии.]

Тем не менее, письмо с его многочисленными функциями и престижем, безусловно, оказало влияние на всех. Наличие письменности может изменить характер экономических операций и юридических решений, поскольку создает систему учета, которая, безусловно, имеет практические и даже познавательные последствия.

Письмо также становится основным инструментом в государственном аппарате, как средством контроля через записи и даже бюрократию, так и средством политической пропаганды. Можно было бы и не прочитать надпись царя Хаммурапи или прокламацию председателя Мао, но их присутствие и демонстрация в общественном месте играют важную роль в том, как государство влияет на мнение людей, формирует их волю и вырабатывает общественное согласие. . Даже для неграмотного человека официальная или королевская надпись — это больше, чем предмет для разговора: часто это может стать препятствием для разговора.

LiveScience: Ученые считают, что шумерский был первым письменным языком в мире, но возможно ли, что разговорные языки появились гораздо раньше?

Рубио: Наверняка до шумерского существовали языки, но у них не было письменности. Языки без письменности исчезают, когда умирают их носители.

Некоторые специалисты по эволюции человека относят развитие способности к языковому (или похожему на язык) общению примерно 500 000 лет назад. Возраст самых ранних месопотамских письменных текстов составляет около 5000 лет. Так что было много разговоров, прежде чем кто-то сообразил что-то записать.

Роли Концептуализация, Курирование данных, Формальный анализ, Получение финансирования, Исследование, Методология, Администрирование проекта, Ресурсы, Надзор, Написание — первоначальный проект, Написание — проверка и редактирование

Аффилиация Факультет социальных и гуманитарных наук, лаборатория Digital Humanities Ariel Lab, Университет Ариэля, Ариэль, Израиль

В равной степени участвовали в этой работе: Гай Гутерц, Ариэль Элазари

Роли: Курирование данных, Формальный анализ, Исследование, Методология, Программное обеспечение, Написание — первоначальный проект

Школа компьютерных наук, Тель-Авивский университет, Тель-Авив, Израиль

В равной степени участвовали в этой работе: Гай Гутерц, Ариэль Элазари

Роли: Курирование данных, Формальный анализ, Исследование, Методология, Программное обеспечение, Написание — первоначальный проект

Школа компьютерных наук, Тель-Авивский университет, Тель-Авив, Израиль

Роли Курирование данных, Формальный анализ, Исследование, Методология, Администрирование проекта, Проверка, Визуализация, Написание — исходный проект, Написание — просмотр и редактирование

Принадлежность Якоб М. Алков Кафедра археологии и древних ближневосточных цивилизаций, Тель-Авивский университет, Тель-Авив, Израиль

Роли Финансирование приобретения, Ресурсы, Надзор, Написание – обзор и редактирование

Принадлежность Института ассириологии и хеттитологии Мюнхенского университета Людвига-Максимилиана, Мюнхен, Германия

Наблюдение за ролями, написание текстов – просмотр и редактирование

Школа компьютерных наук, Тель-Авивский университет, Тель-Авив, Израиль

Концептуализация ролей, получение финансирования, ресурсы, надзор, написание текстов – обзор и редактирование

Принадлежность Якоб М. Алков Кафедра археологии и древних ближневосточных цивилизаций, Тель-Авивский университет, Тель-Авив, Израиль

  • Шай Гордин,
  • Гай Гутерц,
  • Ариэль Элазари,
  • Авиталь Ромах,
  • Энрике Хименес,
  • Джонатан Берант,
  • Йорам Коэн

Цифры

Аннотация

В этой статье мы представляем новый метод автоматической транслитерации и сегментации клинописных глифов Unicode с использованием методов обработки естественного языка (NLP). Клинопись — одна из древнейших известных систем письма в мире, которая документирует тысячелетия человеческих цивилизаций на древнем Ближнем Востоке. Сотни тысяч клинописных текстов были найдены в девятнадцатом и двадцатом веках нашей эры, большинство из которых написано на аккадском языке. Однако предстоит опубликовать еще десятки тысяч текстов. Мы используем модели, основанные на алгоритмах машинного обучения, таких как рекуррентные нейронные сети (RNN), с точностью до 97% для автоматической транслитерации и сегментации стандартных клинописных глифов Unicode в слова. Таким образом, наш метод и результаты представляют собой важный шаг к созданию человеко-машинного интерфейса для создания оцифрованных изданий. Наш код, Akkademia, общедоступен для использования через веб-приложение, пакет Python и репозиторий github.

Редактор: Марко Липпи, Университет Модены и Реджо-Эмилии, ИТАЛИЯ

Получено: 27 апреля 2020 г.; Принято: 29 сентября 2020 г.; Опубликовано: 28 октября 2020 г.

Авторское право: © 2020 Гордин и др. Эта статья находится в открытом доступе и распространяется в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника.

Финансирование: это исследование было поддержано Министерством науки и технологий Израиля, грант №. 3-16464 (Ш.Г.) и Совместный исследовательский проект по биофизике LMU Мюнхен - Тель-Авивский университет, Грант №. 3492 (YC и EJ). Спонсоры не участвовали в разработке исследования, сборе и анализе данных, принятии решения о публикации или подготовке рукописи.

Конкурирующие интересы. Авторы заявили об отсутствии конкурирующих интересов.

Введение

Кинопись — одна из древнейших форм письменности, известных в истории человечества. На нем писали на одном из основных языков древнего мира — аккадском, который, как и иврит и арабский, относится к семитской языковой семье. Около 2500 лет человеческой деятельности были записаны на нескольких диалектах этого языка на большей части древнего Ближнего Востока. Всего в музеях по всему миру хранится не менее 600 000 глиняных табличек с надписями и сотни надписей на камнях и других материалах. Аккадский язык является нашим основным культурным источником самых выдающихся цивилизаций древнего Ближнего Востока: к ним относятся Аккадская империя Саргона в третьем тысячелетии до н.э., империи позднего бронзового века, для которых аккадский язык служил языком франка, а также Неоассирийской, Нововавилонской и частично также Персидской империй. На аккадском языке было написано множество текстов, таких как царские надписи, литература, научные и лексические сборники, сочинения мудрости и литургическая литература, переписка, а также юридические, административные и экономические документы. Из каждого из этих жанров можно почерпнуть различные аспекты жизни древней Месопотамии. Даже в эллинистический период производство текстов продолжалось, в основном в вавилонских храмовых общинах: последние датированные клинописные документы были написаны в I в. н.э. [1, 2]. Таким образом, клинописные источники имеют отношение к ранней истории человечества и к истории древнего Ближнего Востока в ее культурном контексте. Фотографию клинописной таблички для наглядности можно увидеть на рис. 1.

Это фундаментная надпись, захороненная под дворцом Ашурнасирпала в городе Апку (современный Телль Абу Марья, см. ссылку [3]), где она была обнаружена тысячелетия спустя археологами. После указания титулов царя текст представляет собой базовую надпись, написанную на золоте и серебре (рядом с золотом была найдена серебряная копия этой копии). Это аномалия для клинописных текстов, которые обычно писались на глине. Поэтому эти надписи являются символом большого богатства и расточительности. Он заканчивается формулами проклятия для более поздних князей, которые осмелятся стереть имя Ашурнасирпала из его надписей. В настоящее время он находится в вавилонской коллекции Йельского университета (YBC 2398; YPM BC 16991), переиздан из Йельского музея естественной истории Пибоди по лицензии CC BY и с разрешения Клауса Вагенсоннера, исходное авторское право 2020 г.

Несмотря на свою важность, многие клинописные документы остаются неопубликованными, а массивы информации, которые они содержат, ограничены хорошо изученными корпусами и историческими периодами. Частично это связано с тем, что состояние сохранности материалов иногда плохое, что затрудняет чтение знаков или символов, отпечатанных в основном на трехмерной поверхности. Это делает процесс чтения трудным и громоздким. Кроме того, существуют дополнительные трудности, связанные с природой клинописной системы письма, см. раздел Постановка задачи.

В этой статье мы представляем результаты нашего совместного проекта по автоматической транслитерации и сегментации клинописных знаков Юникода (для создания клинописи Юникода диапазон U+12000—U+123FF, см. [4]). Конечная цель состоит в том, чтобы создать инструмент, который может помочь ученым в создании текстовых изданий. Этот инструмент предложит наиболее вероятную транслитерацию, которая потребует минимального количества исправлений. Таким образом, это ускорит процесс публикации текстов и их предоставления ученым.

Постановка задачи

Перевод клинописных текстов на современные языки требует трех шагов: (1) пошаговая транслитерация; 2) членение слов, т. е. объединение отдельных чтений знаков в слова, которые обозначаются дефисом (-) или точкой (.); (3) перевод на современный язык. Первый этап жизненно важен из-за поливалентной природы клинописи, т. е. почти каждый знак имеет разные возможные прочтения.

Вообще говоря, клинописные знаки-значения можно разделить на три категории: (1) логографические, один знак (или комбинация знаков), представляющий одно слово и обычно записываемый заглавными буквами в современных транслитерациях; (2) фонетические, один знак представляет один слог и обычно пишется курсивом в транслитерациях; и (3) детерминативы, которые являются семантическими классификаторами, цель которых состоит в том, чтобы помочь правильному чтению слова, которое либо следует за ними, либо предшествует им. В транслитерации они пишутся надстрочным индексом. Таким образом, в то время как современная научная традиция различает логограммы, фонетические чтения и детерминативы, клинописные знаки абсолютно одинаковы для всех трех. Например, знак можно прочитать как логограмму ДИНГИР, что означает «бог»; его можно читать по слогам an, как часть слова; и это может быть детерминатив d, появляющийся перед божественными именами. Например, имя Сина, вавилонского бога луны, будет записано и появится в транслитерации как d 30 (бог луны был записан логографически со знаком числа 30; количество дней в лунном месяце).

Кроме того, каждая из этих категорий может содержать более одного значения для любого периода или жанра аккадского языка. Таким образом, один и тот же знак может быть прочитан логографически ДИНГИР, «бог», но также и АН, «небо». В дополнение к наиболее распространенному фонетическому прочтению an, которое встречается в текстах всех периодов, знак имеет еще девять фонетических прочтений, некоторые из которых встречаются только в определенные периоды, регионы или жанры (например, , ilu в Нузи, le4 в Эль-Амарне или шубул в научных текстах).

Как показывают наши результаты, описанный выше процесс определения подходящих показаний знаков путем просмотра контекста предыдущих и последующих знаков может быть эффективно решен с помощью алгоритмов тегирования НЛП. Поэтому результаты нашего проекта могут сделать значительный шаг на пути к новому открытию утраченного наследия древнего Ближнего Востока. Наши модели получают на вход строку стандартных клинописных глифов Unicode и производят сегментированную транслитерацию. Для обучения моделей мы использовали значительное количество существующих транслитераций, для которых уже были сгенерированы строки клинописных глифов Unicode, см. «Связанные работы» и «Материалы и методы». Мы публикуем весь код и данные, использованные в этом проекте, см. здесь.

Похожая работа

Автоматизация процесса создания клинописных текстовых изданий требует конвейера, который решает каждую из следующих трех проблем с различными моделями ИИ: (1) извлечение и визуальное распознавание двухмерных или трехмерных представлений клинописных знаков; (2) автоматическая транслитерация и сегментация; (3) перевод и/или аннотация. В нашем проекте мы предлагаем решение второй проблемы. Для каждого из этих шагов моделям машинного обучения требуются большие объемы обучающих данных. В следующем разделе представлен краткий обзор текущей доступности оцифрованных клинописных данных и состояния дел на каждом этапе разработки.

Крупнейшим хранилищем клинописных цифровых текстовых корпусов является Открытый клинописный корпус с богатыми аннотациями (ORACC). Он содержит десятки тысяч текстов с разным уровнем транслитерации, перевода, аннотаций и метаданных как минимум в 20 различных научных проектах. Однако следует иметь в виду, что ORACC далеко не исчерпывающий для всего клинописного корпуса. Неоассирийский период является наиболее распространенным в ORACC; недавно стали доступны в самых разных форматах (TEI/XML, JSON и TXT) благодаря Мюнхенской инициативе открытого доступа к клинописным корпусам (MOCCI). Инициатива цифровой библиотеки клинописи (CDLI) предлагает на своем веб-сайте более 300 000 текстовых записей, в основном только с метаданными. Многие записи содержат изображения табличек в низком разрешении или только их ручные копии (черно-белые рисунки, изображающие знаки в 2D). Менее половины записей содержат транслитерацию, а некоторые включают переводы. Есть много других онлайн-ресурсов и баз данных для клинописных исследований, слишком много, чтобы упомянуть в рамках этой статьи. Подробный обзор до 2014 года см. у Д. Шарпина [5].

На первом этапе процесса автоматического создания клинописных текстовых изданий необходимо приобрести цифровые копии клинописных табличек. В настоящее время это 3D-сканы, 2D или 2D+ фотографии и изображения ручных копий: рисунки, сделанные ассириологами, имитирующие табличку в двухмерном черно-белом представлении. Ручные копии по-прежнему являются стандартом публикации традиционных клинописных текстовых изданий, и поэтому они существуют в изобилии. До недавнего времени они были наиболее рентабельным методом публикации визуального представления клинописных табличек. Ситуация, однако, сильно различается для 3D и 2D представлений. Несколько крупных проектов разработали эффективные методы 3D- или 2D+ сканирования и фотографий клинописных табличек, например, новаторский, но уже не существующий проект iClay Дж. Коэна et al. [4]. Ведущими методами получения изображений 2D+ в настоящее время являются куполообразные системы полиномиального текстурного картирования (PTM) и визуализации преобразования отражения (RTI), разработанные независимо друг от друга G. Earl et al. [6], с одной стороны, и Х. Хамиева и Г. Виллемса [7], с другой. Кроме того, есть две ведущие исследовательские группы, создающие трехмерные сканы планшетов, которые разрабатывают методы извлечения и идентификации знаков. Совместная группа Дортмунд-Вюрцбург под руководством Г. Мюллера, Г. Финка и Ф. Вейхерта выполнила трехмерное сканирование клинописных фрагментов и создала CuneiformAnalyser. Он отображает трехмерные сканы таблеток, улучшает характеристики, извлекает и распознает признаки, а также реконструирует фрагментарные таблетки [8–10]. Другая группа из Гейдельберга под руководством Х. Мара разработала программное обеспечение GigaMesh, которое также отображает 3D-сканы клинописных табличек и предоставляет филологические инструменты, такие как извлечение знаков [11, 12]. Кроме того, они разрабатывают методы идентификации знаков как по 2D-проекциям 3D-сканов, так и по ручным копиям [13–17]. Наилучшие результаты обычно достигаются при 3D-сканировании, но отсканированных планшетов не хватает. Производство 3D-сканов по-прежнему дорого с точки зрения необходимого оборудования, а также отнимает много времени, поскольку высокое качество, необходимое для алгоритмов машинного обучения, является значительным, и это увеличивает продолжительность отдельных сканирований. Однако в области фотограмметрии произошли изменения: теперь существуют более дешевые и быстрые методы создания 3D-моделей, не требующие специализированного сканера, а использующие поворотный стол и стандартные камеры для создания трехмерного сканирования из нескольких изображений. , иногда достигая более высокого качества изображения, чем стандартный 3D-сканер, см. T. Collins et al. [18].

После того, как знаки извлечены и идентифицированы, их необходимо транслитерировать и сегментировать. Первой исследовательской группой, предпринявшей попытку транслитерации клинописных текстов, стала Б. Богач et al. [19].Они попытались создать конвейер извлечения, идентификации и транслитерации знаков: они взяли 30 растровых изображений ручных копий с соответствующими транслитерациями с веб-сайта Cuneiform Commentary Project (CCP), визуально сегментировали знаки, используя дескрипторы признаков гистограммы ориентированных градиентов (HoG). , и пометил их соответствующей транслитерацией для обучения. Их лучшим алгоритмом была скрытая марковская модель (HMM), но, тем не менее, они достигли низких показателей точности.

Первыми попытками сегментации занялись T. Homburg и C. Chiarcos [20]. Они использовали алгоритмы на основе правил, словарей и машинного обучения, чтобы сегментировать ввод клинописных глифов Unicode, подготовленных из текстов, доступных на веб-сайте CDLI. Они брали тексты древневавилонского, средневавилонского и неоассирийского периодов, обучали и тестировали каждый период времени индивидуально. Их результаты для текстов разных периодов различались, но в целом наиболее эффективными были алгоритмы на основе словаря, первоначально разработанные для китайского и японского языков, со средним F-показателем от 60% до 80%. Они также попытались транслитерировать, разработав базовый уровень, сформированный на основе наиболее распространенной транслитерации для каждого знака, точность которого достигает 40%. Поэтому в этой статье мы представляем наш современный подход к автоматической транслитерации и сегментации клинописных глифов Unicode.

Единственным известным нам проектом, использующим клинописные символы Unicode, является T. Jauhiainen et al. [21], рабочая группа по идентификации языка в клинописных текстах, которая была частью семинара VarDial 2019. Проект использовал в качестве наборов данных тексты из ORACC на шумерском языке и на шести диалектах аккадского языка. Из групп, участвовавших в рабочей группе, третье, четвертое и пятое места опубликовали свои результаты в [22–24] соответственно.

Насколько нам известно, не было публикаций с попытками автоматического перевода текстов, написанных клинописью. Были проведены различные исследования автоматической аннотации клинописных текстов, написанных на шумерском языке. [25–28]. В настоящее время исследовательская группа работает над проектом «Машинный перевод и автоматизированный анализ клинописных языков» (MTAAC) под руководством Х. Бейкера, К. Чиаркоса, Р. Энглунда и Э. Page-Perron: см. [29, 30] и их веб-сайт.

Материалы и методы

Всего они содержат 23 526 строк, каждая из которых рассматривается в качестве примера. Мы разделили каждый корпус следующим образом: 80 % для обучения (18 822 строки), 10 % для проверки (2 352 строки) и 10 % для тестирования (2 352 строки). Полную разбивку корпусов см. в Таблице 1. Эти корпуса также имеют закодированную в Unicode версию клинописи. Это было сгенерировано Cuneify, инструментом, созданным Стивом Тинни, который генерирует строки клинописных глифов Unicode из латинских символов, представляющих транслитерацию. Таким образом, в качестве входных данных мы использовали несегментированные строки закодированной клинописи Unicode, а на выходе — транслитерация с сегментацией латинскими символами.

Разве мы не должны уже жить в безбумажном мире?

Я не могу быть единственным человеком, который воображал, что офис будущего, свободный от ограничений восьми с половиной на одиннадцать листов (или A4, для моих иностранных друзей), уже давно наступил. Вместо этого нам удалось достичь промежуточного состояния не без бумаги, а с меньшим количеством бумаги.

Могло быть и хуже.

Между надежным сканером, электронной почтой и различными другими средствами связи, а также хорошими способностями к организации цифровых архивов, я не совсем доволен тем, что мы имеем сегодня. И я иногда признаюсь, что читаю бумажную книгу, отправляю открытку или (удушье) распечатываю что-нибудь, чтобы подарить кому-то другому.

Пока мир не откажется от бумаги, готовые к печати форматы файлов будут по-прежнему проникать в нашу цифровую среду. Нравится вам это или нет, но PDF, "формат переносимых документов", по-видимому, является популярным форматом для создания и обмена файлами, готовыми к печати, а также для архивирования файлов, которые были созданы как печатные.

В течение многих лет единственным именем в игре для работы с PDF-документами был Adobe Acrobat, будь то в виде их бесплатной версии для чтения или одной из их платных версий для создания и редактирования PDF. Но сегодня существует множество PDF-приложений с открытым исходным кодом, которые подорвали это господство на рынке. А для таких пользователей Linux, как я, проприетарное приложение, работающее только на Windows или Mac, в любом случае не вариант.

Поскольку PDF-файлы используются в самых разных ситуациях и для самых разных целей, вам, возможно, придется поискать альтернативу Adobe Acrobat с открытым исходным кодом, которая точно соответствует вашим потребностям. Вот несколько инструментов, которые мне нравятся.

Чтение PDF-файлов

Для чтения PDF-файлов в наши дни многие люди вообще обходятся без использования внешних приложений. И Firefox, и Chromium, версия браузера Google Chrome с открытым исходным кодом, поставляются в комплекте с программами для чтения PDF в браузере, поэтому большинству пользователей больше не нужен внешний подключаемый модуль.

Чтобы загрузить файлы, у пользователей дистрибутивов Linux на основе GNOME есть Evince (или Atril на ответвление GNOME 2, MATE), мощное средство чтения PDF, которое быстро и легко обрабатывает большинство документов. У Evince также есть порт для Windows, хотя пользователи Windows могут также захотеть проверить SumatraPDF под лицензией GPLv3 в качестве альтернативы. Okular от KDE служит программой чтения PDF для Plasma Desktop. Все они имеют возможность заполнять формы PDF, просматривать и оставлять комментарии, искать текст, выделять текст и т. д.

Если вам нужна универсальная, простая и быстрая программа для чтения PDF, попробуйте xpdf.

Создание PDF-файлов

Лично функция экспорта LibreOffice является источником 95% создаваемых мной PDF-файлов, которые не были созданы для меня веб-приложением. Scribus, Inkscape и GIMP также поддерживают встроенный экспорт PDF, поэтому независимо от того, какой документ вам нужно создать — сложный макет, форматированный текст, векторное или растровое изображение или какую-либо комбинацию — есть приложение с открытым исходным кодом, которое соответствует вашим потребностям.

Практически для любого другого приложения система печати CUPS отлично справляется с выводом документов в формате PDF, поскольку и принтеры, и PDF-файлы полагаются на PostScript для представления данных на странице (независимо от того, является ли страница цифровой или физической).

Если вам не нужны причудливые графические интерфейсы, вы также можете создавать PDF-файлы с помощью простого текста с помощью нескольких удобных команд терминала. У каждого есть свой любимый, но, вероятно, самым популярным является Pandoc, который берет практически любой формат документа и переводит его практически в любой другой формат. Его способность переводить текстовые форматы ошеломляет, так что, вероятно, это все, что вам действительно нужно. Однако есть несколько других решений, включая Docbook, Sphinx и LaTeX.

Редактирование PDF-файлов

Редактирование — многозначный термин. Для некоторых людей редактирование PDF-файла означает изменение нескольких слов или замену старого изображения на новое, в то время как для других это означает изменение метаданных, таких как закладки, а для третьих это означает изменение порядка страниц или настройку разрешения печати. Авторитетный ответ, который никому не нужен: не редактируйте PDF-файлы, редактируйте исходный код, а затем экспортируйте новый PDF-файл. Однако это не всегда возможно, и, к счастью, есть несколько отличных инструментов, позволяющих вносить любые изменения.

LibreOffice Draw отлично справляется с редактированием PDF-файлов, предоставляя вам полный доступ к тексту и изображениям. К этому есть оговорки из-за гибкости формата PDF. Если вы не установили шрифты, используемые в PDF, поток текста может измениться из-за подстановки шрифтов. Если PDF-файл был создан на основе отсканированного изображения, у вас будут только изображения текста, а не редактируемый текст.

Inkscape также хорошо справляется с открытием документов, созданных в другом месте, и может быть более интуитивным выбором, если ваш документ насыщен графикой. Если у вас не установлен шрифт, Inkscape (через средство визуализации Poppler) может отслеживать символы, чтобы внешний вид текста сохранялся даже без фактических данных шрифта. Конечно, при этом теряются текстовые данные (у вас есть только формы букв, а не сам выбираемый текст), но это хорошая функция, когда внешний вид имеет наибольшее значение.

Есть и отдельные инструменты, такие как PDFedit под лицензией GPLv2, но мне так повезло с Inkscape и LibreOffice, что в последние годы мне не приходилось использовать отдельный редактор.

Если ваши задачи редактирования связаны не столько с содержанием, сколько с презентацией, вам может пригодиться команда pdftk-java (PDF ToolKit). Он может извлекать и вставлять метаданные закладок, переупорядочивать и объединять страницы, объединять множество PDF-файлов в один, разбивать PDF-файлы на части и многое другое. Если вы еще не умеете работать с терминалом, у PDFSam есть много подобных функций, но есть графический интерфейс.

Наконец, вы можете настроить свойства PostScript напрямую с помощью команды GhostScript, gs. GhostScript – это интерпретатор PostScript с открытым исходным кодом, поэтому с его помощью вы можете выполнять задачи очень низкого уровня, такие как замена одного шрифта на другой, настройка разрешения изображений или полное удаление изображений.

Поскольку они основаны на терминале, они также являются отличными инструментами для автоматизированных манипуляций.

Мы знаем, что это не единственный выбор в городе. Вы работаете с большим количеством PDF-файлов? У вас есть любимое приложение, которое поможет вам в пути? Сообщите нам в комментариях ниже, что вы используете и почему это работает для вас.

Хотите ли вы читать другие подобные статьи? Подпишитесь на нашу еженедельную рассылку по электронной почте.

Примечание редактора. Эта статья была первоначально опубликована в 2016 году и была обновлена.

  • Часы работы
  • Как добраться
  • Планировщик посещений
  • Посещение школы
  • Посещение с детьми
  • Туристические группы/гиды
  • Специальные возможности
  • Члены
  • Галереи
  • Места, где можно поесть

Вход бесплатный Открыт ежедневно с 10:00 до 17:30, пятница до 20:30

Британский музей Грейт-Рассел-Стрит, Лондон, WC1B 3DG

Музейные истории
Как исследовать Британский музей, не выходя из дома
Будь то виртуальное посещение или уголок куратора, существует множество способов продолжить знакомство с Британским музеем онлайн – вот наши любимые.

Когда мы впервые открыли свои двери в 1759 году, мы с гордостью объявили себя местом для «всех прилежных и любопытных людей». Это миссия, которой мы по-прежнему привержены, даже если вы еще не можете посетить нас лично. Имея это в виду, мы хотели бы поделиться множеством способов, которыми вы можете исследовать наши галереи и коллекцию в Интернете.

Итак, вот 11 способов сохранять любопытство, продолжать учиться и знакомиться с более чем двухмиллионной историей человечества, не выходя за порог дома.

1. Виртуальные музеи с Google Street View

Знаете ли вы, что музей – это крупнейшее в мире крытое пространство в Google Street View? Вы можете совершить виртуальный визит в более чем 60 галерей, что идеально подходит для создания собственного индивидуального тура по вашим любимым местам. Посмотрите на такие достопримечательности, как Розеттский камень в галерее египетских скульптур, или откройте для себя драгоценные камни, такие как красивые ткани в африканских галереях Sainsbury.

Розеттский камень в Google Street View

Помимо того, что Google Street View позволяет вам планировать свой собственный маршрут через наши лабиринты галерей, у вас есть то преимущество, что вы можете увидеть коллекцию, когда в музее блаженная тишина.

2. Продолжайте изучать виртуальные галереи

Мы также предлагаем виртуальные галереи на нашем собственном веб-сайте. Вы можете изучить нашу обширную коллекцию гравюр и рисунков, чтобы увидеть старых мастеров, таких как Дюрер и Микеланджело, или увидеть новые и захватывающие современные произведения. Погрузитесь в невероятную коллекцию Океании и откройте для себя множество предметов из Австралии, Новой Гвинеи и множества островов, разбросанных по южной части Тихого океана.

Пукара, совместная картина художников из племени спинифекс, 2013 г., из Тьюнтджунтьяра, регион Спинифекс, Западная Австралия.

3. Загляните за кулисы с подкастом Museum Podcast

Если вы предпочитаете путешествовать по музею в компании, попробуйте загрузить подкаст Британского музея. Вы присоединитесь к ведущим Сушме Джансари и Хьюго Чепмену, которые проведут вас за кулисы Музея и познакомятся с учеными, кураторами, писателями и художниками.

Недавние приключения Хьюго и Сушмы включают в себя изучение загадочной «мумийной слизи», изучение опасности отравленных стрел в коллекции и посещение собственной рентгеновской лаборатории музея.

Дискобол Таунли в рентгеновской лаборатории музея.

Подкаст Британского музея бесплатен и доступен везде, где вы получаете свои подкасты.

4. Оживите домашнее обучение с помощью наших цифровых ресурсов

Неважно, ищете ли вы немного вдохновения или более подробные ресурсы, мы здесь, чтобы помочь.На нашем веб-сайте музея есть широкий спектр бесплатных учебных ресурсов для детей в возрасте от 3 до 16 лет. Разбудите пытливые умы, рассказав им, как делались египетские мумии, или узнайте, что ели и пили римляне, а затем вместе попробуйте рецепт медового хлеба.

Золотая пряжка для ремня, найденная в Саттон-Ху, Великобритания, начало 7 века нашей эры.

Наши ресурсы охватывают широкий спектр учебных программ, включая историю, искусство и дизайн и RE, и мы предлагаем материалы по различным темам, таким как Саттон-Ху, Египет, Рим, доисторическая Британия и викинги.

5. Погрузитесь в мир аудиотуров

Чтобы получить экспертное представление о коллекции, послушайте, как кураторы музеев рассказывают о галереях. Каждый отрывок предлагает дразнящий обзор, чтобы подогреть ваш аппетит. Наши ведущие мировые кураторы, доступные в Apple Music и YouTube Music, записали знакомство с 64 галереями, так что вы можете отправиться в приключение, занимаясь чем угодно — от охоты на ассирийских львов до китайского нефрита. Треки также переведены на корейский, китайский, итальянский и испанский языки.

Наш аудиотур Желание, любовь, идентичность исследует истории ЛГБТК в коллекции. Экскурсия, рассказанная известным актером Саймоном Расселом Билом и звездой фильма Убивая Еву Фионой Шоу, раскрывает ранее скрытые истории однополой любви и желания из коллекции. Вы услышите о 2000-летнем кубке Уоррена, который называют «святым Граалем гомосексуализма», а также о менее известных предметах, таких как шкатулка с сокровищами маори, на которой вырезаны поразительные изображения сексуального характера.

Подписчики Apple Music могут получить доступ к аудиоэкскурсиям за небольшую плату. Вы можете получить к ним бесплатный доступ на YouTube Music.

6. Станьте фанатом YouTube

На нашем канале YouTube размещена наша любимая серия Уголок куратора, интервью с учеными и реставраторами и многое другое. Хотите научиться писать клинописью, а затем расслабиться и посмотреть, как играет древний рок-гонг? Это место для вас. Вы найдете рецепты, видео с практическими рекомендациями и больше потенциальных знаний о викторинах в пабах, чем вы можете потрясти.

Страница Британского музея на YouTube.

Если вы хотите глубже погрузиться в определенную тему, ознакомьтесь с нашими плейлистами, посвященными таким темам, как манга, Троя, а также наша научная и природоохранная деятельность.

7. Узнайте больше о Google Arts & Culture

Откройте для себя более 7000 объектов в нашем доме вдали от дома — онлайн-центре Google с материалами из музеев и архивов со всего мира. Помимо информации о коллекциях и изображений, на наших страницах Google Arts & Culture также представлены онлайн-выставки, такие как Египет: вера после фараонов и просмотры улиц сайтов в Центральной и Южной Америке. Кроме того, загрузите приложение Google Arts & Culture, чтобы получить доступ к дополнительным функциям и увидеть произведения искусства у себя дома с помощью дополненной реальности.

Бронзовая голова римского императора Августа, представленная на онлайн-выставке Египет: вера после фараонов. Из Мероэ, Судан, ок. 27–25 г. до н.э.

Пока вы там, ознакомьтесь с интерактивным опытом Музей мира. Эта интерактивная временная шкала представляет собой ошеломляющую визуализацию того, как два миллиона лет человеческой культуры и истории взаимосвязаны, и иллюстрирована предметами из коллекции Британского музея.

8. Восемь миллионов объектов у вас под рукой

Коллекция доступна всем в онлайн-коллекции. Вы можете искать объекты и изображения, используя ключевые слова, или попробовать отфильтровать по месту, исполнителю или материалу, если чувствуете себя более опытным. Это удобное руководство может оказаться полезным для навигации по сайту.

Мраморный метоп из Парфенона, изображающий битву между кентавром и лапифом. Афины, 447–438 гг. до н. э.

Кроме того, вы можете просматривать более широкие темы и истории коллекций на нашем основном сайте.Исследуйте всех странных и замечательных существ в коллекции на нашей странице животных. Или просмотрите коллекцию по регионам — мы создали удобные для навигации страницы по Китаю, Африке, Египту и Америке.

9. Зарыться носом в блог

Если вы хотите больше читать и меньше смотреть, загляните прямо сюда, в блог Музея. Найдите свою точку опоры в древнем мире с помощью книги «Кто был Ахиллес?». или Введение в греческую архитектуру. Или погрузитесь в удивительные музейные истории, такие как наша недавняя статья о красивых и сюрреалистичных составных частях пыли в музее. Блог регулярно обновляется и включает в себя статьи как от гостей, так и от голосов Музея.

Образец пыли, собранный в Музее, при увеличении в 1000 раз обнаруживается капля пыльцы.

10. Посетить мероприятие

Выбирайте выступления, выступления и многое другое, просматривая нашу насыщенную программу онлайн-мероприятий. Будь то виртуальное опоздание на одну из наших выставок или учебный курс, который поможет вам освоить тот язык, который вы хотели выучить, есть множество способов заполнить свой культурный календарь.

Внутренний двор музея в 19 веке (ныне Большой двор!)

11. Оставайтесь на связи

Не забудьте подписаться на наши электронные письма и подписаться на нас в социальных сетях, чтобы продолжать изучать историю, человечество и сам Британский музей, а также первыми узнавать наши последние новости.

Будь осторожен. Мы с нетерпением ждем возможности приветствовать вас снова в дверях Музея в ближайшее время.

Фейсбук | Инстаграм

Твиттер | Ютуб

Подпишитесь на наши электронные письма (включая специальные предложения для школ и семей) здесь.

Сейчас музею как никогда нужна ваша поддержка, чтобы продолжать делиться коллекцией со всем миром. Пожертвуйте сегодня.

Читайте также: