Какое основное расширение у файлов, созданных в текстовом редакторе

Обновлено: 21.11.2024

Двоичный формат файла Microsoft Office Word 97-2003 (.doc)

  • Идентификатор: fdd000509
  • Короткое название: MS-DOC
  • Категории контента: текст, офис/бизнес
  • Категория формата: формат файла
  • Другие аспекты: унитарный, бинарный, структурированный, символический.
  • Последнее существенное обновление FDD: 18 декабря 2019 г.
  • Статус черновика: полный

Идентификация и описание

Формат двоичных файлов Microsoft Word с расширением .doc, именуемый здесь DOC, был форматом по умолчанию, используемым для документов в Microsoft Word, начиная с Word 97 (выпущенного в 1997 г.) и заканчивая Microsoft Office 2003. Хотя он не может поддерживать все функциональности приложения Word, появившегося после Word 2007, формат DOC по-прежнему доступен в качестве альтернативы формату DOCX/OOXML, стандартизованному в ISO/IEC 29500, для сохранения файлов документов в Word. По состоянию на конец 2020 года в документации по форматам файлов, поддерживаемым в Word, от Microsoft указан «Документ Word 97-2003». [Примечание. В других контекстах тот же формат назывался «Документ Word 97-2004» или «Документ Word 97-2007».]

Согласно статье Microsoft Word в Википедии, расширение .doc используется для четырех различных форматов файлов: (a) Word для DOS; (b) Word для Windows 1 и 2 и Word 3 и 4 для Mac OS; (c) Word 6 и Word 95 для Windows и Word 6 для Mac OS; (d) Word 97 и более поздние версии для Windows и Word 98 и более поздние версии для Mac OS. Это описание формата относится к последнему из этих форматов. Для удобства термин «DOC» будет использоваться здесь для обозначения именно этого варианта файлов Microsoft Word с расширением .doc.

Несмотря на то, что формат DOC является проприетарным, с 2007 года на него распространяется действие Microsoft Open Specification Promise. Спецификация, выпущенная в 2007 году, доступна как Спецификация формата двоичных файлов Microsoft Office Word 97-2007 [*.doc]. Структура формата DOC задокументирована и обновляется в [MS-DOC].

После выпуска Word 6.0 в 1993 году структура документа Word с расширением .doc представляла собой составной двоичный файл OLE (связывание и встраивание объектов), как указано в [MS-CFB]. В 1997 году была изменена подробная структура файла CFB, используемого для документов Word. Формат CFB обеспечивает структуру, подобную файловой системе, в файле для хранения произвольных потоков данных, специфичных для приложения. Он состоит из хранилищ, потоков и подпотоков. Файл DOC начинается с заголовка CFB и должен включать корневой каталог CFB (идентифицируемый по имени «Root Entry» в UTF-16). В корневом каталоге есть записи для каждого потока или объекта хранения на верхнем уровне иерархии составных файлов. Каждая запись объекта имеет имя (также закодированное в UTF-16, хотя большая часть содержимого документа обычно хранится в 1-байтовых символах) и указывает на расположение в файле именованного объекта. Обязательные потоки в файле DOC включают поток с именем «WordDocument» (также называемый «основным потоком») и поток «таблица» с именем «1Table» или «0Table». Содержимое потока WordDocument следует за заголовком CFB и начинается с блока информации о файле (Fib), который содержит информацию о документе, включая код, идентифицирующий файл DOC как документ Word, и указывает указатели файлов на различные части, которые делают вверх документ. Потоки, не требуемые спецификацией, но обычно присутствующие в файлах, написанных Microsoft Word, включают поток SummaryInformation (с базовыми метаданными на уровне файла) и поток DocumentSummaryInformation. Файл Word в формате DOC начинается следующим образом, все значения даны в том виде, в каком они встречаются в физическом файле, например, при просмотре с помощью утилиты дампа Hex:

Для файла DOC без шифрования или защиты паролем текстовые символы документа будут отображаться в шестнадцатеричном дампе основного потока WordDocument. Если все символы хранятся в 1-байтовых (Extended ASCII) кодировках, обычно в кодовой странице Windows 1252, текст будет вполне разборчивым, но без форматирования. Внедренные объекты, такие как изображения, будут храниться в дополнительном потоке Data или ObjInfo. Другие необязательные потоки используются для зашифрованного содержимого, макросов, цифровых подписей и т. д.

Начиная с Word 2007, файл DOC может содержать объект хранения «Пользовательский XML» с именем «MsoDataStore». Эта функция обычно использовалась для документов, созданных программно, а не конечными пользователями. В результате судебного разбирательства по патентам эта функция была удалена из приложения Word, распространенного 11 января 2010 г. или позже. Файлы DOC, созданные в Word 2007 и не сохраненные повторно в более поздней версии Word, могут содержать пользовательский XML-контент. Дополнительные сведения о пользовательском XML, судебном разбирательстве по патентам и вытекающих из этого изменениях в приложении Word см. в разделе «Примечания и полезные ссылки» ниже.

Формат DOC был заменен в качестве формата по умолчанию для Microsoft Word, начиная с Word 2007, на DOCX/OOXML, основной формат документа на основе XML семейства Office Open XML (OOXML).

Местное использование

Опыт LC или существующие активы По состоянию на конец 2020 г. Библиотека Конгресса насчитывала более 578 000 файлов с расширением .doc в своих цифровых коллекциях общим размером более 239 гигабайт. Эти файлы поступают из нескольких разных источников. Одним из источников является веб-архивирование; другой - это файлы, приобретенные Отделом рукописей в сборниках «документов» от отдельных лиц или организаций. Например, коллекция записей American Lands Alliance Records насчитывает почти 9500 файлов .doc, датируемых ок. с 2000 по 2008 год и документы Уильяма Э. Одома включают более 8 100 документов, датируемых ок. с 1988 по 2008 год. Примерно к 2016 году сотрудники Библиотеки Конгресса, создающие текстовые документы в рамках своих обязанностей, обычно использовали формат DOCX, а не более ранний двоичный формат DOC.
предпочтение LC Для произведений, приобретенных для его коллекций, список Заявления о рекомендуемых форматах Библиотеки Конгресса для текстовых произведений (цифровых) не не упоминает конкретно двоичные форматы Microsoft Word, но подразумевает, что описанный здесь формат DOC будет приемлем в качестве «широко используемого проприетарного формата обработки текстов». Форматы DOCX/OOXML и ODF на основе XML специально перечислены как приемлемые.

Факторы устойчивого развития

Очень широко используется. Рынок текстовых процессоров, выдержка из главы 8 книги Стэна Дж. Либовица Победители, проигравшие и Microsoft: конкуренция и антимонопольное законодательство в сфере высоких технологий (2001 г.), показывает, что рыночная доля Word в продажах Программное обеспечение для обработки текстов неуклонно росло в период с 1989 по 1997 год. Доля Word в долларах превысила долю WordPerfect (для DOS и Windows) примерно в 1993 году, а к 1997 году превысила 90%. Таким образом, когда была представлена ​​описанная здесь версия DOC, Word полностью доминировал на рынке текстовых процессоров. Word продолжает оставаться лидером на рынке текстовых редакторов, особенно в корпоративной среде. См., например, The Enduring Popularity of Microsoft Word, статью на TMCnet за ноябрь 2018 года. См. также анализ от Datanyze использования программного обеспечения на популярных веб-сайтах.

К концу 2019 года большинство новых документов, созданных с помощью Word, будут иметь формат по умолчанию DOCX/OOXML. Однако корпус существующих текстовых документов в открытом Интернете содержит значительно больше файлов в двоичном формате DOC, чем в формате DOCX на основе XML. Например, поиск Google в декабре 2019 года в сети США по типу файла дал: .doc — 24 700 000; .docx, 14 400 000; .odt, 52 000. Составители этого ресурса признают, что поиск в Интернете не является надежным показателем принятия форматов файлов на начальном этапе (создании) жизненного цикла контента.

Все основные текстовые редакторы и некоторые настольные издательские приложения могут импортировать файлы в формате двоичных файлов Word 97-2003. Сюда входят: LibreOffice Writer, Apache OpenOffice Writer, Corel WordPerfect Office, Google Docs, Apple Pages и Adobe InDesign. См. также таблицу возможностей импорта или открытия в сравнении текстовых процессоров из Википедии.

Двоичный формат DOC относительно часто появляется в списках допустимых форматов для архивирования в связи с его широким использованием; обычно он не является предпочтительным форматом. Например, см. рекомендации Службы данных Великобритании, Национального архива Австралии и Национального архива США (NARA). Дополнительные сведения об основных сторонниках этого формата см. в документе Профиль формата двоичных документов Microsoft Office Word в Службе цифрового хранения Гарвардской библиотеки. Список форматов, поддерживаемых службой цифрового репозитория в Гарвардской библиотеке, включает «Формат двоичных файлов Microsoft Word (DOC)», но в целом рекомендуется размещать PDF (если возможно, PDF/A), а также собственный файл обработки текста. /p>

Существует ряд утилит и программных библиотек для проверки файлов DOC и управления ими. antiword — это приложение, которое отображает текст и изображения из двоичных документов Microsoft Word. oletools — это пакет инструментов Python для анализа файлов OLE и MS Office, одной из важных целей которого является обнаружение характеристик вредоносных файлов. Вооруженные устаревшие/двоичные форматы MS Office 97-2003 (doc, xls, ppt, . ) и составной файл OLE из Forensics Wiki также перечисляют некоторые программные библиотеки, которые могут работать с форматами, основанными на двоичном формате составного файла.Составители этого ресурса не определили, в какой степени какое-либо программное обеспечение, указанное в этих ресурсах, активно поддерживается. Комментарии приветствуются.

Подпадает под действие обещания Microsoft Open Specification Promise, в соответствии с которым Microsoft «безоговорочно обещает» не предъявлять никаких претензий к тем, кто создает, использует и продает соответствующие реализации любой спецификации, на которую распространяется обещание (при условии, что те, кто принимает обещание, воздерживаются от подачи в суд на Microsoft за нарушение патентных прав в связи с реализацией Microsoft защищенной спецификации).

Новые функции, добавленные в DOC, могут быть защищены патентом. Однако принципы совместимости Microsoft указывают, что «Microsoft также предоставит список любых своих патентов, которые охватывают любые расширения, и предоставит патентные лицензии на разумных и недискриминационных условиях». По состоянию на ноябрь 2019 года инструмент карты патентов, предоставленный Microsoft, указывал на отсутствие патентов, представляющих интерес для пользователей спецификации [MS-DOC] или спецификации [MS-CFB], на которой она основана.

Формат DOC нелегко интерпретировать с помощью основных инструментов.

Параметры хранения метаданных уровня документа в файле DOC описаны в дополнительной спецификации [MS-OSHARED]. Файл DOC должен включать набор свойств сводной информации, который может включать следующие необязательные описательные свойства: заголовок, автор, тема (описание), ключевые слова, комментарии. См. 2.3.3.2.1.1 PIDSI. Файл DOC может содержать дополнительный набор свойств (известный как сводная информация о документе) с фиксированным набором свойств, включая имена менеджеров и компаний. Также разрешены пользовательские или настраиваемые свойства. См. также 2.3.3 Хранение наборов свойств.

Спецификация [MS-DOC] не поддерживает встраивание метаданных во внешне определенную схему таким образом, чтобы это было распознано Microsoft Word.

Факторы качества и функциональности

В целом функции, поддерживаемые в файле DOC, аналогичны функциям, поддерживаемым в файле DOCX/OOXML_2012, за исключением того, что функции, добавленные в Word с 2007 г., как описано в [MS-DOCX]: Расширения Word для Office Open XML ( .docx) Формат файла может не поддерживаться.

Обработка уравнений в Word была полностью изменена в Word 2007. Формат DOC никогда не поддерживал новый подход, основанный на языке разметки Office Math (OMML), иногда называемом OfficeMath. Согласно статье Википедии об общих инструментах Microsoft Office, предыдущий подход к уравнениям заключался в использовании редактора уравнений Microsoft (MEE), который был представлен в Word для Windows 2.0. Другой подход, поддерживаемый для форматирования уравнений, заключался в использовании MathType (впервые выпущенного Design Science, Inc. в апреле 1987 г.); см. MathType 1.0 от WinWorld и MathType с Microsoft Office. В блоге Microsoft предлагались советы по преобразованию уравнений из MathType в формат формул Word 2007 (2007 г.).

В январе 2018 г. Microsoft опубликовала обновление для системы безопасности, которое полностью удалило старый редактор формул из всех версий Word из-за активно используемой уязвимости. См. Примечания ниже об угрозах безопасности. Корпорация Майкрософт предоставила новое руководство по преобразованию уравнений MEE в эквивалент OMML. См. раздел Преобразование объектов Microsoft Equation Editor в OfficeMath (2018 г.).

Обозначения типов файлов и идентификаторы форматов

Примечания

Идентификация версии Microsoft Word в потоке CompObj: файлы в контейнерах CFB могут включать поток с именем CompObj, как указано в [MS-OLEDS]: структуры данных связывания и внедрения (OLE) объектов, в котором говорится: «Структура CompObjStream указывает Формат буфера обмена и отображаемое имя связанного объекта или встроенного объекта». Согласно профилю Microsoft Office Binary Word Document Format Profile, подготовленному Полом Уитли для службы цифровой сохранности Гарвардской библиотеки, «по соглашению каждый объект в иерархии OLE имеет «файл» CombObj в двоичном формате, который содержит информацию, которую можно использовать для идентификации. формат объекта. Именно так DROID идентифицирует различные версии формата, хотя это зависит от интерпретации частей CompObjStream, которые формальная спецификация просто помечает как «Зарезервировано». DROID основывает идентификацию формата на основе подписей, записанных в базе данных PRONOM из Национального архива Великобритании. По состоянию на январь 2020 года описание в записи PRONOM для Microsoft Word (Generic) 6.0-2003 (PUID: fmt/609) указывает, что поток CompObj используется в fmt/39 и fmt/40 для различения файлов Word, созданных в Microsoft. Office 6.0/95 и 97-2003, а также файлы, созданные другим программным обеспечением, могут не иметь потока CompObj. Подписи для записей PRONOM для документа Microsoft Word 97-2003 (PUID: fmt/40) и документа Microsoft Word 6.0/95 (PUID: fmt/39) включают строки version, как указано ниже.

  • fmt/40
    • Шестнадцатеричный код: 4D6963726F736F667420576F726420382E30; ASCII: Microsoft Word 8.0
    • Шестнадцатеричный код: 4D6963726F736F667420576F726420392E30; ASCII: Microsoft Word 9.0
    • Шестнадцатеричный код: 4D6963726F736F667420576F72642031302E30; ASCII: Microsoft Word 10.0
    • Шестнадцатеричный код: 4D6963726F736F667420576F72642D446F6B756D656E74; ASCII: документ Microsoft Word
    • Шестнадцатеричный код: 4D6963726F736F667420576F726420362E30; ASCII: Microsoft Word 6.0
    • Шестнадцатеричный код: 4D6963726F736F667420576F726420666F722057696E646F7773203935; ASCII: Microsoft Word для Windows 95
    • Шестнадцатеричный код: 4D6963726F736F667420576F726420362E302D446F6B756D656E74; ASCII: документ Microsoft Word 6.0

    По состоянию на январь 2020 г. подписи в этих двух записях PRONOM (последнее обновление в апреле 2012 г.) не включают строки, обнаруженные составителями этого ресурса при создании файлов DOC с последними версиями Microsoft Word, которые включают «Microsoft Word Документ 97-2003» и «Документ Microsoft Word 97-2004». Комментарии приветствуются.

    Угрозы безопасности. В дополнение к общим угрозам безопасности были выявлены некоторые конкретные угрозы для формата DOC, которые привели к прекращению поддержки функции либо в формате, либо в приложении Word. Устаревшие/бинарные форматы MS Office 97-2003 с вооружением (doc, xls, ppt, . ) перечисляют некоторые общие угрозы, включая возможность встраивания объектов Flash и макросов.

    В 2018 году была обнаружена угроза, связанная с основным механизмом форматирования математических уравнений в формате DOC — Microsoft Equation Editor (MEE). См. Профиль угроз: бэкдор Microsoft Equation Editor (2018). Microsoft Equation Editor (MEE) 3.0 был удален в общедоступном обновлении от января 2018 года из всех поддерживаемых версий Office. Информацию о преобразовании уравнений MEE в поддерживаемые эквиваленты см. в разделе Поддержка математики, формул и т. д. в разделе "Факторы качества и функциональности" выше.

    Пользовательский XML-файл в формате DOC. В приложения Office в Office 2007 была добавлена ​​возможность хранить пользовательские данные в определяемом пользователем XML-файле. Эта функция была известна как «Пользовательский XML», и в DOC была добавлена ​​поддержка встраивания пользовательского XML-файла. формат. Создание расширенного документа Word на основе собственного пользовательского XML (без использования XSLT) (начиная с 2006 г.) представляет собой пример функциональных возможностей, для поддержки которых предназначена эта функция. Согласно пользовательским XML-данным за 2013 год, «эта возможность использовалась не очень часто, но если она использовалась, то обычно надстройками или макросами, а не конечными пользователями».

    В деле I4i против Microsoft (2009 г., США) компания i4i (Infrastructures For Information, Inc.) утверждала, что Office 2007 нарушает ее патент США 5 787 449, выданный 28 июля 1998 г. объявил в блоге для разработчиков: «Продукт Word 2007, распространяемый Microsoft после 10 января 2010 г., больше не будет читать разметку Custom XML, содержащуюся в файлах .DOCX, .DOCM или .XML. Эти файлы будут по-прежнему открываться, но Теги пользовательской разметки XML будут удалены. Эти изменения не затронут пользовательскую разметку XML, хранящуюся в файлах .DOC. Это изменение не затронет Word 2003 и существующие установки Word 2007». Дополнительные сведения о патентных спорах см. в разделе «Полезные ссылки» ниже.

    По состоянию на начало 2020 г. пользовательская разметка XML в Word из документации Microsoft гласит: «Пользовательская разметка XML больше не поддерживается в Word. Когда вы открываете документ, содержащий пользовательскую разметку XML, Word удаляет ее из документа». См. также Пользовательская разметка XML удаляется при открытии документа в Word 2013 (ссылка теперь доступна через Интернет-архив), в котором особое внимание уделяется удалению пользовательской разметки XML из файлов документов Word 97-2003 (.doc) и рекомендуются альтернативные способы достижения того же Результаты. См. раздел Элементы управления содержимым в Word для часто рекомендуемой альтернативы, доступной только в формате DOCX.

    См. 25-летие Microsoft Word от PC World и Празднование более чем 30-летия MS Word от Zamzar, чтобы узнать о ранней истории приложения Microsoft Word. Статья Википедии для Microsoft Word содержит хронологию различных форматов Word, в которых использовалось расширение .doc.

    Эта версия формата Microsoft DOC (MS-DOC) была представлена ​​в 1997 году и до 2007 года была форматом файлов Word по умолчанию. Начиная с Word 2007, форматом документов Word по умолчанию стал DOCX/OOXML.

    Начнем со следующего сценария:

    Рой работает над отчетом, который нужно подготовить до полудня, чтобы его коллега Риза могла представить данные некоторым потенциальным клиентам. Рою едва удается закончить форматирование окончательного варианта. Он быстро сохраняет файл в Microsoft Word, отправляет его Ризе по электронной почте и уходит на заслуженный обед. Когда он возвращается, Риза говорит ему, что не может открыть его файл, и в результате у нее нет данных, которые хотели клиенты, и продажа сорвалась.

    Рой пытается выяснить, что пошло не так, и узнает, что у Ризы другая версия Microsoft Word, чем у него, но он не знает, как это вызвало проблему.

    Что может вызвать такую ​​проблему?Использование неправильного расширения файла.

    Расширение файла — это сокращенная форма типа файла в конце имени файла. Эти расширения определяют тип файла вашего документа, а тип файла определяет, какие программы могут открыть файл. Хотя большинство программ могут читать большинство типов файлов, не каждая программа может читать все типы файлов.

    Тип файла по умолчанию — .docx (документ Word). Это расширение файла работает в большинстве программ Microsoft Word. Однако могут быть случаи, когда вы хотите сохранить файл другого типа. Например, более старые версии Microsoft Word и компьютеры без установленного Microsoft Word не могут читать типы файлов .docx. Если вы создадите файл .docx и отправите его кому-то, у кого есть старая версия Word или вообще нет Word, этот человек, вероятно, не сможет прочитать ваш файл. Если у вас старая версия Word (2003 или старше), вы можете открывать файлы .docx, загрузив пакет совместимости Microsoft.

    Из-за различий в совместимости типов файлов важно помнить о том, какие типы файлов могут быть прочитаны программами других людей.

    Практический вопрос

    Под полем для имени файла находится поле "Тип файла", в котором есть раскрывающееся меню с расширениями файлов.

    Распространенные расширения файлов в текстовом редакторе

    • .docx (документ Word) — файл Microsoft Word по умолчанию, работает с Microsoft Word 2007 и более поздними версиями. Улучшенные сценарии, макросы и другие функции из старого документа.
    • .doc (документ Word 97–2003) — файл Microsoft Word по умолчанию из Microsoft Word 2003 и более ранних версий.
    • .txt (обычный текст) — также известный как обычный текстовый формат. Этот тип файла сохраняет только введенные вами слова — без изображений, без форматирования, только необработанный текст.
    • .rtf (Rich Text Format). Как и обычный текст, RTF сохраняет только слова, но сохраняет некоторые основные элементы форматирования (например, жирный шрифт и курсив).
    • .pdf (PDF) — PDF-файлы можно читать с помощью Microsoft Edge (поставляется с Windows 10), бесплатной программы Adobe Acrobat и других программ для просмотра изображений. Зрители не могут редактировать PDF-файлы, но они смогут просматривать их независимо от своей операционной системы или установленных программ.

    Проверьте свое понимание

    Ответьте на вопросы ниже, чтобы узнать, насколько хорошо вы понимаете темы, затронутые в предыдущем разделе. Этот короткий тест не влияет на вашу оценку в классе, и вы можете пересдавать его неограниченное количество раз.

    Используйте этот тест, чтобы проверить свое понимание и решить, следует ли (1) изучить предыдущий раздел дальше или (2) перейти к следующему разделу.

    Excel для Microsoft 365 Word для Microsoft 365 PowerPoint для Microsoft 365 Excel 2021 Word 2021 PowerPoint 2021 Office 2021 Excel 2019 Word 2019 PowerPoint 2019 Office 2019 Excel 2016 Word 2016 PowerPoint 2016 Office 2016 Excel 2013 Word 2013 PowerPoint 2013 Office 2013 Word Excel 2010 2010 PowerPoint 2010 Office 2010 Office 2007 Еще. Меньше

    Начиная с системы Microsoft Office 2007, Microsoft Office использует форматы файлов на основе XML, такие как .docx, .xlsx и .pptx. Эти форматы и расширения имен файлов применяются к Microsoft Word, Microsoft Excel и Microsoft PowerPoint. В этой статье обсуждаются основные преимущества формата, описываются расширения имен файлов и обсуждается, как вы можете поделиться файлами Office с людьми, которые используют более ранние версии Office.

    В этой статье

    Каковы преимущества форматов Open XML?

    Форматы Open XML имеют множество преимуществ — не только для разработчиков и создаваемых ими решений, но и для отдельных людей и организаций любого размера:

    Компактные файлы Файлы автоматически сжимаются и в некоторых случаях могут быть на 75 процентов меньше. Формат Open XML использует технологию сжатия zip для хранения документов, предлагая потенциальную экономию средств, так как уменьшает дисковое пространство, необходимое для хранения файлов, и снижает пропускную способность, необходимую для отправки файлов по электронной почте, по сетям и через Интернет. Когда вы открываете файл, он автоматически распаковывается. Когда вы сохраняете файл, он снова автоматически архивируется. Вам не нужно устанавливать какие-либо специальные zip-утилиты, чтобы открывать и закрывать файлы в Office.

    Улучшенное восстановление поврежденных файлов. Файлы структурированы по модульному принципу, что позволяет отделять различные компоненты данных в файле друг от друга. Это позволяет открывать файлы, даже если какой-либо компонент в файле (например, диаграмма или таблица) поврежден или испорчен.

    Поддержка расширенных функций Многие расширенные функции Microsoft 365 требуют, чтобы документ хранился в формате Open XML. Например, такие функции, как автосохранение и проверка читаемости, могут работать только с файлами, которые хранятся в современном формате Open XML.

    Более высокий уровень конфиденциальности и больший контроль над личной информацией Документами можно обмениваться конфиденциально, поскольку с помощью Инспектора документов можно легко определить и удалить личную информацию и конфиденциальную деловую информацию, такую ​​как имена авторов, комментарии, отслеживаемые изменения и пути к файлам. .

    Улучшенная интеграция и функциональная совместимость бизнес-данных. Использование форматов Open XML в качестве платформы взаимодействия данных для набора продуктов Office означает, что документы, рабочие листы, презентации и формы можно сохранять в формате файлов XML, свободно доступном для всех. использовать и лицензировать, безвозмездно. Office также поддерживает пользовательские XML-схемы, расширяющие существующие типы документов Office. Это означает, что клиенты могут легко разблокировать информацию в существующих системах и работать с ней в знакомых программах Office. Информация, созданная в Office, может быть легко использована другими бизнес-приложениями. Все, что вам нужно для открытия и редактирования файла Office, — это утилита ZIP и редактор XML.

    Упрощенное обнаружение документов, содержащих макросы. Файлы, сохраненные с использованием суффикса «x» по умолчанию (например, .docx, .xlsx и .pptx), не могут содержать макросы Visual Basic для приложений (VBA) и макросы XLM. Только файлы, расширение имени которых заканчивается на "m" (например, .docm, .xlsm и .pptm), могут содержать макросы.

    Прежде чем вы решите сохранить файл в двоичном формате, прочтите статью Могут ли разные версии Office совместно использовать одни и те же файлы?

    Как преобразовать мой файл из старого двоичного формата в современный формат Open XML?

    Открыв файл в приложении Office, нажмите «Файл» > «Сохранить как» (или «Сохранить копию», если файл хранится в OneDrive или SharePoint) и убедитесь, что для параметра «Сохранить как» задан современный формат.

    При этом будет создана новая копия вашего файла в формате Open XML.

    Что такое расширения имен файлов XML?

    По умолчанию документы, рабочие листы и презентации, которые вы создаете в Office, сохраняются в формате XML с расширениями имен файлов, которые добавляют "x" или "m" к расширениям имен файлов, с которыми вы уже знакомы. «x» означает файл XML без макросов, а «m» означает файл XML, содержащий макросы. Например, при сохранении документа в Word файл теперь по умолчанию использует расширение имени файла .docx вместо расширения имени файла .doc.

    Когда вы сохраняете файл в качестве шаблона, вы видите такие же изменения. Расширение шаблона, использовавшееся в более ранних версиях, присутствует, но теперь оно имеет в конце «x» или «m». Если файл содержит код или макросы, вы должны сохранить его, используя новый формат файла XML с поддержкой макросов, который добавляет "m" для макроса к расширению файла.

    В следующих таблицах перечислены все расширения имен файлов по умолчанию в Word, Excel и PowerPoint.

    В файлах DOC, PDF, TXT и т. д. существует множество различных расширений файлов документов, которые вы можете использовать. Как и в наших публикациях «Полный список расширений файлов изображений для разработчиков» и «Полный список форматов аудио- и видеофайлов для разработчиков», мы создали полный список типов расширений файлов документов, на которые вы можете ссылаться при работе над проектами с помощью Filestack и других инструментов. .

    .DOC и .DOCX

    .DOC и .DOCX — это стандартный формат файлов документов Microsoft Word. Файлы DOCX представляют собой файлы DOC на основе XML. В новых версиях Word файлы по умолчанию сохраняются в формате DOCX.

    Пример файла .DOC в Word

    .HTML и .HTM

    .HTML и .HTM — это стандартный язык разметки, используемый при создании веб-страниц. При открытии в текстовом редакторе, таком как Sublime, файлы HTML и HTM позволяют редактировать HTML-код. При открытии в веб-браузере отображается веб-страница, созданная кодом.

    Пример HTML в Sublime и в браузере

    .ODT

    Файлы .ODT представляют собой текстовые документы, похожие на файлы DOCX. Однако эти файлы можно открыть в программах текстового процессора с открытым исходным кодом, таких как Openoffice. Это полезно, когда вы делитесь файлами с другими людьми, у которых может не быть Microsoft Office.

    Пример ODT в OpenOffice

    .PDF

    Файлы PDF защищают текст и изображения в документе, позволяя распространять информацию в неизменном виде. Это почти универсальные типы файлов, поскольку их можно открыть практически на любом современном устройстве. PDF-файлы также могут содержать неизменяемые водяные знаки для дополнительной защиты оригинальной документации.

    Пример PDF-файла о заливе с привидениями

    .XLS и .XLSX

    .XLS и .XLSX являются стандартными форматами файлов для Microsoft Excel. Как и файлы DOCX, файлы XLSX используются в более современных версиях Excel.

    Пример .XLS от STHDA

    .ODS

    .ODS – это аналог файлов .ODT в виде электронных таблиц. В отличие от файлов XLS и XLSX, их можно открывать не только в Microsoft Excel, но и в сторонних программах с открытым исходным кодом.

    Пример файла .ODS от CodeGuru

    .PPT и .PPTX

    .PPT и .PPTX являются стандартными форматами файлов для Microsoft PowerPoint. Опять же, PPTX — это более современная версия формата файлов PPT, основанная на XML.

    Пример .PPT в PowerPoint

    .TXT

    Файлы .TXT — это самый простой из доступных форматов файлов открытого текста. Файлы TXT позволяют пользователям создавать текстовые документы, не беспокоясь о форматировании, стиле шрифта или цвете текста.

    Пример файла .TXT от WebAppers

    Заключение

    • .DOC и DOCX
    • .HTML и .HTM
    • .ODT
    • .PDF
    • .XLS и XLSX
    • .ODS
    • .PPT и .PPTX
    • .TXT

    Как мы уже говорили, во многих случаях вы предпочтете использовать файл определенного типа другому. Filestack Document Conversion API предлагает способ программного преобразования между файлами документов в вашем коде.

    Например, вы можете преобразовать PDF-файл с внешним URL-адресом:

    в файл TXT, вызвав:

    ^Нажмите на эту ссылку, и вы увидите файл .txt!

    Filestack также предлагает средство просмотра документов, так что вы можете вставлять документы на свой веб-сайт без каких-либо тяжелых плагинов. Filestack Document Viewer поддерживает все расширения файлов документов, перечисленные выше, а также все распространенные форматы изображений. Вы можете реализовать это всего несколькими строками кода:

    С помощью Filestack эти типы программного преобразования документов могут сэкономить вам часы, сохраняя при этом передовые методы безопасной загрузки файлов. Начните бесплатно уже сегодня.

    Читайте также: