Текст занимает 1 4 килобайта памяти компьютера, сколько символов содержит этот текст

Обновлено: 16.05.2024

Байты часто используются для хранения отдельных символов в текстовом документе. В наборе символов ASCII каждому двоичному значению от 0 до 127 соответствует определенный символ. Большинство компьютеров расширяют набор символов ASCII, чтобы использовать весь диапазон из 256 символов, доступных в байте. Верхние 128 символов используются для обработки особых вещей, таких как символы с диакритическими знаками в распространенных иностранных языках.

Вы можете увидеть 127 стандартных кодов ASCII ниже. Компьютеры хранят текстовые документы как на диске, так и в памяти, используя эти коды. Например, если вы используете Блокнот в Windows 95/98 для создания текстового файла, содержащего слова «Четыре балла и семь лет назад», Блокнот будет использовать 1 байт памяти на каждый символ (включая 1 байт на каждый символ пробела между словами). -- символ ASCII 32). Когда Блокнот сохраняет предложение в файле на диске, этот файл также будет содержать 1 байт на символ и на пробел.

Проведите такой эксперимент: откройте новый файл в Блокноте и вставьте в него предложение "Четыре балла и семь лет назад". Сохраните файл на диск под именем getty.txt. Затем используйте проводник и посмотрите на размер файла. Вы обнаружите, что размер файла на диске составляет 30 байт: по 1 байту на каждый символ. Если вы добавите еще одно слово в конец предложения и сохраните его повторно, размер файла увеличится до соответствующего количества байтов. Каждый символ занимает один байт.

Если бы вы посмотрели на файл так, как на него смотрит компьютер, вы бы обнаружили, что каждый байт содержит не букву, а число — число — это код ASCII, соответствующий символу (см. ниже). Итак, на диске номера файла выглядят так:

Посмотрев в таблицу ASCII, вы увидите однозначное соответствие между каждым символом и используемым кодом ASCII. Обратите внимание на использование 32 для пробела — 32 — это код ASCII для пробела. Мы могли бы преобразовать эти десятичные числа в двоичные числа (то есть 32 = 00100000), если бы хотели быть технически правильными — именно так компьютер действительно работает с вещами.

Хотя точное количество текстовых данных в килобайте (КБ) или мегабайте (МБ) может варьироваться в зависимости от характера документа, килобайт может содержать около половины страницы текста, а мегабайт — около 500 страниц. текста. Текст в цифровом файле преобразуется в двоичные данные, которые обозначают буквы и цифры с помощью выражений из единиц и нулей. Файлы большего размера содержат больше этих данных, что, в свою очередь, эквивалентно большему количеству типизированной информации.

Один мегабайт может содержать около 500 страниц текста, что сопоставимо с одной толстой книгой.

Двоичные файлы и биты

Большинство современных компьютеров представляют собой двоичные системы и работают с битами данных. Бит — это самая основная единица информации, которая может иметь два состояния: обычно указывается как 0 или 1. Длинные строки этих битов могут представлять большинство типов информации, включая текст, изображения и музыку. Однако чистая двоичная информация бесполезна для людей, которые не научились читать и писать в двоичном формате. Двоичное число 11000101110, например, эквивалентно 1582.

Большинство компакт-дисков содержат около 750 мегабайт данных.

Количество текста

Килобайт — это 1 024 байта, часто для простоты округляемых до 1 000; в то время как мегабайт составляет 1 048 576 байтов, или около 1 миллиона. Подсчитано, что килобайт может вместить около половины машинописной страницы. Поэтому для одной полной страницы требуется около 2 КБ.На следующей диаграмме показано количество байтов в общепринятых терминах, таких как килобайты и мегабайты, а также объем текста, который может храниться в каждом из них.

< td>Мегабайт (МБ)

Имя	Количество байтов	Количество текста
Килобайт (КБ)	2 10 или 1024	1/2 страницы
2 20 или 1 048 576	500 страниц или 1 толстая книга
Гигабайт (ГБ)	2 30 или 1 073 741 824	500 000 страниц или 1000 толстых книг
Терабайт (ТБ)	2 40 или 1 099 511 627 776	1 миллион толстых книг
Петабайт	2 50 или 1 125 899 906 842 624	180 библиотек Конгресса< /td>
Exabyte	2 60 или 1 152 921 504 606 846 976	180 тысяч библиотек Конгресса
Zettabyte	2 70 или 1 180 591 620 717 411 303 424	180 миллионов библиотек Конгресса
Yottabyte	2 80 или 1 208 925 819 614 629 174 706 176	180 миллиардов библиотек Конгресса

Библиотека Конгресса

Библиотека Конгресса в Вашингтоне, округ Колумбия, считается крупнейшей в мире библиотекой с более чем 28 миллионами томов. Цифры, указанные в приведенной выше таблице, основаны на предположении, что средняя книга состоит из 200 страниц. Это означает, что для хранения цифровой резервной копии всей Библиотеки Конгресса потребуется около 28 ТБ дискового пространства.

Портативное хранилище мультимедиа

Большинство компакт-дисков (CD) содержат около 750 МБ, что примерно эквивалентно 375 000 страниц текста. Цифровые универсальные диски (DVD) могут хранить 4,7 ГБ или 2,3 миллиона страниц. Диски Blu-Ray могут содержать 27 ГБ или 13,5 миллионов страниц, что примерно эквивалентно тексту, содержащемуся в 67 500 книгах. Такие устройства, как электронные книги и планшетные компьютеры, часто имеют многогигабайтную память, что делает их идеальными для хранения тысяч книг.

Гигабайт может содержать информацию, эквивалентную примерно 1000 толстых книг.

В килобайте 1024 байта, а в мегабайте 1024 килобайта, поэтому документ размером 1 КБ будет содержать 1024 байта данных или 1024 символа текста и другой программной информации, описывающей форматирование документа и другие характеристики, чтобы его можно было открыть. и используется программным приложением, таким как Adobe Acrobat или Microsoft Word.

Изображения представлены на экране в виде пикселей или цветных точек, но могут быть созданы в различных форматах, требующих для хранения файлов самых разных размеров. Для каждого изображения требуется разное количество байтов на пиксель, чтобы определить цвет и расположение каждого пикселя на экране. Черно-белые изображения требуют меньше места, чем изображения в оттенках серого или цветные из-за количества байтов, необходимых для уникального описания каждого цвета. Изображения могут быть выражены во многих форматах, и некоторые большие форматы файлов, такие как изображения TIFF, являются "без потерь" - это означает, что каждый пиксель (точка цвета на вашем экране) получает свой собственный набор байтов для его описания. При равных цветах и других факторах изображение размером 100x100 пикселей (всего = 1000 пикселей) требует примерно в 10 раз больше места для хранения, чем изображение 10x10 пикселей (всего = 100 пикселей). Для сравнения, для представления одного символа текста, занимающего на экране пространство размером 10 x 10 пикселей, обычно требуется всего один байт.

Если вы поместите отсканированные изображения TIFF в файл PDF, вы обнаружите, что объем пространства, необходимый для нового файла PDF, превышает объем места, занимаемого только изображениями TIFF. Это связано с тем, что в файл PDF встроена информация, описывающая, как просматривать и интерпретировать изображения TIFF в средстве просмотра PDF, а также информация (метаданные) для описания самого файла.

Вы обнаружите, что полная страница электронного текста значительно меньше, чем отсканированное изображение TIFF того же текста, когда оно добавляется в файл PDF.

Разница в размере файла txt выше представляет собой то, что добавлено, чтобы сделать его файлом PDF.

Файл PDF, содержащий 8-битный файл TIFF 10x10 с буквой "a" (такой же размер на экране, как и исходный текст)

Объекты данных TEXT, как следует из названия, полезны для хранения длинных текстовых строк в базе данных MySQL. Четыре типа объектов данных TEXT созданы для хранения и отображения значительных объемов информации, в отличие от других типов объектов данных, которые полезны для таких задач, как сортировка и поиск столбцов или обработка небольших параметров на основе конфигурации для более крупного проекта. Различные объекты TEXT предлагают диапазон памяти от 1 байта до 4 ГБ и не предназначены для хранения вычислительных значений. Обычно они используются для хранения описаний продуктов для сайта продаж, сводок свойств для базы данных недвижимости и подробного текста статьи на новостном веб-сайте.Объекты TEXT лучше всего использовать, когда VARCHAR и другие объекты данных на основе строк недостаточны для хранения желаемого объема информации. Однако самый маленький тип TEXT, TINYTEXT, имеет ту же длину символов, что и VARCHAR. Объекты TEXT отличаются от других типов хранения строк тем, что устраняют требование указывать длину хранения, не удаляют байты при выборе и не заполняют неиспользуемое символьное пространство для эффективного хранения на диске. Поскольку объекты TEXT не хранятся в памяти сервера, для их извлечения требуются дополнительные данные. Следующие размеры предполагают, что база данных использует кодировку UTF-8.

TINYTEXT: 255 символов — 255 Б

Объект данных TINYTEXT – наименьший из объектов семейства TEXT. Он предназначен для эффективного хранения коротких информационных строк. Этот тип может хранить до 255 байт (выражается как 2^8 -1) или 255 символов и требует служебных данных в 1 байт. Этот объект можно использовать для хранения таких вещей, как краткие сводки, URL-ссылки и другие более короткие объекты. TINYTEXT превосходит VARCHAR при хранении данных длиной менее 255 символов с непостоянной длиной, которые не нужно использовать для критериев сортировки.

ТЕКСТ: 65 535 символов — 64 КБ

Стандартный объект данных TEXT в достаточной степени способен обрабатывать типичное длинное текстовое содержимое. Объекты данных TEXT имеют максимальный размер 64 КБ (выражается как 2 ^ 16 -1) или 65 535 символов и требуют служебных данных в 2 байта. Он достаточно большой, чтобы вместить текст, например, статьи, но его недостаточно, чтобы вместить текст всей книги.

MEDIUMTEXT: 16 777 215 – 16 МБ

Объект данных MEDIUMTEXT полезен для хранения больших текстовых строк, таких как официальные документы, книги и резервные копии кода. Эти объекты данных могут иметь размер до 16 МБ (выражается как 2^24 -1) или 16 777 215 символов и требуют 3 байта служебной памяти.

LONGTEXT: 4 294 967 295 символов — 4 ГБ

Объект данных LONGTEXT предназначен для использования в экстремальных случаях использования хранилища текстовых строк. Это приемлемый вариант, когда объект MEDIOMTEXT недостаточно велик. Компьютерные программы и приложения часто достигают длины текста в диапазоне LONGTEXT. Эти объекты данных могут иметь размер до 4 ГБ (выражаться как 2^32 -1) и хранить до 4 294 967 295 символов с 4 байтами служебной памяти,

ТЕКСТ и BLOB

BLOB-объекты – это альтернативный тип хранилища данных, который использует одинаковые механизмы именования и емкости с объектами TEXT. Однако BLOB-объекты представляют собой двоичные строки без сортировки по набору символов, поэтому они обрабатываются как числовые значения, а объекты TEXT обрабатываются как строки символов. Эта дифференциация важна для сортировки информации. BLOB используются для хранения файлов данных, таких как изображения, видео и исполняемые файлы.

Читайте также: