Текст занимает 0 5 КБ памяти компьютера, сколько символов содержит этот текст
Обновлено: 21.11.2024
В килобайте 1024 байта, а в мегабайте 1024 килобайта, поэтому документ размером 1 КБ будет содержать 1024 байта данных или 1024 символа текста и другой программной информации, описывающей форматирование документа и другие характеристики, чтобы его можно было открыть. и используется программным приложением, таким как Adobe Acrobat или Microsoft Word.
Изображения представлены на экране в виде пикселей или цветных точек, но могут быть созданы в различных форматах, требующих для хранения файлов самых разных размеров. Для каждого изображения требуется разное количество байтов на пиксель, чтобы определить цвет и расположение каждого пикселя на экране. Черно-белые изображения требуют меньше места, чем изображения в оттенках серого или цветные из-за количества байтов, необходимых для уникального описания каждого цвета. Изображения могут быть выражены во многих форматах, и некоторые большие форматы файлов, такие как изображения TIFF, являются "без потерь" - это означает, что каждый пиксель (точка цвета на вашем экране) получает свой собственный набор байтов для его описания. При равных цветах и других факторах изображение размером 100x100 пикселей (всего = 1000 пикселей) требует примерно в 10 раз больше места для хранения, чем изображение 10x10 пикселей (всего = 100 пикселей). Для сравнения, для представления одного символа текста, занимающего на экране пространство размером 10 x 10 пикселей, обычно требуется всего один байт.
Если вы поместите отсканированные изображения TIFF в файл PDF, вы обнаружите, что объем пространства, необходимый для нового файла PDF, превышает объем места, занимаемого только изображениями TIFF. Это связано с тем, что в файл PDF встроена информация, описывающая, как просматривать и интерпретировать изображения TIFF в средстве просмотра PDF, а также информация (метаданные) для описания самого файла.
Вы обнаружите, что полная страница электронного текста значительно меньше, чем отсканированное изображение TIFF того же текста, когда оно добавляется в файл PDF.
Разница в размере файла txt выше представляет собой то, что добавлено, чтобы сделать его файлом PDF.
Файл PDF, содержащий 8-битный файл TIFF 10x10 с буквой "a" (такой же размер на экране, как и исходный текст)
В килобайте 1024 байта, а в мегабайте 1024 килобайта, поэтому документ размером 1 КБ будет содержать 1024 байта данных или 1024 символа текста и другой программной информации, описывающей форматирование документа и другие характеристики, чтобы его можно было открыть. и используется программным приложением, таким как Adobe Acrobat или Microsoft Word.
Изображения представлены на экране в виде пикселей или цветных точек, но могут быть созданы в различных форматах, требующих для хранения файлов самых разных размеров. Для каждого изображения требуется разное количество байтов на пиксель, чтобы определить цвет и расположение каждого пикселя на экране. Черно-белые изображения требуют меньше места, чем изображения в оттенках серого или цветные из-за количества байтов, необходимых для уникального описания каждого цвета. Изображения могут быть выражены во многих форматах, и некоторые большие форматы файлов, такие как изображения TIFF, являются "без потерь" - это означает, что каждый пиксель (точка цвета на вашем экране) получает свой собственный набор байтов для его описания. При равных цветах и других факторах изображение размером 100x100 пикселей (всего = 1000 пикселей) требует примерно в 10 раз больше места для хранения, чем изображение 10x10 пикселей (всего = 100 пикселей). Для сравнения, для представления одного символа текста, занимающего на экране пространство размером 10 x 10 пикселей, обычно требуется всего один байт.
Если вы поместите отсканированные изображения TIFF в файл PDF, вы обнаружите, что объем пространства, необходимый для нового файла PDF, превышает объем места, занимаемого только изображениями TIFF. Это связано с тем, что в файл PDF встроена информация, описывающая, как просматривать и интерпретировать изображения TIFF в средстве просмотра PDF, а также информация (метаданные) для описания самого файла.
Вы обнаружите, что полная страница электронного текста значительно меньше, чем отсканированное изображение TIFF того же текста, когда оно добавляется в файл PDF.
Разница в размере файла txt выше представляет собой то, что добавлено, чтобы сделать его файлом PDF.
Файл PDF, содержащий 8-битный файл TIFF 10x10 с буквой "a" (такой же размер на экране, как и исходный текст)
Цифровые данные состоят из двоичной информации и хранятся в виде набора нулей и единиц. В компьютерной системе числа, текст, изображения, звуковые файлы, видеоклипы и компьютерные программы хранятся в двоичном коде.
Сохранение текстовых файлов в двоичном формате
Текстовые файлы хранятся с использованием набора символов, такого как код ASCII или UNICODE. Количество битов, используемых для кодирования одного символа, влияет на общее количество символов, включенных в набор символов.
Например:
- Код ASCII использует 7 бит на символ и содержит 128 кодов/символов.
- Расширенный код ASCII использует 8 бит на символ и содержит 256 кодов/символов.
- UNICODE использует 2 байта (UTF-16) или 4 байта (UTF-32) на символ и содержит 65 536 или 4 294 967 296 символов, что достаточно для включения всех знаков и символов, используемых во всех языках мира.
На основе этой информации мы можем легко вычислить формулу, используемую для оценки размера текстового файла, следующим образом:
Размер текстового файла = количество битов на символ x количество символов
Оценка размера текстового файла
Сохранение растровых изображений в двоичном формате
Растровое изображение представляет собой двухмерную сетку пикселей разных цветов. Вы можете узнать больше о том, как растровые изображения хранятся в двоичном формате, в этом посте.
На основе этой информации мы можем легко вычислить формулу, используемую для оценки размера растрового изображения, следующим образом:
Размер файла изображения = глубина цвета x ширина в пикселях x высота в пикселях
Оценка размера файла изображения
Обратите внимание, что растровое изображение также будет включать в себя еще несколько байтов данных для хранения метаданных, которые содержат дополнительную информацию, используемую компьютером для визуализации графики, такую как ширина изображения в пикселях, его высота в пикселях и его размер. глубина цвета. Тем не менее, мы проигнорируем это при оценке размера файла, так как для больших изображений это лишь незначительно повлияет на оценку размера файла.
Сохранение звуковых файлов в двоичном формате
Аналоговая звуковая волна может быть оцифрована с помощью процесса, называемого звуковой выборкой. Вы можете узнать больше о сэмплировании звука в этом посте.
На размер звукового файла влияют три критерия:
На основе этой информации мы можем легко вычислить формулу, используемую для оценки размера звукового файла, следующим образом:
Размер звукового файла = частота дискретизации x продолжительность x разрядность
Оценка размера монозвукового файла
Обратите внимание, что приведенная выше формула используется для оценки размера монофонического звукового файла. некоторые звуковые файлы используют несколько каналов, например стереофайлы (2 канала) или звуковые файлы Dolby Surround (6 каналов). Чтобы оценить их размер файла, вам нужно умножить приведенную выше формулу на количество каналов.
Размер звукового файла = частота дискретизации x продолжительность x разрядность x количество каналов
Оценка размера звукового файла
Кроме того, подобно файлам изображений, звуковой файл также будет включать в себя некоторые метаданные (частота дискретизации, разрядность, количество каналов), необходимые компьютеру для интерпретации данных, однако мы снова проигнорируем эти данные в нашем оценка размера файла.
Задача программирования
Ваша задача — написать три процедуры, используемые для оценки размера текстовых файлов, растровых изображений и звуковых файлов, следующим образом:
- estimateTextFileSize() принимает два параметра: количество битов на символ и количество символов в файле. Он выведет предполагаемый размер файла, используя формулу, представленную ранее в этом посте.
- estimatePictureFileSize() принимает три параметра: ширину и высоту изображения в пикселях и глубину цвета. Он выведет предполагаемый размер файла, используя формулу, представленную ранее в этом посте.
- estimateSoundFileSize() принимает четыре параметра: частоту дискретизации (в Гц), разрядность, продолжительность (в секундах) и количество каналов. Он выведет предполагаемый размер файла, используя формулу, представленную ранее в этом посте.
Обратите внимание, что для всех трех процедур выходные данные должны отображаться в наиболее подходящих единицах измерения (биты, байты, КБ, МБ или ГБ)
Код Python
Заполните код ниже:
План тестирования
Обратите внимание, что этот план тестирования дает вам два возможных результата для каждого теста в зависимости от того, основаны ли ваши расчеты на 1 КБ = 1000 байт или 1 КБ = 1024 байт. Оба подхода приемлемы.
Дополнительная задача 1: анимированный Gif-файл
Анимированные файлы Gif состоят из набора растровых изображений, которые отображаются по одному в течение нескольких секунд. Большинство анимированных файлов gif возвращаются к первому изображению (кадру) после достижения последнего кадра. Частота кадров файла gif определяет количество кадров в секунду.
Мы можем рассчитать размер анимированных gif-файлов следующим образом:
Размер анимированного Gif-файла = ширина x высота x глубина цвета x частота дискретизации x продолжительность
Оценка размера анимированного Gif-файла
Затем вы можете протестировать свою подпрограмму, используя следующие входные данные:
Дополнительная задача 2: видеофайлы
Файлы фильмов аналогичны анимированным gif. Видеоклип также состоит из набора неподвижных изображений, отображаемых с высокой частотой кадров, т.е. 24 кадра в секунду (кадров в секунду). Видеоклипы также включают звуковую дорожку, которую также необходимо учитывать при оценке общего размера файла видеоклипа.
Затем вы можете протестировать свою подпрограмму, используя следующие входные данные:
Алгоритмы сжатия
Обратите внимание, что эти расчеты основаны на оценке размера несжатых файлов. Алгоритмы сжатия часто применяются к файлам изображений, звуковым файлам и файлам фильмов, чтобы уменьшить их общий размер.
Например, файлы изображений .jpg или .jpg, звуковые файлы .mp3 или файлы фильмов .mp4 являются сжатыми файлами, поэтому их размер будет меньше, чем размер файла, полученный в приведенных выше расчетах.
Размер информации в компьютере измеряется в килобайтах, мегабайтах, гигабайтах и терабайтах. В этом разделе мы рассмотрим распространенные размеры, которые встречаются в реальной жизни, и научимся рассуждать о различных количествах байтов.
Килобайт или КБ
- Килобайт КБ – около 1 000 байт
- Как мы знаем, 1 байт - это один набранный символ
- см. ниже, почему здесь требуется фраза "около 1 тысячи" - Электронное письмо без изображений весит около 2 КБ.
- Пятистраничный документ может весить 100 КБ.
- Текст компактный, занимает меньше байтов по сравнению с изображениями, звуком или видео.
- напр. 23 000 байт — это примерно 23 КБ .
Один килобайт (КБ) – это совокупность примерно 1000 байт. Страница обычного латинского алфавитного текста занимает для хранения около 2 килобайт (около одного байта на букву). Типичное короткое электронное письмо также занимает всего 1 или 2 килобайта. Текст является одним из наиболее естественно компактных типов данных, для хранения каждой буквы требуется около одного байта. В нелатинских алфавитах, таких как мандарин, хранилище занимает 2 или 4 байта на «букву», что все еще довольно компактно по сравнению с аудио и изображениями.
Мегабайт или МБ
- Мегабайт (МБ) – около 1 миллиона байт.
- около 1000 КБ
- Скорость звука в формате MP3 составляет около 1 МБ в минуту.
- Цифровое изображение высокого качества весит около 2–5 МБ.
- напр. 45 400 КБ равно 45,4 МБ.
Один мегабайт равен примерно 1 миллиону байт (или примерно 1000 килобайт). Аудиофайл MP3 длительностью несколько минут или изображение размером 10 миллионов пикселей с цифровой камеры обычно занимают несколько мегабайт. Эмпирическое правило для MP3-аудио гласит, что 1 минута аудио занимает около 1 мегабайта. Аудиоданные, изображения и видеоданные обычно хранятся в «сжатой» форме, например MP3. Мы поговорим о том, как работает сжатие позже. Компакт-диск с данными хранит около 700 МБ. Звук на компакт-диске не сжат, поэтому он занимает гораздо больше места, чем MP3. Серия битов представлена в виде спиральной дорожки крошечных ямок в серебряном материале диска. Представьте, что каждая ямка интерпретируется как 0, а отсутствие ямки — 1 при чтении последовательности спирали. Забавный факт: вся спираль на компакт-диске имеет длину более 5 км.
Математика — попробуй
Гигабайт или ГБ
- Гигабайт ГБ = около миллиарда байтов
- около 1000 МБ
- ГБ – общепринятая единица измерения современного оборудования.
- напр. 4000 МБ = 4 ГБ
- Обычный компьютер может иметь:
–4 ГБ или ОЗУ,
–256 ГБ постоянной памяти. - Диск DVD имеет емкость 4,7 ГБ (один слой)
- – Цифра – 2 ГБ на час видео (сильно варьируется).
- Флэш-накопитель может вмещать 32 ГБ.
- На жестком диске может быть 750 ГБ.
- Математика — попробуйте сами
- Сколько ГБ составляют 4 000 000 000 байт?
Терабайт или ТБ
Один терабайт (ТБ) составляет около 1000 гигабайт, или примерно 1 триллион байт. Вы можете купить жесткие диски емкостью 4 ТБ уже сегодня, поэтому мы начинаем время, когда этот термин входит в обиход. Термин «гигабайт» тоже был экзотическим, пока закон Мура не сделал его общепринятым.
Гигагерцы — скорость, а не байты
Один гигагерц – это 1 миллиард циклов в секунду (мегагерц – миллион циклов в секунду). Гигагерц — это мера скорости, грубо говоря, скорость, с которой процессор может выполнять простейшую операцию в секунду. Гигагерц точно не говорит вам, как быстро ЦП выполняет работу, но примерно коррелирует. ЦП с более высокой частотой гигагерца также, как правило, дороже в производстве, и они потребляют больше энергии (и, как следствие, выделяют больше тепла) — проблема с размещением быстрых ЦП в небольших устройствах, таких как телефоны. Компания ARM славится тем, что выпускает очень производительные чипы при минимальном энергопотреблении и нагреве. В настоящее время почти все сотовые телефоны используют процессоры ARM.
Проблемы с килобайтами, мегабайтами и гигабайтами
Вы должны уметь выполнять простые арифметические действия для вычисления размеров в мегабайтах и гигабайтах, а также выполнять базовые вычисления с секундами, милями, килограммами и т. д.
Базовый план: прежде чем добавлять показатели X и Y, преобразуйте их в одни и те же единицы измерения.
Да, подходит: 600 МБ + 2000 МБ — это 2600 МБ. 2600 МБ — это 2,6 ГБ, поэтому на 4 ГБ диск поместится без проблем. То же самое мы могли бы сказать, что на диске объемом 4 ГБ есть место для 4000 МБ.
Аудио в формате MP3 занимает около 1 МБ в минуту. 20 часов, 60 минут/час, 20 * 60 дает 1200 минут. Это около 1200 МБ, что составляет 1,2 ГБ.
800 x 600 – это 480 000 пикселей.Каждый пиксель занимает 3 байта (по одному байту для красного/зеленого/синего), поэтому 480 000 * 3 — это всего 1 440 000 байт, т. е. около 1,4 МБ, что является пространством, необходимым для изображения в ОЗУ. Вы заметите, что на диске файлы .jpg занимают гораздо меньше места; это связано с «сжатием», которое является очень эффективным методом сокращения пространства для изображений и аудиоданных — тема будущего.
Альтернативный термин: Кибибайт Мебибайт Гибибайт Тебибайт
В компьютере удобно организовывать элементы в группы по степени двойки. Например, 2·10 равно 1024, поэтому программа может сгруппировать 1024 элемента вместе, как своего рода "круглое" число элементов в компьютере. Термин «килобайт» выше относится к этой группе размером 1024 вещи. Однако люди также группируют вещи по тысячам — 1 тысяча или 1 миллион элементов.
Читайте также: