Найти количество информации в байтах, которое содержит компьютерный текст из 2 страниц, если их 30
Обновлено: 21.11.2024
Трейлер: найдите 50 4B 05 06 ( PK.. ), за которыми следуют 18 дополнительных байтов
в конце файла.
Файлы .MOV имеют сложную подпись файла. Строка "moov" является наиболее распространенной, но я также встречал:
0x66-72-65-65 free
0x6D-64-61-74 mdat
0x77-69-64-65 широкий
И мне сообщили следующее:
0x70-6E-6F-74 pnot
0x73-6B-69-70 skip
Кроме того, если вы посмотрите на позицию байта xxxxxxxx +4 (где xxxxxxxx — это байты 0–3 заголовка), вы
обнаружите, что одна (или несколько!) из этих строк повторяется; строка «бесплатно» кажется наиболее распространенной.
дополнительную информацию см. на странице формата файлов QuickTime. (Спасибо Д. Райту за то, что он помог мне начать работу!)
- Существует несколько форматов подзаголовков и недостаток документации.
- Были сообщения о разных подзаголовках для Windows и Mac
версий MS Office, но я не могу это подтвердить.] - Защищенные паролем файлы DOCX, XLSX и PPTX также используют эту подпись, эти файлы
сохраняются как файлы OLECF. - [Обратите внимание на сходство между D0 CF 11 E0 и словом "DOCFILE"!]
ПРИМЕЧАНИЯ относительно заголовков файлов JPEG. Правильный заголовок JPEG представляет собой двухбайтовую последовательность 0xFF-D8, также известную как маркер Start of Image (SOI).
Файлы JPEG заканчиваются двухбайтовой последовательностью 0xFF-D9, также известной как маркер End of Image (EOI).
Между SOI и EOI файлы JPEG состоят из сегментов. Сегменты начинаются с двухбайтового Тега сегмента, за которым следует
двухбайтовое поле Длина сегмента, а затем строковый идентификатор, заканчивающийся нулем (т. е. строка символов). с последующим 0x00), как
показано ниже с сегментами JFIF, Exif и SPIFF.
Теги сегмента в форме 0x-FF-Ex (где x = 0..F) обозначаются как APP0-APP15 и содержат информацию для конкретного приложения.
Наиболее часто встречающиеся сегменты APP в начале файла JPEG – это APP0 и APP1, хотя встречаются и другие сегменты. Некоторые дополнительные
теги показаны ниже:
БЛАГОДАРНОСТЬ
Следующие лица давали мне обновления или предложения для этого списка на протяжении многих лет: Девон Акерман, Назим Алиев, Марко Барбьери, Владимир Бенко, Арвин Бхатнагар, Джим Блэксон, Кит Блэквелл. , Сэм Бразерс, Дэвид Бертон, Алекс Кейтнесс, Эрик Кампо, Бьорн Карлин, Тим Карвер, Майкл Д Кавалье, Пер Кристенссон, Оскар Чой, JMJ.Conseil, Джесси Купер, Джесси Корвин, Майк Дэниелс, Корнелис де Гроот, Джеффри Дагган, Тони Дункан, Джон Элдридж, Эсан Эльхампур, Жан-Пьер Фисет, Питер Алмер Фредериксен, Тим Гарднер, Крис Гриффит, Линда Гроуди, Андис Гроштейнс, Пауло Гусман, Рич Хейнс, Джордж Харпур, Брайан Хай, Эрик Хубер, Аллан Дженсен, Бродус Джонс, Мэтью Келли, Аксель Кесселер, Ник Хор, Шейн Кинг, Арт Кочиш, Тимо Кройц, Билл Кунс, Евгений Кустов, Андреас Кирмегалос, Гленн Ларссон, Джереми Ллойд, Ананд Мани, Кевин Мэнселл, Дэвид МакКолл, Пар Остерберг Медина, Михал, Сергей Миклин , Дэвид Миллард, Брюс Модик, Ли Нельсон, Март Оска член парламента, Дэн П., Хорхе Польяк, Карло Полити, Сет Полли, Хедли Кинтана, Энтони Рабон, Стэнли Рейни, Кори Редферн, Брюс Робертсон, Бен Рёдер, Томас Рёснер, Гаурав Сегал, Энди Зейтц, Анли Шунди, Эрик Сиерс, Филип Смит , Майк Саттон, Матиас Свертвегер, Тобиас и Сакуте;Вятловски, Фрэнк Торнтон, Эрик ван де Бургвал, Ойвинд Уолдинг, Джейсон Уоллес, Дэниел Уолтон, Франклин Уэббер, Бернд Вехнер, Дуглас Уайт, Майк Уилкинсон, Гэвин Уильямс, Шон Вулфингер, Дэвид Райт, и Шауль Зевин. Я благодарю их и извиняюсь, если кого-то упустил.
Я хотел бы выразить особую благодарность Дэнни Маресу из Mares and Company, автору MaresWare Suite (в первую очередь за «подзаголовки» для многих файлов). типы здесь), и людей из X-Ways Forensics за их разрешение включить свои списки подписей файлов.
Наконец, доктор Николь Биб из Техасского университета в Сан-Антонио опубликовала образцы из более чем 32 типы файлов в Digital Corpora, которые я использовал для проверки и дополнительных подписей. Эти файлы были использованы для разработки классификатора типов файлов Sceadan. Образцы файлов можно загрузить с веб-сайта Digital Corpora.
УВЕДОМЛЕНИЕ ОБ АВТОРСКИХ ПРАВАХ
Вся информация на этой странице © 2002-2022, Gary C. Kessler. Разрешение на использование материала здесь распространяется на любого посетителя этой страницы, если указана соответствующая атрибуция и информация не изменена каким-либо образом без явного письменного разрешения автора.
2.1 Для представления всех цифровых данных можно использовать различные абстракции, основанные на двоичных последовательностях.
2.1.2 Объясните, как двоичные последовательности используются для представления цифровых данных. [P5]
2.1.2A Конечное представление используется для моделирования бесконечной математической концепции числа.
2.1.2B Во многих языках программирования фиксированное количество битов, используемых для представления символов или целых чисел, ограничивает диапазон целочисленных значений и математических операций; это ограничение может привести к переполнению или другим ошибкам. Заявление об исключении (2.1.2B). Ограничения диапазона любого отдельного языка, компилятора или архитектуры выходят за рамки этого курса и экзамена AP.
2.1.2C Во многих языках программирования фиксированное количество битов, используемых для представления действительных чисел (в виде чисел с плавающей запятой), ограничивает диапазон значений с плавающей запятой и математических операций; это ограничение может привести к ошибкам округления.
2.1.2D Интерпретация двоичной последовательности зависит от того, как она используется.
2.1.2E Последовательность битов может представлять инструкции или данные.
2.1.2F Последовательность битов может представлять разные типы данных в разных контекстах.
6.2.2K Задержка системы — это время, прошедшее между передачей и получением запроса.
6.2.2J Пропускная способность системы – это мера скорости передачи данных — объема данных (измеряемого в битах), который может быть отправлен за фиксированный промежуток времени.
Все данные хранятся в виде двоичных последовательностей (единиц и нулей), и интерпретация любой двоичной последовательности зависит от того, как она будет использоваться. Двоичные последовательности используются для представления компьютеру инструкций и различных типов данных в зависимости от контекста.
Компьютеры хранят информацию в двоичном формате, используя биты и байты. Бит - это "0" или "1". Байт — это восемь битов, сгруппированных вместе, например 10001001.
В байтах 8 разрядов, поэтому крайний левый разряд равен 2 7 (или 128). Практика того, что вы узнали: что такое 100010012 в системе счисления с основанием 10?
- бит — единица данных, которая может иметь только одно из двух значений (например, 1 или 0).
- битрейт — количество данных (измеряемое в битах), которые можно отправить за определенное время.
- пропускная способность – пропускная способность системы (измеряется скоростью передачи данных).
- задержка — время между отправкой и получением сообщения
По мере того, как компьютеры становятся все более мощными, они способны обрабатывать больше информации. Раньше мы измеряли память компьютера в килобайтах; один килобайт равен 2 10 (1024) байтам, что составляет около 10 3 , поэтому мы называем его «кило». В наши дни память вашего компьютера, скорее всего, измеряется в мегабайтах. Один мегабайт равен 2 20 (около 1 миллиона) байт.
Место на жестком диске, скорее всего, измеряется гигабайтами, терабайтами или даже петабайтами. Один гигабайт равен 2 30 (около 1 миллиарда) байтов, один терабайт равен 2 40 (около 1 триллиона) байтов, а один петабайт равен 2 50 (около 1 квадриллиона) байт.
мера | количество | пример | < /tr>
бит | либо 1, либо 0 | 1 |
байт | 8 бит | 11011001 |
килобайт | 2 10 (1024) байт | пара абзацев |
мегабайт | 2 20 (1 048 576) байт | около 1 книги |
гигабайт | 2 30 (1,073,741,824) байт | чуть больше 1 CD |
терабайт | 2 40 (1 099 511 627 776) байт | около 1500 компакт-дисков |
петабайт | 2 50 (1 125 899 906 842 624) байт | около 20 миллионов шкафов с текстом |
Сохранение целых чисел
В зависимости от используемого языка программирования целое число может храниться с двумя или, возможно, четырьмя байтами данных, что позволяет использовать диапазон от -32 768 до 32 767 (с двумя байтами) или от -2 147 483 648 до 2 147 483 647 (с четырьмя байтами).< /p>
Почему это диапазоны целых чисел?
Два байта — это 16 бит, поэтому два байта могут представлять 2·16 = 65 536 различных значений. Примерно половину из них мы используем для представления отрицательных чисел, примерно половину — для положительных чисел и один — для представления нуля.
Четыре байта — это 32 бита, поэтому четыре байта могут представлять 2 32 = 4 294 967 296 различных значений. Опять же, мы используем примерно половину для отрицательных чисел, половину для положительных и одну для нуля.
А как насчет больших чисел? Каким бы ни был конкретный размер для хранения целых чисел (два байта, четыре байта и т. д.), он будет ограничивать диапазон целых значений, которые можно хранить, и математические операции, которые можно выполнять. Значения, превышающие это ограничение, могут привести к ошибкам, таким как ошибки переполнения, поскольку большие значения превышают объем пространства, выделенный для хранения одного числа.
В этом классе вам не нужно изучать функцию факториала (мы просто используем ее для обсуждения больших чисел), но вы, вероятно, еще встретитесь с ней на уроке математики.
Факториал положительного целого числа n (обозначается как "n!") — это произведение всех целых чисел от 1 до n. Например:
5!= 1 \times 2 \times 3 \times 4 \times 5 = 120 Загрузите этот проект и попробуйте следующие входные данные:
Что происходит? Хотя 200! очень большой, он не бесконечен. Этот отчет является результатом ограничения размера. Если результат вычисления превышает диапазон чисел, которые можно сохранить, компьютер возвращает специальный код или ошибку переполнения.
В Snap! есть специальные коды для бесконечности, –infinity (меньше любого конечного значения) и «Not a Number», которое является уведомлением, используемым для незаконных вычислений, таких как \frac00 .
Сохранение текста
Вы узнаете больше о Unicode, если займетесь проектом Caesar Cipher в лаборатории кибербезопасности, где создадите программу для шифрования сообщения.
В языках программирования обычно используется определенное количество битов для представления символов Юникода или целых чисел. Юникод — это система, которая позволяет компьютерам хранить буквы как целые числа. Например, заглавная буква А — это номер 65 в Юникоде, который равен 010000012.
Плавающая точка
Во многих языках для представления действительных чисел (включая десятичные дроби и числа, слишком большие для хранения целых чисел) используется другой тип данных, который называется с плавающей запятой и представляет собой двоичную версию экспоненциальной записи. Это называется с плавающей запятой, потому что десятичная точка "плавает" сразу после первой цифры.
То, что e+32 — это просто другой способ написания научных обозначений. "e+" означает "умножить на десять в степени", поэтому: 2,6525285981219103\text+32 = 2,6525285981219103\times10^ =265 252 859 812 191 030 000 000 000 000 000 .
Плавающая запятая позволяет компьютерам хранить очень большие числа, а также десятичные дроби, но формат по-прежнему имеет определенное количество битов, что ограничивает диапазон значений с плавающей запятой и математических операций, как и с целыми числами. Однако с плавающей запятой значения, превышающие ограничение, могут вместо этого привести к ошибкам округления.
Большинство вещественных чисел не могут быть точно представлены даже с плавающей запятой.
Десятичное представление \frac13 равно 0,33333. В нем бесконечно много цифр, поэтому самое близкое к нему число с плавающей запятой не равно точно \frac13 ; через некоторое время он обрывается.
Ошибки округления могут привести к довольно странным вычислениям.
Это не ошибка Snap!. Многие другие языки (например, JavaScript) будут сообщать те же значения для этих вычислений.
Компьютерная арифметика над целыми числами проста. Либо вы получаете точно правильный целочисленный результат, либо, если результат не соответствует целочисленному представлению, вы получаете ошибку переполнения, и результат, как правило, преобразуется в представление с плавающей запятой (например, 30! было ).
В отличие от этого, компьютерные арифметические операции над числами с плавающей запятой трудно сделать правильно. До 1985 года каждая модель компьютера имела немного отличающийся формат с плавающей запятой, и все они давали неверные ответы на определенные задачи. Эта ситуация была разрешена стандартом IEEE 754 с плавающей запятой, который теперь используется всеми производителями компьютеров и несколько раз совершенствовался с момента его создания в 1985 году.
Как язык программирования узнает, следует ли интерпретировать битовую последовательность как целое число, число с плавающей запятой, текстовую строку символов Unicode, инструкцию или что-то еще? Языки программирования различаются тем, как они это делают, но всегда есть некоторая дополнительная последовательность битов, которая кодирует тип данных любой последовательности битов, которая сообщает компьютеру, как ее интерпретировать.< /p>
- Логическое значение – это один бит, 0 – ложь и 1 – истина.
- Текстовая строка представляет собой последовательность кодов символов Unicode, каждый из которых хранится как отдельное целое число.
- Списки и блоки также являются двоичными последовательностями.
- Какая самая правая цифра в двоичном представлении 15551212?
- Какой самый правый бит ("двоичная цифра") 123456789?
- Разработайте правило для нахождения самого правого бита любого числа с основанием 10. ол>р>
- 1 Б = 1 байт;
- 1 КБ = 1000 байт;
- 1 МБ = 1000 КБ;
- 1 ГБ = 1000 МБ или 1 000 000 000 байт.
- используйте PNG (или GIF) для кнопок, штриховых рисунков, диаграмм, большинства логотипов с острыми краями и, возможно, полностью черно-белых объектов, таких как отсканированный текст;
- уменьшить масштаб, если он шире 800 пикселей.
- преобразовать в индексированный цвет и выбрать адаптивную палитру, если она предлагается, с наименьшим количеством отображаемых цветов (64 часто достаточно)
- использовать максимальное сжатие
- для больших сложных диаграмм и штриховых рисунков можно использовать новый формат SVG (масштабируемая векторная графика), который поддерживается Firefox 2 и Internet Explorer 9 и более поздних версий.
- обрезать до нужного размера и/или соответствующим образом уменьшить масштаб, чтобы он не превышал ожидаемое количество пикселей на экране.
- выберите любой параметр для оптимизации и используйте скромный параметр качества ( <60)
Другое, что вам может быть интересно узнать
Когда вы прикрепляете файл к электронному письму, он обычно преобразуется в текст ("base 64"), который может представлять только 6 бит на символ. Это означает, что файл размером 1 МБ будет создавать сообщение электронной почты размером около 1,37 МБ (включая дополнительные накладные расходы, соотношение составляет 26:19, 26 байт сообщения электронной почты на каждые 19 байт вложения).
Скорость передачи данных может измеряться в битах (обычно для рейтинга самого соединения) или в байтах (чаще для фактической скорости загрузки или выгрузки и указывается с большой буквы). Коэффициент преобразования обычно составляет 8 битов в 1 байт (исключая редкие в настоящее время биты четности или стоповые биты). Таким образом, старый коммутируемый модем может загружать и скачивать со скоростью 32 кбит/с, но это всего лишь 4 кбит/с или 4000 байт в секунду. Широкополосное/DSL-соединение со скоростью 8 мегабит в секунду (Мбит/с) на самом деле означает только абсолютный максимум 1 МБ/с, а загрузка программного пакета объемом 100 МБ (например, OpenOffice) займет не менее 100 секунд, а возможно, и больше.
Подводя итог, можно сказать, что если заранее подумать о том, чтобы создать файл такого размера, который будет легко передавать и удобен для получателя, это может впоследствии сэкономить многим людям много времени и места для хранения.
Если вы новичок в компьютерах (или даже если вы не новичок), имена, которые применяются к разным объемам памяти, могут показаться странными.
Как именно вы оцениваете, сколько места описывает гигабайт, терабайт или даже петабайт?
Что такое байт?
Чтобы понять, как работают более крупные блоки памяти, важно понимать, что меньшие блоки пространства состоят из этих более крупных блоков.
Проще говоря, один байт обычно представляет собой восемь двоичных цифр. Двоичная цифра — это 1 или 0, которые на очень старых компьютерах буквально представляли собой переключатель, который был включен или выключен.
Есть некоторые компьютерные системы, которые имеют байты другой длины, но большинство современных компьютеров сегодня основаны на восьмибитной двоичной системе байтов.
Эти восемь битов (байт) обычно представляют символ, такой как буква или цифра. Байты также могут представлять собой символы, которые представляют собой часть более крупного объекта, такого как изображение.
Поскольку байт — это наименьшая единица данных, для более крупных единиц данных, состоящих из еще большего количества битов, требуются другие имена. Важно помнить, что все большие блоки состоят из фиксированного числа байтов, а каждый байт обычно содержит восемь битов.
Поскольку вы начинаете накапливать больше байтов, вы можете определить имя единицы на основе количества байтов.
Килобайт равен 1024 байтам
Вы могли бы подумать, что, поскольку префикс "кило" обычно означает 1000, этот килобайт будет состоять из 1000 байтов.
Реальность такова, что, поскольку компьютеры хранят данные в двоичной системе, а двоичная система основана на степени двойки, фактическое количество байтов равно 1024.
Вы можете убедиться в этом, если посмотрите, как работает сила двойки.
- 2^0 = 1
- 2^1 = 2
- 2^2 = 4
- 2^3 = 8
- 2^4 = 16
- 2^5 = 32
- 2^6 = 64
- 2^7 = 128
- 2^8 = 256
- 2^9 = 512
- 2^10 = 1024
Первое двоичное значение, представляющее 1000 байтов, равно 1024. Таким образом, килобайт содержит 1024 байта.
Вы можете оценить размер, который потребуется для информации, исходя из количества символов в этих данных. Возьмем, к примеру, книгу на 200 страниц. Обычно на каждой странице книги около 300 слов.Это означает, что вся книга состоит примерно из 60 000 слов.
В среднем слово составляет около 6 символов. Это означает, что в книге из 60 000 слов содержится около 360 000 символов.
Для хранения этой книги в электронном виде потребуется 360 000 байт.
Вы можете выразить это в килобайтах (КБ), разделив 360 000 байт на 1024. Это означает, что для книги из 60 000 слов потребуется около 351,56 килобайт цифрового хранилища.
Что такое гигабайт?
В метрической системе префикс "Гига" означает единицу измерения 10 в степени 9, или 1 000 000 000. Но помните, чтобы представить это в компьютерной двоичной системе, необходимо учитывать двоичный коэффициент 2.
Итак, работая с гигабайтами, используя степень двойки, нам нужно пройти весь путь до 2^30, чтобы получить первое число больше 1 миллиарда, что составляет 1 073 741 824 байта.
Пока вы знаете, что килобайт равен 1024 байтам. Как насчет всего от 1 024 до 1 073 741 824?
- Килобайт (КБ): тысяча байт или килобайт составляет 1024 байта.
- Мегабайт (МБ): миллион байтов или мегабайт представлен как 1024 килобайта.
- Гигабайт (ГБ): миллиард байтов или гигабайт представлен как 1024 мегабайта.
Чтобы представить размер гигабайта в перспективе, учтите, что в одном гигабайте может храниться около 230 музыкальных треков или почти 600 пятимегапиксельных фотографий. Вы даже можете хранить стандартный 1,5-часовой фильм на 1 гигабайте.
Что такое терабайт?
Какая следующая степень числа 10 больше миллиарда? Это будет триллион.
Префикс для триллиона — «тера». Терабайт равен 10 в степени 12 байт, представленной в двоичном формате.
Это означает, что 1 терабайт (ТБ) равен 1024 гигабайтам. Большинство современных жестких дисков хранят половину этого объема данных. Терабайт, триллион байт — это очень много информации.
В последние годы производители начали выпускать новые компьютеры с дисками на один-два терабайта. Любому пользователю было бы очень сложно заполнить такой жесткий диск, если только он не производит много часов видео высокой четкости каждый день.
Учтите, что стандартный дисковод для гибких дисков в 1990-х годах мог хранить только тысячи байтов. CD-ROM может хранить 700 мегабайт, а DVD-ROM может хранить 4,7 ГБ. Но современные жесткие диски могут хранить триллионы байтов. Диск емкостью 1 терабайт может хранить данные на 217 DVD-ROM. Мы прошли долгий путь.
Что такое петабайт?
Следующей единицей хранения, которую следует рассмотреть, является петабайт.
Префикс «пета» – это единица измерения, равная одному квадриллиону, или 10 в 15-й степени.
Поскольку это 1000 единиц одного триллиона (тера), то один петабайт равен 1024 терабайтам. Это один квадриллион байт.
Можно подумать, что такой объем информации никогда не будет использован. Однако сегодня через компьютерные системы и сети проходят петабайты информации, как бы трудно в это ни было поверить.
Но рассмотрим следующие современные приложения технологии размером в петабайт:
- Каждый день Google обрабатывает более 24 петабайт информации.
- Мобильные телефонные сети ежедневно передают более 20 петабайт данных между пользователями.
- Суперкомпьютер Blue Waters имеет более 500 петабайт ленточной памяти.
- Архивы Библиотеки Конгресса США содержат более 7 петабайт цифровых данных.
- Для запуска сетевой игры серверам World of Warcraft требуется более 1,5 петабайт дискового пространства.
Огромный петабайт трудно представить себе, но если рассмотреть приведенные выше сценарии, становится совершенно ясно, какой объем данных задействован.
В одном петабайте может храниться более 10 000 часов телевизионных программ. Если вы заполните весь шкаф с четырьмя ящиками документами, заполненными текстом, вы сможете уместить 20 миллионов таких шкафов в петабайт.
Фактически, вы можете хранить каждую письменную рукопись, созданную человечеством с начала письменной истории, в 50 петабайтах.
Это много данных.
Понимание терминологии памяти
Важно понимать единицы памяти, потому что в наши дни они используются везде, где есть технологии. Каждый раз, когда вы покупаете компьютер, мобильный телефон или планшет, все спецификации указываются с точки зрения памяти и того, сколько данных может передать технология.
Если вы понимаете все эти термины, то поймете, насколько один компьютер лучше другого. Вы оцените, насколько лучше мобильная сеть 4G, чем 3G.Вы оцените, насколько больше вы сможете хранить на карте памяти емкостью 1 терабайт, а не на карте памяти емкостью 500 мегабайт.
По мере того, как технологии продолжают развиваться, возможно, появятся новые единицы памяти, о которых нужно будет узнать. Но пока эти термины — это все, что вам нужно знать.
Если вы зашли так далеко, вам следует перейти к написанной нами статье о скорости передачи данных по сети, которая состоит из мегабит в секунду, гигабит в секунду и т. д. Это поможет вам понять, когда ваш интернет-провайдер говорит вам, что ваша скорость загрузки составляет 15 МБ/с. Наслаждайтесь!
Райан пишет инструкции и другие статьи о технологиях в Интернете с 2007 года. Он имеет степень бакалавра наук в области электротехники, 13 лет работал в области автоматизации, 5 лет — в ИТ, а сейчас работает инженером по приложениям. Прочитать полную биографию Райана
Понравился ли вам этот совет? Если это так, загляните на наш канал YouTube на нашем родственном сайте Online Tech Tips. Мы охватываем Windows, Mac, программное обеспечение и приложения, а также предлагаем множество советов по устранению неполадок и обучающих видеороликов. Нажмите кнопку ниже, чтобы подписаться!
Масштабы хранения данных могут быть ошеломляющими. Вот краткий обзор снизу вверх, начиная с крошечного байта и заканчивая гигантским йоттабайтом.
Менее чем за десять лет объем памяти на флэш-картах увеличился в 1000 раз. Предоставлено: Компьютерный мир.
Тридцать лет назад, в 1983 году, на самых больших жестких дисках хранилось около 10 МБ данных. Этого едва хватит, чтобы сохранить две или три дорожки .mp3. Теперь у типичного ноутбука есть один терабайт памяти или почти в 100 000 раз больше, но даже эта цифра смехотворна, если учесть, сколько данных мы генерируем. По данным IBM, каждый день мы создаем 2,5 квинтиллиона байт данных, и 90 % сегодняшних цифровых данных были созданы за последние два года.
Даже те, кто хорошо разбирается в компьютерах, по-прежнему смотрят на данные в масштабе гигабайта или терабайта, но ясно, что мы уже далеко зашли. Это может запутать и вызвать головокружение, поэтому давайте кратко рассмотрим, как мы измеряем данные, и поместим некоторый контекст в некоторые из наиболее малоизвестных единиц цифровой информации, таких как петабайты или йоттабайты.
О цифровом хранилище или памяти
Азбука Морзе является двоичной. Кредит: Веб-курсы.
Мы, люди, воспринимаем информацию в аналоговом виде. Например, то, что мы видим или слышим, обрабатывается в мозгу из непрерывного потока. Напротив, компьютер является цифровым и оценивает такую информацию с помощью единиц и нулей.
Общение только с помощью 1 и 0 поначалу может показаться ограничивающим, но люди уже давно используют последовательности включения и выключения для передачи сообщений. В викторианские времена, например, люди использовали телеграф, чтобы посылать «точки» (короткий сигнал) или «тире» (более длинный сигнал), изменяя продолжительность включения переключателя. Затем человек, слушающий на другом конце, расшифровывал двоичные данные, записанные азбукой Морзе, на простой английский язык. Передача сообщения по телеграфу может занять некоторое время, намного больше, чем, например, передача сообщения по телефону, но в сегодняшнюю цифровую эпоху это не проблема, потому что цифровые данные могут быть декодированы компьютером в одно мгновение. В двоичном формате 01100001 может быть числом 97 или буквой "а".
Цифровое хранилище имеет ряд преимуществ перед аналоговым, так же как цифровая передача информации имеет преимущества перед аналоговой. Возможно, самый яркий пример того, почему цифровое хранилище лучше аналогового, — это устойчивость к повреждению данных. Давайте на мгновение взглянем на аудио- или видеокассеты. Для хранения данных тонкая пластиковая лента пропитывается частицами оксида железа, которые намагничиваются или размагничиваются в присутствии магнитного поля от катушки электромагнита. Затем данные извлекаются с ленты, перемещая ее через другую катушку провода, которая намагничивает определенные точки вокруг ленты, вызывая напряжение.
Если бы мы использовали аналоговые методы для хранения данных, например представление сигнала по силе намагничивания различных точек на ленте, мы бы столкнулись с большими проблемами. По мере старения ленты и ослабления намагниченности аналоговый сигнал будет изменяться по сравнению с исходным состоянием, когда данные были впервые записаны. Более того, любое магнитное поле может изменить намагниченность ленты. Поскольку аналоговые сигналы имеют бесконечное разрешение, малейшая степень изменения повлияет на целостность хранилища данных.
Это больше не проблема в двоичном цифровом формате, поскольку сила намагничивания ленты будет рассматриваться на двух дискретных уровнях: либо «высокий», либо «низкий». Неважно, что это за промежуточные состояния. Даже если магнитные поля претерпят незначительные изменения на ленте, данные защищены от повреждения, поскольку дискретные уровни все еще присутствуют.
Единицы данных
Немного
Бит, сокращение от BInary digitalT, — это наименьшая единица данных, которую может прочитать компьютер. Проще говоря, это может быть либо 1, либо 0.
Байт
Байт состоит из восьми битов.
- 0,1 байта: двоичное решение
- 1 байт: один символ
- 10 байт: одно слово
- 100 байт: телеграмма ИЛИ перфокарта
Килобайт (1024 байта)
- 1 килобайт: очень короткая история
- 2 Килобайта: машинописная страница
- 10 килобайт: энциклопедическая страница ИЛИ колода перфокарт
- 50 Килобайт: сжатая страница изображения документа.
- 100 Килобайт: фотография с низким разрешением.
- 200 Килобайт: коробка перфокарт
- 500 Килобайт: очень тяжелая коробка с перфокартами.
Мегабайт (1024 Килобайта)
- 1 МБ: 4 книги (873 страниц обычного текста) ИЛИ 3,5-дюймовая дискета.
- 2 МБ: фотография с высоким разрешением.
- 5 МБ: полное собрание сочинений Шекспира ИЛИ 30 секунд видео телевизионного качества.
- 10 МБ: минута высококачественного звука ИЛИ цифровой рентген грудной клетки.
- 20 мегабайт: коробка дискет
- 50 МБ: цифровая маммограмма
- 100 мегабайт: 1 метр книг на полках ИЛИ двухтомная энциклопедия
- 200 МБ: катушка с 9-дорожечной лентой ИЛИ картридж с лентой IBM 3480.
- 500 мегабайт: компакт-диск ИЛИ жесткий диск ПК.
Гигабайт (1024 мегабайта или 1 048 576 килобайт)
- 1 Гигабайт: пикап, наполненный бумагой, ИЛИ симфония с качественным звуком, ИЛИ фильм телевизионного качества. 1 гигабайт может вместить содержимое примерно 10 ярдов книг на полке.
- 2 ГБ: 20 метров книг на полках.
- 5 Гигабайт: лента Exabyte шириной 8 мм
- 20 гигабайт: высококачественная звуковая коллекция произведений Бетховена ИЛИ кассета VHS, используемая для цифровых данных.
- 50 гигабайт: пол книг ИЛИ сотни 9-дорожечных кассет
- 100 гигабайт: пол академических журналов ИЛИ большая цифровая лента ID-1.
Терабайт (1024 гигабайта)
- 1 терабайт: автоматизированный ленточный робот ИЛИ все рентгеновские снимки в большой технологической больнице ИЛИ 50 000 деревьев, превращенных в бумагу и напечатанных.
- 1 терабайт: 1 613 компакт-дисков по 650 МБ или 4 581 298 книг.
- 1 терабайт: 1000 экземпляров Британской энциклопедии.
- 2 терабайта: академическая научная библиотека ИЛИ полный шкаф кассет Exabyte
- 10 терабайт: печатная коллекция Библиотеки Конгресса США
Петабайт (1024 терабайта или 1 048 576 гигабайт)
- 1 петабайт: 5 лет системе наблюдения за Землей (EOS) (46 Мбит/с)
- 1 петабайт: 20 миллионов четырехдверных шкафов с текстом или 500 миллиардов страниц стандартного печатного текста.
- 2 петабайта: все научно-исследовательские библиотеки США.
- 20 петабайт: производство жестких дисков в 1995 г.
- 200 петабайт: все печатные материалы когда-либо ИЛИ производство цифровой магнитной ленты в 1995 году
Экзабайт (1024 петабайта)
- В 2012 году каждый день в Интернете создавался экзабайт данных, или 250 миллионов DVD-дисков.
- 5 экзабайт: все слова, когда-либо произнесенные людьми.
Зеттабайт (1024 эксабайта)
Йоттабайт (1204 зеттабайта, или 1 208 925 819 614 629 174 706 176 байт)
- Он равен одному септиллиону (10 24 ) или, строго говоря, 2 80 байтам.
- Его название происходит от префикса «Йотта», происходящего от древнегреческого οκτώ ( októ ), означающего «восемь», поскольку оно равно 1000 8 , поэтому его изготовление стоило бы 100 триллионов долларов. система хранения йоттабайт, сделанная из старых жестких дисков.
После «Йотта» официально признанная система префиксов прекращает свое существование, вероятно, потому, что у людей не было необходимости работать с большим количеством… чего угодно. Однако есть и другие единицы измерения, которые выходят далеко за рамки йотты и признаются некоторыми экспертами в своих областях. Например, бронтобайт — это 1, за которой следуют 27 нулей, и некоторые считают, что это будет шкала данных, обеспечиваемая Интернетом вещей (умные устройства от тостеров до холодильников и домашних датчиков, которые постоянно передают и получают данные). Гэгобайт — это 10 в степени 30, что сейчас бесполезно считать в DVD или чем-то подобном.
Кредит: Mashable.
Читайте также:
Каждый файл на компьютере использует определенное количество ресурсов при отправке через Интернет или сохранении. Помня о своих килобайтах (КБ) и мегабайтах (МБ), вы можете предотвратить проблемы и обеспечить более плавную работу в Интернете. Это руководство GreenNet поможет вам отличить китов от пескарей.
Компьютерные ресурсы имеют физические пределы своих возможностей, даже если идею компьютерных ресурсов можно масштабировать до бесконечности. Поэтому мы действительно хотим думать о размерах файлов аккуратно, минималистично и, таким образом, максимально использовать ресурсы, которые у нас уже есть.Хотя большинство людей в настоящее время, кажется, имеют подключение к Интернету, которое легко справляется с аудио, видео и изображениями с высоким разрешением, стоит помнить, что многие люди этого не делают. Если не позаботиться, можно создать большой мультимедийный файл, который на самом деле передает людям не больше информации, чем файл в десятую или сотую часть размера.
Программные пакеты, которые потребляют слишком много памяти и места на диске для выполнения своих функций, иногда называют "раздутыми программами", и аналогичную эстетику можно применить к медиафайлам. Например, размещение расшифровок на веб-сайте может помочь людям быстрее находить нужную им информацию, чем только аудио- или видеоинтервью. Точно так же вы можете подумать, будет ли людям, в том числе с нарушениями зрения, проще прочитать дату и время события из текстового сообщения электронной почты или открыть большой PDF-файл или файл изображения плаката. (Кстати, термин Microsoft «документ» для файлов так и не прижился. В данном контексте эти два слова являются синонимами.)
Итак, насколько большим является слишком большой? Очевидно, это зависит от контекста. Если вы подписываете отчет, который предназначен для печати, то вполне разумно отправить по электронной почте вложение в формате PDF размером 10 МБ нескольким людям с просьбой дать окончательные комментарии. Что было бы неразумно, так это отправить готовый 10-мегабайтный файл по электронной почте вашему списку из 2000 сторонников. Вместо этого вы можете создать версию PDF с более низким разрешением или даже текстовую версию, разместить ее на своем веб-сайте и отправить по электронной почте ссылку на файл, возможно, с небольшим указанием размера файла (например, «[1,2 МБ PDF] ") рядом со ссылкой для скачивания.
Зачем беспокоиться о размере файла, если человеку с высокоскоростным широкополосным доступом в Интернет требуется всего 15 секунд, чтобы загрузить файл размером 10 МБ?
Несмотря на то, что у некоторых людей загрузка может занять 15 секунд (например, широкополосный доступ GreenNet ADSL2+ со скоростью "до" 12 Мбит/с), 10 % домашних интернет-соединений в Великобритании по состоянию на 2009 год по-прежнему осуществляются с коммутируемым доступом, во многих других странах этот показатель выше. . Загрузка 10 МБ по телефонной линии может занять около часа. При более старых широкополосных соединениях или в сельской местности скорость загрузки может составлять 512 кбит/с, а передача по-прежнему занимает несколько минут. Даже при самом быстром широкополосном доступе скорость загрузки часто ограничена 256 кбит/с, поэтому, если вы ожидаете повторной передачи файла размером 10 МБ, это, скорее всего, будет медленнее, чем ожидалось.
Большой файл сам по себе не представляет проблемы, но если его умножить на размер аудитории, это может привести к проблемам с пропускной способностью, которые повлияют на интернет-провайдеров и других пользователей. Передача также потребляет большее количество энергии, что может привести к необходимости модернизации оборудования (до 80% энергии за время жизни компьютерной техники «воплощается», то есть при ее изготовлении). GreenNet не ограничивает пропускную способность, но подчиняется политике «добросовестного использования».
После загрузки большие файлы труднее манипулировать. Большие электронные письма могут замедлить доступ к почтовому ящику и увеличить размер файлов почтовых ящиков на компьютерах получателей. Большие файлы изображений на веб-странице часто должны масштабироваться программным обеспечением браузера, а это означает, что навигация и прокрутка страницы могут быть медленными и беспорядочными. (Есть и другие факторы, которые могут вызвать медленную "отрисовку" страницы, например, Javascript или сложная "внутренняя часть" веб-сайта.)
Тогда есть резервная копия. Если кто-то намеревается сохранить документ или изображение или заархивировать всю электронную почту, он может быть многократно реплицирован на резервном носителе. Люди также могут не захотеть хранить файлы, которые занимают больше памяти, чем они того стоят, и поэтому удаляют их.
Это все еще 15 секунд, даже если это фоновая загрузка. Некоторым из нас не терпится дождаться компьютера более полсекунды.
Что на самом деле означает каждая единица памяти компьютера?
Короче говоря, префиксы "кило-", "мега-", "гига-" и "тера-" аналогичны их использованию в любых других единицах измерения, таких как метры или ватты:
(Чтобы запутать ситуацию, «1 КБ» или «1 КБ» используются многими компьютерщиками для обозначения 1024 байтов, что является удобным числом в двоичном формате, а память или диск часто выделяются операционными системами в единицах 1024. Чтобы избежать этой путаницы со стандартным научным использованием «мега-» и т. д., термины «кибибайт» (КиБ), «мебибайт» (МиБ), «гибибайт» (ГиБ) и «тебибайт» теперь рекомендуются для этих не- десятичных технических единиц. Если вы купили флэш-накопитель на 4 ГБ, а его объем составляет всего 3,725 ГиБ, вы все равно можете почувствовать себя обделенным. Для простоты в этой статье мы будем использовать круглые тысячи и килобайты [кБ].)
Как посмотреть размеры файлов?
Размер файла или вложения обычно легко доступен, если он еще не заметен. В Windows щелчок правой кнопкой мыши на любом файле, папке или диске и выбор «Свойства» покажет размер.В окне Проводника вы можете выбрать «Подробности» в меню «Вид»; или в диалоговом окне открытия или сохранения файла есть кнопка «Просмотр», из которой вы также можете выбрать «Подробности». Если вы затем нажмете слово «Размер» в верхней части столбца, вы можете сгруппировать самые большие файлы в папке. В Mac OS X можно нажать Command+i, чтобы отобразить сведения об отдельном файле, или Command+Option+i, чтобы отобразить сведения обо всех выбранных элементах в окне Инспектора. Эквивалент представления «Подробности» для Mac — это представление «Список», а сочетание клавиш Command+J дает возможность «рассчитать все размеры» как папок, так и файлов.
Большинство почтовых программ, таких как Windows Mail или Thunderbird, всегда отображают размер вложений рядом с именем файла. В Thunderbird (и многих других программах) вы можете нажать кнопку столбцов в правом верхнем углу списка, чтобы добавить столбец, показывающий размер каждого элемента. FTP-программы, используемые для передачи файлов на веб-сайты, почти все показывают размер файлов по умолчанию, хотя обычно в байтах, поэтому вам нужно разбить эти большие числа на глаз на группы из трех цифр, чтобы увидеть, какие из них измеряются в B или kB, а который в МБ.
Таблица приблизительных размеров файлов
Трехминутный звук в формате MP3 с очень высоким битрейтом (256 кбит/с);
1 минута видео в низком разрешении или потокового видео с сайта обмена видео;
все опубликованные файлы кабельного шлюза Wikileaks к середине декабря 2010 г.;
20-страничный PDF-файл, который может включать неудачно выбранную обложку;
полное собрание сочинений Шекспира (без сжатия)
Изображения
Как вы уже поняли, одним из основных факторов, определяющих громоздкость файла, является качество или разрешение изображений. Изображение с разрешением 300 dpi (точек или пикселей на дюйм), добавленное в текстовый процессор или файл PDF, занимает примерно в четыре раза больше места, чем изображение с разрешением 150 dpi (поскольку разрешение применяется как по горизонтали, так и по вертикали). Теперь, если вам нужно поделиться изображением с кем-то в Интернете, либо на веб-сайте, либо по электронной почте, и вы не ожидаете, что он распечатает его, не ожидаете идеальной копии или увеличения для изучения мельчайших деталей, тогда это будет только быть показаны на экране. Так что стоит немного узнать о разрешениях экрана. Типичный плоский экран имеет ширину 1280 пикселей. Тем не менее, некоторые из них могут иметь меньшее или более низкое разрешение, и с учетом навигационных панелей и полей по бокам экрана, а также того, что веб-браузер посетителя может не занимать весь экран, вероятно, нет большого смысла в загрузке изображения, которое шире 800 пикселей. Все, что больше, и зритель может видеть только верхний левый угол изображения и должен прокручивать, чтобы увидеть остальное.
Отсканированные или цифровые фотографии могут быть в 20 раз больше, но при этом не казаться более четкими для получателя. Поэтому, если у вас есть такое изображение, вам нужно будет изменить его размер или уменьшить перед загрузкой или публикацией. Распространенной ошибкой при создании веб-страницы является попытка изменить размер изображения на странице путем изменения свойств элемента изображения. Некоторые системы управления контентом, такие как Drupal, могут включать в себя модуль изображения, который автоматически создает масштабированную копию изображения указанного вами размера, но если вы редактируете страницы в веб-программах, таких как Dreamweaver или KompoZer, шансы вы вынуждаете каждого посетителя веб-сайта загружать слишком много информации, а затем заставляете их компьютер работать очень усердно, выполняя уменьшение масштаба. Поэтому лучше стараться, чтобы фотоизображения, даже баннеры, не превышали 800 пикселей в поперечнике и, возможно, не превышали 50 КБ. Любое программное обеспечение для редактирования изображений, такое как GIMP с открытым исходным кодом, позволяет легко создавать файлы меньшего размера. Просто откройте большой файл, выберите функцию "размер изображения" или "масштабирование изображения", выберите нужную ширину, помня, что 800 пикселей часто соответствует полной ширине, и сохраните файл в подходящем формате.
Еще одна вещь, которую следует учитывать при работе с изображениями, – это различные преимущества различных видов сжатия и форматов файлов. Как упоминалось выше, файлы JPEG (также называемые файлами .jpg, потому что Windows когда-то была ограничена 3-символьными расширениями) чаще всего используются для фотографии, а формат JPEG используется почти во всех цифровых камерах. Они сохраняют полный диапазон цветов, но теряют определенное количество мелких деталей; существует баланс между размером файла и допустимым количеством искажений. Высокосжатый JPEG может иметь эффект интерференции Фурье, но большинство людей этого не заметят. В основном вам понадобится качество JPEG среднего уровня около 50 (из 100). Другими основными форматами, используемыми в Интернете, являются PNG или более старый GIF, и это форматы «без потерь», которые не подходят для фотографий или полноцветных сканирований произведений искусства. Однако для таких изображений, как штриховые рисунки или логотипы, которые были созданы на компьютере, выбор PNG позволяет очень эффективно сжимать области плоского цвета и сохранять четкие края дизайна, которые потеряет JPEG. PNG также имеет тенденцию использоваться для небольших изображений, поскольку для больших изображений гораздо важнее уменьшение размера за счет использования JPEG.Следующие изображения иллюстрируют, почему JPG не используется для небольших файлов с небольшим количеством цветов:
Крупный план логотипа GreenNet в формате PNG (с небольшим псевдонимом, но с «жесткими краями») | Крупный план логотипа GreenNet с качеством JPEG 20 |
Иными словами, для использования Интернета: