Запись символов в кодовых таблицах (информатика, 7 класс)

Запись символов в кодовых таблицах Информатика

Память компьютера устроена таким образом, что символы и числа могут храниться в ней исключительно как определённые последовательности бит. И чтобы корректно отображать и передавать информацию о конкретной цифре или букве, были разработаны специальные кодовые таблицы. На информатике в 7 классе изучают уникальную последовательность из нулей и единиц, готовую к обработке вычислительными машинами. В таблицах каждой из них соответствует определённый графический символ.

Основные кодировки

В начале эры компьютеров на шифровку одного символа отводилось пять бит информации. Причиной этому был сильно ограниченный объём оперативной памяти вычислительных машин тех лет. Зашифровывалось всего 32 элемента, представляющие собой строчные буквы латиницы и символы управления.

Рост производительности так называемого железа привёл к появлению кодировочных таблиц, включающих в себя гораздо большее количество элементов. Так, первой кодировкой, где использовалось уже 7 бит для шифрования одного символа, стала ASCII7. Она включала в себя прописные буквы английского алфавита, цифры в арабском представлении и знаки препинания.

Кодовая таблица ASCII7

Вскоре появилась расширенная версия ASCII8 — с возможностью использования 256 закодированных двоичным кодом символов, причём вторая половина из 128 ячеек отводилась для национальных алфавитов.

Но для многих языков даже расширенная ASCII8 была недостаточна, поэтому для удовлетворения требований кодировок японского, арабского и других национальных языков, где необходимо большее количество структурных элементов, чем 256, была создана система UNICODE.

Win1251, ср866 используются для отображения кириллицы. Стоит также отметить отдельное развитие целой группы кодировок КОI для отображения кириллических шрифтов.

Краткая история кода ASCII

Американский стандартный код для обмена информацией, или код ASCII, был создан в 1963 году Комитетом Американской ассоциации стандартов. Этот код возник в результате изменения порядка и расширения набора символов и символов, которые уже использовались в телеграфии в то время компанией Bell.

Сначала включались только заглавные буквы и цифры, но в 1967 году были добавлены строчные буквы и некоторые управляющие символы, образующие так называемый US-ASCII, то есть символы от 0 до 127. Таким образом, этот набор, состоящий всего из 128 символов, был опубликован в 1967 году как стандарт, содержащий всё необходимое для написания текстов на английском языке.

Работа на IBM

В 1981 году IBM разработала расширение 8-битного символьного кода ASCII, названное «кодовая страница 437». этой версии были заменены некоторые устаревшие управляющие символы для графических элементов. Кроме того, было добавлено 128 символов с новыми знаками, графикой и латинскими буквами, всеми знаками препинания и символами, необходимыми для написания текстов на других языках. Таким образом, были добавлены символы ASCII в диапазоне от 128 до 255.

IBM включает поддержку этой кодовой страницы в аппаратное обеспечение своей модели 5150, известной как IBM-PC, которая считается первым персональным компьютером. Операционная система этой модели MS-DOS также использовала расширенный числовой код ASCII. И сегодня почти все компьютерные системы применяют код ASCII для представления символов и текстов.

Русские версии — группа КОI

Группа KOI8, наряду с cp866, win1251, долгое время была наиболее распространённой в традиционном русском и украинском интернете. Аббревиатура KOI расшифровывается в русском языке как «Код обмена информацией». По историческим причинам: она могла существовать благодаря использованию в первых локализациях систем Unix. Текущая группа состоит как минимум из:

  • KOI8-R.
  • KOI8 — U.
  • KOI8 — RU.
  • КОИ8-Ф (КОИ8-унифицированный).
  • ISO-IR-111 (ECMA-кириллица, KOI8-E.

Группа KOI8

Группа KOI делится на основные кодировки — KOI8 и KOI7 (теперь историческую). Кодировки KOI7 предназначены и использовались в RSX-11, RT-11 и аналогичных системах. Все кодировки KOI8 имеют идентичное содержимое кодов 0x00−0x 7 °F (так же как в US-ASCII) и 0xC0−0xFF (32 русских буквы, то есть полный алфавит без Io / IO в обоих случаях).

Порядок русских букв не столько является алфавитным, сколько связан с порядком букв латинского алфавита с таким же произношением. Несвязанные буквы связаны практически произвольным образом (Ю (Yu) — @, Я (Ya) — Q, Э (E) — \). Кроме того, большие буквы ставятся после маленьких; это проблема совместимости с кодировками KOI7.

KOI8-RU был изобретён как частная инновация Юрия Демченко из Киевского политехнического института для обеспечения кодирования, совместимого с KOI8-R, с буквами славянского алфавита exUSSR кириллицы (украинский, белорусский), позиции заимствованы из ISO-IR-111. В 1997 году в Microsoft Outlook Express была добавлена поддержка этой кодировки. Эта кодировка не была поддержана украинским интернет-сообществом из-за наличия некодифицированного, но использованного KOI8-U; последний был выдвинут вместо IETF.

Не зарегистрирован в IANA, но также поддерживается GNU iconv. Microsoft определила CP21866 как KOI8-U, но долгое время это действительно был KOI8-RU. На практике разница между ними слишком мала, чтобы их можно было легко смешивать.

В оригинальном KOI8 содержимое 0x80−0xBF вообще отсутствует (для 8-битного значения) или идентично 0x00−0x 3 °F (для 7-битного значения). Различные кодировки в группе KOI8 определяют содержимое области 0x80−0xBF совершенно по-разному. Группа КОИ происходит от советского стандарта ГОСТ 19768–74 , в котором определены три варианта КОИ7 и один КОИ8. Не нужно смешивать это с ГОСТ 19768–87 , который определяет совершенно другие кодировки (ISO-8859−5 и группу ALT).

Компьютерщики за работой

Известен также KOI8-C как редко встречающаяся смесь KOI8 в 0xC0−0xFF и CP1251 в 0x80−0xBF. Есть еще KOI8-C, в котором добавлены буквы для старого (до 1918 года) русского алфавита, а также для большинства славянских алфавитов, основанных на кириллице.

KOI8-RUB — ещё одно изобретение для поддержки украинских и белорусских букв, непопулярное сейчас. Этот список можно продолжать. Следующие кодировки: KOI8-K1, KOI8-L2, KOI8-CS2 не являются кириллицей; они были созданы для чешского и словацкого языков. Общее название KOI8 было использовано в этом случае из-за традиций лагеря социализма.

Универсальная шифровка

Стандарт Unicode предоставляет уникальный номер для каждого символа, независимо от платформы, вида техники, приложения или языка. Он был принят всеми современными поставщиками программного обеспечения и теперь позволяет передавать данные через множество различных платформ, устройств и приложений без повреждения.

Поддержка Unicode формирует основу для представления языков и символов во всех основных операционных системах, поисковых системах, браузерах, ноутбуках и смартфонах, а также в интернете:

  • URL.
  • HTM.
  • XML.
  • CSS.
  • JSON.

Стандарт Unicode

Использование Unicode — лучший способ реализации ISO / IEC 10646. Появление стандарта Unicode и доступность инструментов для его поддержки являются одними из наиболее значительных международных тенденций в области программных технологий.

Кодирование символов специального языка было окончательно решено благодаря введению кодировки символов Unicode (юникод). Система кодирования способна шифровать все специальные символы, какие используются для корректной работы, и при этом соблюдается правильность кодируемого языка. Решение основано на том факте, что символ больше не сохраняется в 1 байт (только 256 возможных вариантов), но он сохраняется в 2 байта (т. е. 65536 возможных вариантов). Эта система считается брендом UTF16.

Основное преимущество UTF-16 — очень простое управление всеми возможными символами, а недостаток — несовместимость двойного размера и таблицы ASCII. Проблема несовместимости является значительной при сохранении текстовых файлов. Поэтому была создана альтернативная система кодирования Unicode, которая работает с переменной длиной сохраняемого символа. Символы таблицы ASCII сохраняются в 1 байте, а не-ASCII символы сохраняются в 2 или более байтах. Эта система кодирования приписывается бренду UTF-8, который в основном используется для текстовых (XML, HTM) файлов.

При работе с такими текстами символы преобразуются в UTF-16 уже в оперативной памяти компьютера, что ускоряет его работу. Кодирование символов UTF-16 и UTF-8 используется системой PROMOTIC начиная с версии Pm7.1.0, поэтому можно создавать многоязычные приложения без необходимости смены кодовой страницы символов или использования специальных версий ОС Windows.

UTF-16 также применяют во время работы приложения (текстовые панели, в сценарии), в то время как кодирование UTF-8 используется для текстовых файлов (например, текстовых файлов XML для макрокоманды $.text).

Современные международные десятичные кодировочные таблицы позволяют представлять практически любой язык в виде машинного кода. А использование того или иного способа шифрования зависит от условий конкретной задачи и технических возможностей компьютерных устройств.

Автор статьи
Алексей Гузанов
Репетитор, закончил Куровскую гимназию, которая входит в топ-100 школ Московской области, с золотой медалью. Являюсь победителем олимпиад по математике и информатике. Успешно сдал ЕГЭ на высокие баллы.
Задать вопрос
Оцените статью
Na5.club
Добавить комментарий

− 5 = 5

Adblock
detector