Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информатика 2015

З. Кодирование информации в ЭВМ

В этом разделе рассматриваю гея вопросы кодирования передаваемой информации с помощью двоичных чисел, форматы представление чисел и команд внутри ЭВМ, способы сжатия двоичных чисел, помехоустойчивого кодирования и примеры эффективного использования помехоустойчивого кодирования (QR-коды).

3.1. Кодовая таблица

Кодовая таблица определяет порядок внутреннего представления в ЭВМ букв, цифр, знаков препинания, символов и управляющих сигналов в виде кодовых комбинаций. Так, латинская буква А в кодовой таблице СР- 1251 представлена десятичным числом 65D, латинская буква С— числом 67D, латинская буква М — 77D и т. д. Таким образом, слово «САМАРА», написанное заглавными латинскими буквами, будет циркулировать внутри ЭВМ в виде цифр:

Если говорить точнее, то внутри ЭВМ данное слово циркулирует в виде двоичных чисел:

01000011В-01000001В-01001101В-01000001В-01010000В-01000001В.

Аналогично кодируются цифры (например, 1 — 49D, 2 — 59D) и символы (например, ! — 33D, Н— 43D).

Наряду с алфавитно-цифровыми символами в кодовой таблице закодированы управляющие сигналы. Например, код 13D заставляет печатающую головку принтера вернуться к началу текущей строки, а код 10D перемещает бумаг у, заправленную в принтер, на одну строку вперед.

Кодовая таблица может быть представлена не только с помощью десятичной СС, но и при помощи шестнадцатеричной СС. Еще раз обращаем внимание на тот факт, что внутри ЭВМ циркулируют сиг налы, представленные в двоичной системе счисления, а в кодовой таблице для большего удобства чтения пользователем — в десятичной или шестнадцатеричной СС.

Каждая буква, цифра, знак препинания или управляющий сигнал кодируются восьмиразрядным двоичным числом. С помощью восьмиразрядного числа (однобайтового числа) можно представить (закодировать) 256 произвольных символов — букв, цифр и вообще графических образов.

Во всём мире в качестве стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange — Американский стандарт кодов для обмена информацией). Таблица ASCII регламентирует (строго определяет) ровно половину возможных символов (латинские буквы, арабские цифры, знаки препинания, управляющие сигналы). Для их кодировки используются коды от 0D до 127D. Вторая половина кодовой таблицы ASCII (с кодами от 128 до 255) не определена американским стандартом и предназначена для размещения символов национальных алфавитов других стран (в частности, кириллицы — русских букв), псевдофафических символов, некоторых математических знаков. В разных странах, на различных моделях ЭВМ, в разных операционных системах могут использоваться и разные варианты второй половины кодовой таблицы (их называют расширениями ASCII). Например, таблица, которая используется в операционной системе MS-DOS, называется СР-866. Используя эту таблицу для кодировки слова «САМАРА», записанною русскими буквами, получим такие коды:

201

Й

211

у

221

Э

231

3

241

С

251

ы

192

А

202

К

212

ф

222

Ю

232

и

242

т

252

ь

193

Б

203

Л

213

X

223

Я

233

й

243

у

253

э

194

В

204

М

214

ц

224

а

234

к

244

ф

254

ю

195

Г

205

11

215

ч

225

б

235

л

245

X

255

я

196

д

206

О

216

ш

226

в

236

м

246

ц

197

Е

207

п

217

щ

227

г

237

и

247

ч

198

Ж

208

р

218

ъ

228

д

238

О

248

111

199

3

209

с

219

ы

229

е

239

п

249

щ

200

и

210

т

220

ь

230

ж

240

р

250

ъ

При работе в операционной системе Windows используется таблица кодов СР-1251, в которой кодировка латинских букв совпадает с кодировкой таблиц СР-866 и ASCII, а вторая половина таблицы имеет собственную раскладку (кодировку) символов. Поэтому слово «САМАРА», написанное заглавными русскими буквами, будет иметь вну три ЭВМ другое представление:

Таким образом, внешне одинаковое слово (например, «САМАРА») внутри ЭВМ может быть представлено различным образом. Естественно, это вызывает определённые неудобства. Общим недостатком всех однобайтовых кодовых таблиц (в них для кодировки используются восьмиразрядные двоичные числа) является отсутствие в коде символа какой-либо информации, которая подсказывает машине, какая в данном случае используется кодовая таблица.

Сообществом фирм Unicode предложена в качестве стандарта другая система кодировки символов. В этой системе для представления (кодирования) одного символа используются два байта (16 битов), и это позволяет включить в код символа информацию о том, какому языку принадлежит символ и как его нужно воспроизводить на экране монитора или на принтере. Два байта позволяют закодировать 65 536 символов. Правда, объем информации, занимаемой одним и тем же текстом, увеличится вдвое. Зато тексты всегда будут «читаемыми» независимо от использованного национального языка и операционной системы.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >
 

Популярные страницы