Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Форматы текстовых файлов.






Любые данные, обрабатываемые компьютером, включая текстовые, хранятся на внешних носителях только в виде файлов. В зависимости от характера информации, каждая программа предусматривает определенный способ организации данных, т.е. формат файла. С каждым форматом связано определенное расширение имени файла: [1] )

TXT — это простейший из всех известных способов организации данных (расширение имени файла — txt). Вся информация в таком файле представлена просто символами кодовой таблицы. Этот формат текстового файла называют ещё «каноническим» форматом.

Примечание.

Основное достоинство текстового файла — его простота и универсальность. Фактически — это мировой стандарт представления текстовой информации. Применяется этот формат в тех случаях, когда не имеет значения качество воспроизведения документа на бумаге: для хранения и печати всевозможной рутинной информации, для обмена данными между людьми через мировые сети, для подготовки черновиков серьезных книг и т. д. Кроме того, «канонический» формат имеют файлы настроек большинства современных операционных систем (включая DOS и Windows).

Для представления текстовой (символьной) информации в компьютерах используется так называемая кодовая таблица.

Определение. Кодовая таблица — это внутреннее представление символов в компьютере. В кодовой таблице каждому символу ( букве, цифре, служебному знаку) присвоен какой-либо код — десятичное число в диапазоне от 0 до 255 (т.к. для представления одного символа используется 1 байт). Таким образом, можно закодировать ровно 256 символов.

Примечание.

Кодовая таблица делится на две половины:

§ Первая половина содержит коды символов в диапазоне от 0 до 127. Она принята во всём мире в качестве стандарта США и называется таблицей ASCII (American Standard Code for Information Interchange).

§ Вторая половина – коды от 128 до 255. Она не определена американскими стандартами и предназначена для размещения символов национальных алфавитов (в частности, кириллицы), псевдографических символов, некоторых математических знаков. В разных странах, на разных моделях ПК, в разных операционных системах могут использоваться разные варианты второй половины кодовой таблицы (их называют расширениями ASCII). Текстовые файлы, которые содержат только символы первой половины кодовой таблицы, часто называют файлами ASCII. 1)

Текстовая информация (если в ней имеются символы второй половины кодовой таблицы) может быть представлена чаще всего в двух кодировках — СР-866 (MS-DOS) и СР-1251 (Windows). 1) По этим причинам, если текстовый файл подготовлен в среде MS-DOS (например, с помощью MS-DOS Editor), его нельзя правильно прочитать средствами Windows — и наоборот, файл с расширением txt, в кодировке СР-1251, созданный, например, в текстовом редакторе Блокнот, будет неправильно прочитан в MS-DOS.

Примечание.

Следовательно, если, после открытия текстового файла, пользователь увидел на экране «абракадабру», то это означает, что такой файл был создан в другой среде (однако следует отметить, что существуют средства перекодировки (конвертации) файлов для перевода текста из одной системы кодировки в другую).

В текстовых файлах можно создавать также таблицы и несложные «стилизованные» рисунки. Для этих целей используются символы псевдографики и специальные символы-заполнители из второй половины кодовой таблицы. Для создания, просмотра и модификации (редактирования) текстовых документов используются специальные прикладные программы, которые называются редакторами текстов.

Кроме формата TXT известны также следующие форматы текстовых файлов:

RTF (Rich Text Format) — формат обмена документов между текстовыми процессорами (расширение имени файла — rtf). Он был разработан фирмой Microsoft в 1986 году. Главное его достоинство в том, что его внутренняя организация предусматривает передачу всех основных элементов форматирования: параметров шрифта, абзаца и прочее. Этот формат распознается практически всеми текстовыми редакторами и процессорами.

DOC — является одним из самых популярных форматов в России в настоящее время, хотя, по-существу, это внутренний формат текстового процессора Microsoft Word (расширение имени файла — doc). Полностью сохраняет форматирование текстового документа.

§ HTML (Hypertext Markup Language) — универсальный язык гипертекстовой разметки, применяемый в Internet для разработки Web-страниц (расширение имени файла — htm). Этот формат используется как альтернативный формат сохранения информации в текстовых процессорах.

PDF (Portable Document Format) — переносимый формат документов, причем он дает возможность любым организациям, работающим с большим объемом документов, сохранять точное форматирование страниц при обмене файлами (расширение имени файла — pdf). Этот формат документов был задуман для реализации просмотра полностью отформатированных документов без помощи создавшего их приложения или установки дополнительных шрифтов. Для оперирования с PDF-файлами необходимо установить программный пакет Adobe Acrobat.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.