Системы обработки текстовой информации. Московский государственный университет печати Прикладные программы обработки текстовой информации

Экран Сuneiform Рабочее окно программы Stylus 3.0 после вызова исходного текстового файла: 1 - заголовок программы; 2 - строка меню; 3 - палитра пиктограмм «основная»; 4 - палитра пиктограмм «форматирование»; 5 - палитра пиктограмм «перевод»; 6 - палитра пиктограмм «сервис»; 7 - заголовок окна исходного файла; 8 - рабочее окно исходного файла; 9 - информационная панель

Прикладные программы предназначены для выполнения определенных функциональных задач компьютерных издательских систем (например, для обработки текста, математических, структурных химических формул, нотной продукции, таблиц, векторной и растровой графики, макетирования и верстки публикаций), а также для выполнения ряда служебных задач.

Ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей. До недавнего времени эта задача решалась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в оригиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т.е. кодом, понятным компьютерной системе).

Интеллектуальная система оптического распознавания символов (Optical Character Recognition, OCR) Cuneiform функционирует в среде Microsoft Windows 3.1 или более поздней версии. Контекстно-зависимая справочная система CuneiForm поддерживается стандартной системой помощи Windows. Система обладает следующими технологическими возможностями:

    поддерживает широкий спектр настольных сканеров;

    распознает отсканированную страницу (включая многоколонный текст и текст со сложным оформлением);

    позволяет сканировать и записывать изображение как TIFF, а распознавание запускать потом (при этом удобно сканировать пачку документов);

    имеет ассортимент возможностей по записи файлов, позволяющий сканировать серию страниц, причем программа будет осуществлять автозапись, присваивая изображениям последовательные имена (Page1, Page2, и т.д.);

    отделяет текст от графики и преобразует его из графического образа в текстовый файл для одного из текстовых процессоров, баз данных или электронных таблиц;

    имеет функцию «Определить область распознавания», что позволяет выборочное распознавание в отобранных частях страницы;

    распознает буквы русского и английского алфавитов, исключая стилизованные шрифты типа готических букв;

    распознает все широко используемые шрифты (включая полужирное и курсивное начертания, а также подчеркнутый шрифт), которые могут быть смешаны внутри страницы, даже внутри параграфа или слова;

    может обрабатывать документы, отпечатанные типографски, на LQ и NLQ матричных принтерах, струйных, лазерных принтерах, на печатной машинке (допустимы и моноширинная, и пропорциональная печать);

    может сохранять первоначальные форматирование и табуляцию и регулировать отступы и выравнивание;

    имеет внутренний текстовый редактор и словарный контроль, с помощью которых можно контролировать качество распознавания и редактировать текст. Для этого окно встроенного редактора показывает распознанный текст с выделением сомнительных символов и слов, отсутствующих в словаре. В расположенном рядом окне расширения можно видеть увеличенное изображение отсканированного текста, позволяющее производить редактирование, не заглядывая в оригинальный документ;

    не распознает рукописный текст.

Экран Сuneiform содержит четыре основные части, отмеченные на рисунке.

Основными действиями (процедурами) при работе в системе являются следующие:

Кнопка панели

Выполняемая функция

Сканирование и Распознавание Кнопка "Сканирование и Распознавание" будет полезна, если есть уверенность, что оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации полезна операция "Отсканировать и показать"). При нажатии кнопки в панели быстрого доступа (или вызове команды Действие\Сканирование и распознавание) появляется окно-сообщение, дающее знать, что происходит сканирование. Далее, поле "Прогресс-индикатор" показывает текущую фазу символьного распознавания, а также общую долю выполненного распознавания в процентах. Нажатие кнопки эквивалентно выполнению команд "Отсканировать и показать" и далее "Распознавание".
Открыть образ Позволяет загрузить изображение из имеющегося графического файла (кнопкой или командой Файл\Открыть образ). В появляющемся окне необходимо выбрать имена директория и файла.
Сканировать и показать Позволяет отсканировать документ и просмотреть его (кнопкой или командой Действие\Сканирование и показ), не запуская при этом символьного распознавания. Немедленно начнется сканирование, и окно изображения отсканированного изображения появится в правой части экрана.
Распознавание Используется в случае запуска (кнопкой или командой Действие\Распознавание) символьного распознавания после выполнения действия "Отсканировать и посмотреть" или после загрузки файла.
Яркость Позволяет установить оптимальный уровень яркости для сканирования документа (кнопкой или командой Дей-ствие\ Яркость). CuneiForm предлагает 256 градаций яркости (0-255). По умолчанию ее значение равно 127. Если возникает много ошибок в распознавании из-за того что отсканированное изображение слишком светлое, нужно установить меньшую яркость и пересканировать документ. Если изображение слишком темное, необходимо установить большую яркость. Уровень яркости можно изменить следующим образом:
а) передвигая вправо и влево ползунок по шкале;
б) выставляя значение яркости автоматически. Для этого нажимают кнопку "Автоматически" в поле "Настройка яркости". Появится небольшое диалоговое поле, предлагая: "Выберите левую кнопку мыши для выбора яркости или нажмите Отмена." При перемещении курсора по изображению, он примет форму лампочки с перекрестием рядом. Далее нужно навести перекрестие в ту часть изображения, что имеет среднюю плотность символов или затемненность, а затем нажать кнопку мыши. Функция автоматической яркости обследует область вокруг выбранной оператором точки с целью определить общую установку яркости. Далее будет предложено при желании пересканировать страницу, используя новое значение яркости. Если выбрать "Да", то документ будет пересканирован. Это должно улучшить точность при повторном запуске распознавания. Можно также вызвать окно "Настройка яркости", выбрав пункт "Яркость" в меню "Действие". Независимо от того, где он установлен, текущий уровень яркости всегда отображается в левом конце статусной строки снизу экрана.
Предыдущий образ Действие выполняется нажатием кнопки или командой Файл\Восстановить предыдущий образ, чтобы вернуть последнее изображение, которое было на экране в этот сеанс работы.
Склейка страницы Используется, если есть необходимость отсканировать ручным сканером (у которого окно захвата меньше размера страницы) полный лист. По нажатию кнопки или командой Действие\Склейка страниц вызывается процесс обработки правой или верхней частей страницы в соответствии с выбранным способом склейки. Сначала вызывается TWAIN-диалог работы со сканером и сканируется соответствующая часть страницы, а затем запускается процесс распознавания. Вся цепочка действий автоматически повторяется для следующей части страницы. Следующим этапом происходит склейка этих двух распознанных частей в единый текст.

Статусная строка может включать в себя следующие основные элементы, установленные внутри главного меню: (см. рисунок).

Окно Расширения предназначено для отображения части отсканированного изображения при большем увеличении. Это окно появляется на экране, когда возникает необходимость более тщательного просматривания фрагмента. Окно вызывается в меню Вид\Расширение. Увеличение в окне расширения управляется выбором меню Вид\Один к одному, 200% или 400% увеличения. Место, в котором окно Расширения появляется на экране, зависит от того, в результате каких действий оно возникло:

    если оно вызвано по месту расположения курсора после использования «Сканировать и Показать» или после открытия файла, то оно возникнет в левой нижней части экрана;

    если оно появляется вместе с окном «Редактор» после распознавания, то его положение зависит от оформления экрана, выбранного из меню «Окно»;

    окно расширения можно перемещать по экрану, двигая его в режиме Drag and Drop.

Окно Ручная фрагментация используют, когда распознаваемый документ имеет сложную структуру, состоящую из более, чем одной колонки текста и/или графики.

В обычном режиме после сканирования CuneiForm автоматически фрагментирует и раскладывает изображение на блоки, которые рассматриваются как связанные, осмысленные куски текста и окружаются пунктиром при отображении в режиме «Фрагментация». Однако текстовый блок является просто набором символов и не всегда составляет законченный смысловой фрагмент.

Из-за того, что программа основывает свое разделение на промежутках, а не анализирует контекстную информацию, она не может идеально оценить, какой текст является связанным. Окно «Ручная фрагментация» обеспечивает несколько способов дополнительного создания блоков, когда автоматическая фрагментация неточна.

Режим «Фрагментация» существует как раз для исправления ошибок, сделанных в процессе автоматической фрагментации перед распознаванием. В рассматриваемом случае выбирают меню Опции\Фрагментация. При этом слово «Фрагм.» появляется справа в линии статуса. Окно «Ручная фрагментация» появится позже, после сканирования документа или вызова его из графического файла.

Помимо автоматически помеченных блоков, окно включает в себя колонку кнопок, выстроенных вдоль его левой стороны:

Кнопка

Выполняемая функция

Выполнить Обеспечивает переход к выполнению распознавания после необходимых действий по фрагментации
Возврат Повтор Позволяют вернуться на один шаг и переделать последнее проделанное действие
Текст Позволяет выделить блок, содержащий, например, все части таблицы так, чтобы они слились в один фрагмент. Для этого после нажатия кнопки нужно обозначить прямоугольник вокруг выбранной области курсором. В результате создается новый блок, который при распознавании рассматривается как одно целое
Гориз. Верт. Позволяют обозначить дополнительную фрагментацию по горизонтали или вертикали. Для этого достаточно после выбора кнопки поместить курсор в нужное место и в режиме drag обозначить границу фрагментации соответственно по горизонтали или вертикали
Склеить Позволяет "склеить" фрагменты, созданные с использованием кнопок "Гориз." и "Верт.". Для этого достаточно пометить курсором склеиваемые фрагменты и выбрать кнопку "Склеить"
Удалить Позволяет удалить помеченные с помощью кнопки Текст фрагменты из процесса распознавания
Увелич. Позволяет увеличить фрагмент текста в окне "Ручная фрагментация". Для этого достаточно после выбора кнопки зафиксировать курсор в нужном месте текста и щелкнуть кнопкой мыши
Не увел. Позволяет вернуть увеличенный фрагмент текста в исходное состояние. Для этого достаточно после выбора кнопки зафиксировать курсор в выбранном месте и щелкнуть левой кнопкой мыши
Рисунок Позволяет создать новую картинку
Помощь Позволяет вызвать на экран справочную информацию об использовании кнопок управления ручной фрагментацией

Дополнительные возможности исправления ошибочного разделения на блоки в окне «Ручная фрагментация»:

    горизонтальное разделение;

    вертикальное разделение;

    cклеивание.

Пусть в документе есть две колонки текста, но CuneiForm этого «не видит». Напротив, он сливает две колонки в один блок. Так как далее это может привести к проблемам в распознавании, необходимо разделить колонки по блокам:

    нажать «Верт.» в левой части окна «Фрагментация»;

    поместить курсор там, где предполагается начать разделение;

    при нажатой и удерживаемой клавише мыши протащить курсор туда, где разделение должно кончиться;

    отпустить кнопку.

CuneiForm разделит блок вертикально на два текстовых фрагмента (функция «Разделить Горизонтально» производит те же действия над текстом, который должен быть разделен горизонтально).

В некоторых случаях CuneiForm может автоматически разделить слитный кусок текста на фрагменты. Чтобы выправить это разбиение, необходимо нажать курсором на каждый из фрагментов и нажать кнопку «Склеить». Два фрагмента будут объединены в один блок.

В окне Редактор сверху находится простое меню из пяти кнопок: «Выход», «Сохранить как...», «Присоединить к...», «След. сомнительное» и «Добавить слово». С их помощью при использовании окна редактирования удобно выполнять ряд процедур.

Окно «Редактор» содержит результат распознавания. После распознавания окно редактирования накрывает изображение в окне изображения. Текст, выбираемый пользователем в окне редактирования, синхронизируется с изображением в окне расширения. При перемещении курсора в окне редактирования изображение в окне расширения сдвигается соответственно новой позиции курсора, и выбранный символ подсвечивается

Ошибки, допущенные в процессе распознавания, можно редактировать в одном из текстовых процессоров впоследствии или, используя меню «Редактор» и кнопки окна редактирования. В последнем случае с помощью меню Вид\Настройки можно для удобства редактирования подобрать размер символов, отображающихся на экране.

Для выполнения редактирования предусмотрен ряд дополнительных удобств:

    возможность осуществить автоматизированную проверку орфографии после выбора меню Опции\Словарный контроль (при этом так называемые сомнительные, т.е. отсутствующие в словаре слова, высвечиваются на экране);

    быстрое перемещение при словарном контроле с помощью кнопки «След. сомнит.» к очередному отсутствующему в словаре слову;

    возможность открытия и использования словаря пользователя, импортируемого в меню Файл\Динамический словарь\ Загрузить... или Импорт...;

    возможность добавления к словарю пользователя высвеченного при проверке, но правильного слова с помощью нажатия кнопки «Добавить слово»;

    возможность экспорта пользовательского словаря в меню Файл\Динамический словарь\Выгрузить... или Экспорт... после его использования или пополнения.

Меню, команда Выполняемое действие
ФАЙЛ
Открыть образ считать изображение из файла следующих форматов: TIFF 5.0, PCX, BMP, GIF, TARGA, JPEG
Восстановить пред. образ получить отсканированное и хранящееся в памяти изображение для выбора новой области распознавания (если нужно)
Запомнить образ записать изображение в формате TIFF 5.0
Открыть ED файл открыть файл с распознанным ранее текстом
Запомнить в текст записать распознанный текст в файлах определённого формата, например, ASCII, Smart ASCII, RTF, ANSI, Smart ANSI
Склеить с текстом добавить распознанный текст в конец существующего текстового файла
Выбрать из TWAIN списка выбрать сканер для использования под TWAIN-интерфейсом
Получить TWAIN образ использовать доступ к изображению через TWAIN
Динамический словарь использовать словарь пользователя
Распознающий модуль загрузить/выгрузить распознающий модуль
Выход выйти из Cuneiform
РЕДАКТОР
След. сомнительный перейти к следующему сомнительному слову
Пред. сомнительный перейти к предыдущему сомнительному слову
Отмечать сомнительные слова вкл./выкл. режим подсвечивания сомнительных слов
Поиск искать строки символов в распознанном тексте
Поиск след повторить поиск
Добавить слово легализовать слово и внести его в список
Отменить добавление сделать слово сомнительным и удалить его из списка
/

Имеется также возможность по использованию панели управления сверху окна редактирования, coстоящей из нескольких кнопок: Выход, Сохранить как..., Присоединить к..., След. сомнит. и Добавить слово/

Меню команд программы СuneiForm

Intuitia 2.0 for Windows использует омнифонт-технологию (распознает различные шрифты без какого бы то ни было обучения). Она обеспечивает распознавание изображений текстовых материалов из файлов в форматах TIFF, PCX, BMP, а также со всех сканеров, поддерживающих протокол TWAIN, а также со сканеров семейства HP ScanJet (напрямую).

Иллюстрации исключаются из процесса распознавания автоматически и могут быть сохранены в файлах или помещены в другие приложения.

В программе используется встроенная орфографическая проверка и коррекция распознаваемого текста. Она различает и сохраняет характерные особенности шрифтового оформления текста: размеры шрифтов, их начертания.

Результаты могут быть сохранены в файлах форматов TXT, RTF, а также непосредственно перенаправлены в другие приложения Microsof Windows (например, в текстовые процессоры Microsoft Notepad, Microsoft Write, Microsoft Word или в электронную таблицу Microsoft Excel).

Система ввода и распознавания рукописных текстов PenO"Man for Windows - средство рукописного ввода, распознавания и редактирования текстов при помощи пера:

    имеется возможность ввода и редактирования как английского, так и русского слитно написанного текста во всех приложениях Windows;

    процесс ввода аналогичен обычному использованию ручки при письме слева направо, желательно аккуратным почерком и с классическим левым наклоном;

    редактирование уже введенного текста возможно в результате использования стандартных функций (вставке, удалению, переносу, активизации фрагментов текста и т.д.), а также простых росчерков пера.

Основные технологические характеристики системы :

Необходимые для работы панели (если они по умолчанию отсутствуют на экране) выводятся на экран в меню ВИД\Панели инструментов.

После выполнения перевода окно автоматически разбивается на две части для одновременной визуализации на экране исходного файла и перевода. В программах обычно предусмотрены два режима разбиения рабочего окна текстового файла на части: по горизонтали и по вертикали.

Обычно рассматриваемые в данном разделе программы позволяют не только переводить на другой язык, но, в случае необходимости, редактировать исходный текст и перевод, а именно:

    вводить новый текст;

    вносить исправления в текст;

    работать с блоками текста (выделять отдельные фрагменты, удалять их и изменять место расположения).

Настройка основных параметров предусматривает значительный перечень установок, выполняемых, например, в меню СЕРВИС\Параметры:

Информационная панель включает в себя три вкладки:

    используемые словари - для отображения списка используемых словарей для выбранного направления перевода;

    незнакомое слово - для отображения списка незнакомых слов при обработке исходного файла;

    зарезервированные слова - для отображения списка слов, перевод которых не требуется.

Подготовка документа к переводу обычно включает в себя выполнение следующих действий, предназначенных для повышения достоверности перевода:

    проверка орфографии (например, для программы Stylus 3.0 в меню СЕРВИС\Параметры\Орфография);

    проверка правильности разбивки по абзацам. Например, в программе Stylus 3.0 предусмотрена возможность визуальной проверки правильности разбивки текста на абзацы (фактически - проверка на отсутствие лишних, пустых абзацев в тексте). Для этого нужно в меню СЕРВИС\Параметры\Цвета пометить позицию «Использовать условные значки»).

В этом случае сррециальный значок в виде незаштрихованного треугольника, устанавливаемый программой слева от каждого абзаца, фиксирует разбивку на абзацы;

Меню, команда Выполняемое действие
ДЕЙСТВИЕ
Пакетное сканирование сканировать серию страниц. В появившемся окне имеется пять основных полей: Oпции, Запоминание страницы, Cоздать документ с числом страниц, Изменять, Выходной формат. Имеется возможность по-разному комбинировать их значения в зависимости от того, имеется ли у сканера автоподатчик (feeder), нужно ли запускать распознавание перед записью, контролировать область распознавания и т.д.
Пакетное распознавание включить распознавание серии страниц. Функции полей Oпции, Изменять и Результаты идентичны соответствующим функциям в пакетном сканировании
Сканирование и Распознавание использовать сканирование и aвтоматическое распознавание документа - обычно в том случае, если оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации очень полезна операция Сканирование и показ)
Cканирование и показ отсканировать документ и просмотреть его, не запуская прежде символьного распознавания. Отсканированное изображение появится в правой части экрана
Выбор языка выбрать один из возможных языков: русский (возможен русско-английский режим), английский, немецкий и французский
Склейка страницы включить режим использования ручного ска­нера с окном захвата, меньшим, чем размер страницы. При этом вызывается процесс обработки правой или верхней частей страницы в соответствии с выбором способа склейки
Распознать запустить символьное распознавание после выполнения режима Сканирование и показ или после загрузки файла с изображением
Область распознавания запустить режим распознавания какой-либо части изображения. Область вокруг необходимой части изображения обозначается с помощью мыши
Поворот повернуть изображение, появившееся на экране после сканирования или загрузки файла, на 90° влево (вправо) или на 180°
Выбор сканера выбрать тип сканера
Разрешение выбрать разрешение 200, 300 или 400 точек на дюйм (DPI)
Яркость установить оптимальный уровень яркости для сканирования документа. CuneiForm пред­лагает 256 градаций яркости (0–255). По умолчанию ее значение равно 127
ОПЦИИ
Фрагментация выделить фрагменты в случае, когда документ, предназначенный для сканирования, имеет явно сложное оформление и состоит из более чем одной колонки с текстом и/или графикой
Одна колонка настроить CuneiForm для обработки всех символов отсканированного изображения как одной колонки текста
Словарный контроль включить режим, при котором CuneiForm подсветит сомнительные слова, с которыми нужно разобраться после распознавания документа
Адаптивное Сканирование использовать все средства CuneiForm для получения наилучшего возможного изображения
Матричный принтер выбрать режим, чтобы CuneiForm распознавал документы, отпечатанные на матричном принтере
Ориентация страницы выбрать одну из четырех возможных ориентаций: Обычная страница, Страница, повернутая влево, Перевернутая страница и Страница, повернутая вправо. Если выбранная ориентация отличается от обычной, Cunei­Form поворачивает все открытые или отсканированные образы. Текущая ориентация отображается пиктограммой в левом конце статусной строки
Способ склеивания выбрать перед использованием команды Склейка страниц один из способов склеивания страницы: Вертикальный или Горизонтальный. При первом сначала будет обрабатываться левая половина страницы, а затем правая. Во втором случае - верхняя, а затем нижняя часть страницы
Иллюстрации задать режим сохранения иллюстрации вместе с текстом, как это было в исходном документе, используя формат RTF и оговаривая один из типов имеющихся иллюстраций: черно-белые, полутоновые, цветные
ВИД
Просмотр страницы

· в размер окна
· один к одному
· 200%
· 400%

включить/выключить окно изображения

задать режим "В размер окна" для окна изображения
задать режим без увеличения для окна изображения
задать увеличение в 2 раза для окна изображения
задать увеличение в 4 раза для окна изображения

Расширение

· один к одному
· 200%
· 400%

включить/выключить oкнo расширения

задать режим без увеличения для окна расширения
задать увеличение в 2 раза для окна расширения
задать увеличение в 4 раза для окна расширения

Настройки редактора установить размер букв и представления плохо распознанных символов в окне редактирования
ОКНА
Горизонтальное деление разделить экран горизонтально, так что Окно редактирования занимает верхнюю часть экрана, а Окно расширения - нижнюю
Вертикальное деление

Текстовые редакторы – программы для создания, редактирования, сохранения и печати документа.

Редактирование внесение каких-либо изменений в набранный текст (добавление, удаление, перемещение и т.д.).

Примеры : Блокнот (Windows), DOS Edit, Norton Edit, редакторы, содержащиеся в системах программирования.

Текстовые процессоры – текстовые редакторы, поддерживающие форматирование текста.

Форматирование изменение формы представления документа (отступы и интервалы, выравнивание абзаца, размеры шрифта и т.д.).

Современные текстовые процессоры позволяют также вставлять таблицы, рисунки, объекты других приложений, производить проверку орфографии и многое другое.

Выделяют два класса текстовых процессоров :

    Процессоры режима полного соответствия, WYSIWYG (текст выводится на экран в том виде, в котором он будет представлен на бумаге при печати). Например, Word, WordPad и др.

    Процессоры, в которых форматирование текста осуществляется после его набора, перед выводом на печать. Например, LaTex.

При всем удобстве создания документов офисные программы Microsoft не имеют многих важных настроек, жизненно необходимых для подготовки документов к изданию, поэтому созданные в них документы требуют особых приемов и хитрых уловок для проведения таких операций, как цветоделение или спуск полос, и все равно получаемый результат не всегда бывает удовлетворительным.

Издательские системы – мощные текстовые процессоры, предназначенные для подготовки документов к публикации.

Примеры : Adobe PageMarker, QuarkXPress и др.

Кодировки текста.

Для кодирования символа требуется 1 байт (8 бит) информации. Это позволяет закодировать 256 символов, что вполне достаточно для представления текстовой информации, включая строчные и прописные буквы алфавита, цифры, знаки, графические символы и т.д. Для сопоставления символов и кодов используется таблица кодировки – стандарт, ставящий в соответствие каждому символу уникальный порядковый номер от 0 до 255 (или соответствующий ему двоичный код от 00000000 до 11111111).

Международным стандартом стала таблица ASCII, в которой первые 33 кода соответствуют управляющим символам (пробел, перевод строки и т.д.), коды с 33 по 127 соответствуют символам латинского алфавита, цифрам, знакам препинания, знакам арифметических действий, а коды с 128 по 255 являются национальными и отличаются в разных странах. Принято называть таблицу кодировки символов 128 – 255 кодовой страницей. Существует несколько кирилличных кодовых страниц. CP866 – используется для кодирования кирилличных символов в MS DOS, CP1251 – в Windows.

Существуют и другие кодовые таблицы, широко используемые на практике. Например, КОИ-8 (Код Обмена Информацией), применяемая в глобальных компьютерных сетях, на ЭВМ, работающих под управлением ОС Unix. Очень часто этот стандарт используется в электронной почте.

Сейчас разработан новый международный стандарт Unicode, который отводит на каждый символ два байта или 16 бит и позволяет закодировать 65536 символов. Такой широкий диапазон позволяет представить в численном виде символы любого языка, в том числе и китайского.

Так как существует несколько широко используемых стандартных кодировок, то часто возникают случаи, когда пользователь не может прочитать текст, поскольку кодировка текста отличается от кодировки, установленной в приложении, с которым работает пользователь. Специальные программы-конверторы, встроенные в приложения, производят перекодирование текста.

Обработка информации. Системы управления базами данных.

Лекция 11. Прикладное программное обеспечение,

Прикладное программное обеспечение (ППО) составляют программы конечного пользователя. Это самый обширный класс ПО.

ППО, классифицируя по назначению, можно разделить на прикладные программы общего назначения и прикладные программы специального назначения . (рис. 11.1). Эта классификация весьма условна.


Прикладное программное обеспечение общего назначения.

ППО общего назначения используется для решения наиболее общих задач информационного характера в любой сфере человеческой деятельности. Оно объединяет в себе широко используемые программы большинством пользователей ПК, например, текстовые редакторы, электронные таблицы, графические системы, игры, развлечения.

Программы, обрабатывающие тексты. К ним относятся текстовые редакторы, текстовые процессоры. Граница между ними весьма условна. Текстовые редакторы (Notepad), способны выполнять основные функции редакирования – набор, внесение иправлений, сохранение, работа с фрагментами. Текстовые процессоры (Word), кроме того имеют возможности разнообразного оформления – форматирование документа.

Электронные таблицы. Основное назначение электронных таблиц – обработка различных типов данных, представляющихся в табличной форме (Excel, Lotus 1-2-3). Основным преимуществом здесь является автоматическое изменение одних ячеек в зависимости от изменения содержания других.

Системы управления базами данных (СУБД). Программы этого класса (Access) позволяют работать с большими объемами структурированных данных – базами данных (как правило, это табличные структуры). В функции СУБД входит описание данных, доступ к данным, поиск, отбор данных по определенным критериям. Большинство современных СУБД позволяют создавать небольшие программы обработки данных на встроенных языках, имеют оформительские возможности, позволяющие на основе данных создавать отчеты, запросы. Множество СУБД, также как и текстовые процессоры, имеют своих представителей и в ППО общего и ППО специального назначения. На уровне ППО общего назначения – это настольные СУБД, на уровне специальном – это большие СУБД, составляющие основу информационных систем и позволяющие работать в компьютерных сетях.

Графические системы. Это программы, предназначенные для работы с графическими изображениями. К ним относятся редакторы растровой и векторной графики, программы обработки трехмерной графики.

Интегрированные программные средства. Отдельные программы, являясь мощным средством решения круга прикладных задач, не могут в полной мере удовлетворить пользователя. Разработчики ПО очень часто прибегают к интеграции в единые программные пакеты нескольких программные продуктов, унифицируя при этом форматы обрабатываемых файлов. Наиболее распространенный продукт этого класса – пакет MS Office включающий в единый пакет Word, Excel, Power Point, Access, Outlook.

Программные средства для решения прикладных математических (статистических) задач позволяют производить математические расчеты, аналитические вычисления.

Переводчики. Игры. Развлечения. Класс программ для перевода текстовой информации, игровые программы, программы для просмотра слайдов, прослушивания звуковых файлов, видеофайлов.

ППО специального назначения.

Решает более узкие задачи, а также задачи профессионального характера в различных предметных областях.

Информационные системы (ИС), предоставляющие широкие возможности в:

- управлении предприятием – это склад, документооборот офиса;

- бухгалтерском учете – это системы, имеющие функции текстовых, табличных редакторов и СУБД. Предназначены для автоматизации подготовки начальных бухгалтерских документов предприятия и их учета;

- анализе экономической и финансовой деятельности ; их используют в банковских и биржевых структурах. Позволяют контролировать и прогнозировать ситуацию на финансовых, торговых рынках и т.д.

Экспертные системы представляют собой дальнейшее развитие систем управления базами данных. Предназначены для анализа данных, хранящихся в базах знаний. В отличие от СУБД, производящих операции манипуляции данными, экспертные системы производят логический анализ данных, функции самообучения.

Системы автоматизированного проектирования – предназначены для автоматизации процессов конструирования, применяются в машиностроении, строительстве, архитектуре.

Профессиональные программные продукты включают в себя бухгалтерские системы, автоматизированные системы управления, автоматизированные системы научных исследований и др.

Несмотря на широкие возможности использования компьютеров для обработки самой разной информации, самыми популярными по-прежнему остаются программы, предназначенные для работы с текстом. При подготовке текстовых документов на компьютере используются три основные группы операций:

Операции ввода позволяют перенести исходный текст из его внешней формы в электронный вид, то есть в файл, хранящийся на компьютере. Ввод может осуществляться не только набором с помощью клавиатуры, но и путем сканирования бумажного оригинала и последующего перевода документа из графического формата в текстовый (распознавание).

Операции редактирования (правки) позволяют изменить уже существующий электронный документ путем добавления или удаления его фрагментов, перестановки частей документа, слияния нескольких файлов, разбиения единого документа на несколько более мелких и т.д.

Ввод и редактирование при работе над текстом часто выполняются параллельно. При вводе и редактировании формируется содержание текстового документа.

Оформление документа задают операциями форматирования. Команды форматирования позволяют точно определить, как будет выглядеть текст на экране монитора или на бумаге после печати на принтере.

Программы, предназначенные для обработки текстовой информации, называют текстовыми редакторами .

Все многообразие современных текстовых редакторов условно можно разбить на три основные группы:

1.К первой относятся простейшие текстовые редакторы, обладающие минимумом возможностей и способные работать с документами в обычном текстовом формате.txt , который, как известно, при всей своей простоте и всеобщей поддержке совершенно не позволяет более или менее прилично форматировать текст. К этой группе редакторов можно отнести как входящие в комплект поставки ОС семейства Windows редакторы WordPad и совсем малофункциональный NotePad (Блокнот) , и множество аналогичных продуктов других производителей (Atlantis, EditPad, Aditor Pro, Gedit и т.д.).

2.Промежуточный класс текстовых редакторов включает в себя достаточно широкие возможности по части оформления документов. Они работают со всеми стандартными текстовыми файлами(TXT, RTF, DOC). К таким программам можно отнести Microsoft Works , Лексикон .

3.К третьей группе относятся мощные текстовые процессоры, такие, как Microsoft Word или StarOffice Writer . Они выполняют практически все операции с текстом. Большинство пользователей использует именно эти редакторы в повседневной работе.

Основными функциями текстовых редакторов и процессоров являются:

Ввод и редактирование символов текста;

Возможность использования различных шрифтов символов;

Копирование и перенос части текста с одного места на другое или из одного документа в другой;

Контекстный поиск и замена частей текста;

Задание произвольных параметров абзацев и шрифтов;

Автоматический перенос слов на новую строку;

Автоматическую нумерацию страниц;

Обработка и нумерация сносок;

Создание таблиц и построение диаграмм;

Проверка правописания слов и подбор синонимов;

Построение оглавлений и предметных указателей;

Распечатка подготовленного текста на принтере и т.п.

Также практически все текстовые процессоры обладают следующими функциями:

Поддержка различных форматов документов;

Многооконность, т.е. возможность работы с несколькими документами одновременно;

Вставка и редактирование формул;

Автоматическое сохранение редактируемого документа;

Работа с многоколоночным текстом;

Возможность работы с различными стилями форматирования;

Создание шаблонов документов;

Анализ статистической информации.

Сегодня практически все мощные текстовые редакторы входят в состав интегрированных программных пакетов, предназначенных для нужд современного офиса. Так, например, Microsoft Word входит в состав самого популярного офисного пакета Microsoft Office .

Аналогичные MS Office программы - OpenOffice.org Writer , StarOffice Writer , Corel WordPerfect , Apple Pages .

Хранение, обработка и передача текстов – область, в которой компьютеры применяются весьма широко и достаточно давно.

Компьютерный набор и редактирование стали основным способом подготовки текстов для писателей, журналистов и студентов. Работать с текстом при помощи компьютера заметно удобнее, чем писать вручную или печатать на машинке – хотя бы потому, что в готовый текст гораздо проще внести любые изменения.

Электронное копирование текстов – как на компьютерных носителях, так и передача по компьютерным сетям – стало мощнейшим двигателем свободы слова во всем мире. Любое мнение, любое сообщение, изложение любой идеи теперь стало возможным распространять достаточно быстро и широко, причем для этого не требуется дорогостоящая и громоздкая типография.

Текстовый документ – это информационный блок, содержащий в качестве основной информации текст. Но в текстовом документе не всегда содержится только текст. В нем может находиться дополнительная информация, такая как: оглавления, ссылки, заголовки, разные виды шрифтов, а также графические изображения, таблицы и т.п.

Основным инструментом ввода текста является клавиатура. Существуют системы распознавания текста, позволяющие перевести напечатанный на бумаге текст в электронную форму, а также системы голосового ввода, которые должны обеспечить понимание любой диктовки (однако на данный момент это весьма сложная техническая задача).

Ввод текста в компьютер и его изменение называют редактированием, а программы, позволяющие вводить и изменять текст – текстовыми редакторами. Любой тестовый редактор позволяет: вводить текст с клавиатуры компьютера; изменять уже введенный текст (например, исправлять опечатки, вводить новые слова или фразы, удалять существующие и т.д.); сохранять текст в файле, а также считывать ранее сохраненный текст.

Программы, позволяющие работать не только с текстом, но и с дополнительной информацией, называются текстовыми процессорами. Они позволяют видеть документ так, как он будет выведен на печать. Такое отображение документа называется WYSIWYG (от англ. « What You See Is What You Get » – «вы получаете то же, что видите»).

Как правило, текстовые процессоры входят в так называемые офисные наборы (пакеты) программного обеспечения. Изучив принципы работы с каким-либо одним текстовым процессором, мы сможем работать с любым другим.

Существуют несколько известных наборов офисных программ. Наиболее распространен Microsoft Office . В его состав входят известнейшие программы – текстовый процессор Microsoft Word (рисунок 40), табличный процессор – Microsoft Excel и другие. Пакет Office создан компанией Microsoft . Это крупнейшая американская компания, производящая программное обеспечение, ей принадлежит, в частности, операционная система Windows .

Рисунок 40 – Интерфей c Microsoft Word 2007

Однако, здесь возникает несколько проблем: основные из них – цена и зависимость от зарубежного производителя. Легальное использование Microsoft Office стоит очень дорого. Дешевые компакт-диски считаются нелегальными, их распространение запрещено законом. Этих недостатков лишен пакет OpenOffice . org . Он является свободным, это означает, что его можно легально копировать и даже продавать, а также изучать и дорабатывать. Так, русская версия подготовлена российской командой. Существуют версии OpenOffice . org для всех современных операционных систем, а не только для Windows . Его можно использовать под управлением Linux или другой свободно распространяемой операционной системы и на компьютерах iMac . В пакет OpenOffice . org входит текстовый процессор OpenOffice . org Writer .

Рассмотрим и сравним основные возможности текстовых процессоров Microsoft Word 2007 и OpenOffice . org Writer 3.0 .

Текстовые процессоры позволяют делать вставки рисунков, формул, звуковых и видеофайлов, файлов электронных таблиц, презентаций и других объектов. Эта возможность основана на технологии «внедрения и связывания объектов» (OLE – Object Linking and Embedding), позволяющей создавать комплексные документы из разных типов данных, обеспечивать совместную работу нескольких приложений при подготовке одного документа, копировать и переносить объекты между приложениями.

Текстовый процессор – это многофункциональная программа обработки текстов (с элементами возможностей настольной издательской системы).

Кратко охарактеризуем интерфейсное окно процессора OpenOffice . org Writer . Пиктографическое меню – это строка пиктограмм, дублирующих часто используемые операции, доступные и в главном меню. Координатные линейки располагаются над окном и слева от документа. С помощью координатной линейки, которая располагается над окном, можно изменять абзацные отступы, длину строки набора и ширину колонок. Строка состояния находится на нижней кромке окна OpenOffice . org Writer . В процессе ввода данных в ней высвечивается информация о позиции курсора ввода и др. На экране монитора текст может представляться в различном масштабе и в различном виде, за это отвечает меню «Вид». В общем виде интерфейсное окно OpenOffice . org Writer можно сравнить с окном Word 2003.

Основной заменой меню и панелей инструментов в Word 2007 служит «лента». Она разработана для облегчения доступа к командам и состоит из вкладок, связанных с определенными целями или объектами. Каждая вкладка, в свою очередь, состоит из нескольких групп взаимосвязанных элементов управления. По сравнению с меню и панелями инструментов «лента» вмещает значительно больше содержимого – кнопок, коллекций, элементов диалоговых окон и т.д.

Кроме стандартного набора вкладок, которые отображаются на «ленте», имеются вкладки еще двух типов, которые отображаются в интерфейсе в зависимости от выполняемой задачи. Контекстные инструменты позволяют работать с элементом, который выделен на странице, например, с таблицей, изображением или графическим объектом. Если щелкнуть такой элемент, относящийся к нему набор контекстных вкладок, выделенный цветом, появится рядом со стандартными вкладками. Вкладки приложений заменяют стандартный набор вкладок при переходе в определенные представления или режимы представления содержимого, например, «Предварительный просмотр».

Наряду с вкладками, группами и командами, в Word 2007 применяются меню и панели инструментов, знакомые пользователям по предыдущим версиям Word. Например, кнопка « Microsoft Office », расположенная в левом верхнем углу приложения Word служит для вызова меню по работе с файлами (команды «Создать», «Открыть», «Сохранить» и т.д.) и меню, позволяющего установить разнообразные параметры текстового процессора. Панель быстрого доступа по умолчанию расположена в левой верхней части окна приложения Word и предназначена для быстрого доступа к наиболее часто используемым функциям. Панель быстрого доступа можно настраивать, добавляя в нее новые команды. Кнопки вызова диалоговых окон – это маленькие значки, которые могут отображаться в некоторых группах. По нажатию такой кнопки, открывается соответствующее диалоговое окно или область задач, содержащая дополнительные параметры, связанные с данной группой.

Редактирование текста в текстовом процессоре заключается в удалении, добавлении, копировании и переносе фрагментов текста, а также проверке орфографии с помощью клавиш клавиатуры или пиктографического меню. Существуют два вида копирования и перемещения участков текста: ручная техника и с помощью буфера обмена. Буфер обмена – это участок оперативной памяти, в котором временно помещается вырезанный или скопированный текст или графика. Копирование или перемещение участков текста в Word выполняются с помощью команд меню: «Главная/Вырезать» или «Главная/Копировать» и команды «Главная/Вставить». Копирование или перемещение участков текста в OpenOffice . org Writer выполняются с помощью команд меню: «Правка/Вырезать» или «Правка /Копировать» и команды «Правка /Вставить».

Форматирование текста содержит возможности выбора следующих параметров: шрифта, абзаца, заливки, списков, рамок, стиля и др. К параметрам шрифта, в свою очередь, относятся: гарнитура (рисунок), начертание, размер (кегль). Каждая гарнитура имеет свое название, например, Arial, Times New Roman, Tahoma. Шрифты могут быть прямыми и наклонными. Наклонный вариант шрифтов чаще всего называют курсивом. Вертикальный размер шрифта измеряется в «пунктах», один пункт равен 1/72 дюйма – примерно 0,353 мм. Шрифт размером 10 пунктов – его называют десятый кегль – часто используют в книгах. Четырнадцатым кеглем печатала текст пишущая машинка, и этот размер шрифта часто применяется и сейчас при составлении различных документов.

Форматирование текста в OpenOffice . org Writer выполняется с помощью меню «Формат/Символы/Шрифт», а в Word с помощью меню «Главная/Шрифт».

Текст может быть расположен в нескольких колонках . Меню «Формат/Колонки» в OpenOffice . org Writer вызывает диалоговое окно, в котором можно выбрать количество колонок, ширину и промежуток для каждой, установить их одинаковыми по ширине или задать ширину каждой. Кнопка «Применить» позволит оформить не весь текст, а только выделенную часть. Меню «Разметка страницы/Колонки» в Word позволяет сделать то же самое.

Текстовый процессор позволяет разбивать документ на два раздела и более, если необходимо установить различные параметры форматирования страницы (поля, размер бумаги, ориентацию страниц – книжную или альбомную) для разных разделов. Для этого в OpenOffice . org Writer используется команда «Вставка/Раздел» до и после форматируемого раздела, а в Word команда «Вставка/Разрыв страницы». По умолчанию форматирование применяются ко всему документу.

Абзац – это часть текста между двумя нажатиями клавиши Enter. Абзац имеет несколько параметров настройки. Его форматирование дает возможность установить абзацный отступ, – иначе он еще называется «красная строка», отступы справа и слева, интервалы перед абзацем и после него и междустрочный интервал. При форматировании абзаца предварительно выделять его не обязательно, достаточно того, чтобы курсор находился в любой точке абзаца. Форматирование абзаца в OpenOffice . org Writer выполняется с помощью меню «Формат/Абзац», а в Word с помощью меню «Главная/Абзац».

Стиль оформления – это поименованная совокупность настроек параметров оформления (шрифта, абзаца). При необходимости оформления абзаца чаще всего пользуются готовым стилем или меню «Формат/Стили» в OpenOffice . org Writer или командой меню «Главная/Стили» в Word .

Текстовый процессор Word снабжен редактором формул MS Equation , который позволяет создавать формульные выражения и вставлять их в текст при выборе пункта меню «Вставка/Формула». В OpenOffice . org Writer это позволяет делать команда «Вставка/Объект/Формула».

Для работы с таблицами используется меню «Таблица» в OpenOffice . org Writer и меню «Вставка/Таблица» в Word. При работе с таблицей возможно изменение ее параметров (высоты и ширины ячеек), добавление и удаление столбцов, строк и ячеек, а также редактирование содержимого каждой ячейки таблицы, в которой может содержаться текст, число, формула или рисунок.

OpenOffice . org Writer позволяет создавать собственные рисунки с помощью панели инструментов «Рисование» («Вставка/Панели инструментов/Рисование»), Word с помощью команды «Вставка/ Фигуры/Новое полотно».

Кроме собственных рисунков, текстовые процессоры позволяют внедрять в документы готовые изображения с помощью команды «Вставка/Файл» в OpenOffice . org Writer и пункта меню «Вставка/Рисунок» в Word.

В объемном документе с помощью текстового процессора удобно создавать оглавление. Это средство позволяет быстро перемещаться по тексту, выбирая один из пунктов на первой странице документа. Для этого необходимо выбрать меню «Вставка/Оглавление и указатели» в OpenOffice . org Writer . Для создания стиля заголовка в оглавлении используется меню «Формат/Стили/Стили и форматирование». Для обновления оглавления в контекстном меню применяется команда «Обновить поле/Обновить целиком». В Word используются команды «Ссылки/Оглавление».

Для сохранения документа, созданного в текстовом процессоре, необходимо на панели пиктографического меню нажать кнопку с изображением дискеты или использовать меню «Файл/Сохранить». Команда «Файл/Сохранить как» позволяет сохранить файл под новым именем в Word, а кнопка « Office /Сохранить » или « Office /Сохранить » и « Office /Сохранить как » в OpenOffice . org Writer .

Авторы и разработчики программного обеспечения обработки текстовых данных не стоят на месте, периодически создавая новые усовершенствованные версии своих продуктов. В частности, уже доступна пользователям версия Microsoft Office Word 2010, в которой присутствует интерфейс в виде «ленты», однако добавлены команды по обработке изображений и улучшению текстовых эффектов (например – свечение, отражение, тени).

Существуют также и другие текстовые редакторы, например: StarWriter , Bred , Crypt Edit , KeyNote , Squall Pro , TextViewer , WinVi . Они, как правило, занимают меньший объем памяти на диске и распространяются чаще всего бесплатно, но обладают меньшим набором функций (например, по редактированию изображений), однако их возможности вполне достаточны для набора и редактирования небольших по объему текстовых данных.