АДИТ-2001. Тезисы доклада Тема: Информатизация научной и выставочной деятельности 
  Галамага Лариса Александровна
Москва
Государственный Исторический музей
научный сотрудник
Тел.: 095-9288383
Факс: 095-9259527
E-mail: galam@shm.ru
 
Автор доклада Линд Наталья Михайловна. Старший научный сотрудник отдела Информатики ГИМ;
Руководитель работ Полуэктов Кирилл Евгеньевич. Зав. отделом Информатики ГИМ;
Внедрение: Линд Н.М;Иванова Т.Т; Черкасова Г.П; Малютина Н.М; Галамага Л.А;Березницкая С.И; Графутина О.В; Мамонтова О.П.
 
Построение логико-лингвистического аппарата на основе Универсальной Системы описания предметной культурной области, в частности, музейной, для создания соответствующих Баз Данных

     Построение логико-лингвистического аппарата на основе Универсальной Системы описания предметной культурной области, в частности, музейной, для создания соответствующих Баз Данных
   
    Работы, ведущиеся с начала 1980-х годов в Отделе информатики Государственного Исторического музея, с самого начала имели своей целью создание Универсальной Системы описания музейных фондов (см. отчеты за предыдущие годы). Результаты более поздних разработок выходят за рамки требований универсальной системы, которая предполагает наличие единой логики описания, определяющейся целями поиска, т.е. целями построения баз данных, предполагает также и выработку единообразного стандартизированного и регламентированного лингвистического аппарата. Эта задача была актуальна всегда, причем не только в рамках одного музея: отсутствие единообразия в области научной терминологии означает отсутствие единого внятного языка общения исследователей не только разных областей знаний, но зачастую одной и той же, что затрудняет взаимопонимание и взаимодействие специалистов разных фондов, разных музеев, а тем более разных стран. Уже тогда разрабатываемая Универсальная Система мыслилась как инструмент, одной из целей работы которого могло быть объединение не только разнородных фондов одного музея, но и фондов разных музеев, поскольку «многопрофильность» фондов ГИМа, их богатство и разнообразие могли и могут служить моделью объединения самых разных музеев.
    Особую актуальность и остроту эта задача приобрела в последние годы, когда проблемы межведомственного и международного обмена информацией решаются на государственном уровне и касаются не только области музейной, а всех областей культуры.
    Тщательное изучение и анализ учета и научного представления фактографических и документальных данных по всем фондам Музея, позволяет характеризовать описываемую систему, как Систему Универсальную с точки зрения единой логики построения и единых унифицированных опорных логических понятий, дающих возможность достаточно глубоко и в то же время единообразно представить любой факт или предмет сферы культуры.
    Эта система может служить инструментом анализа и порождения новой информации, в том числе и в виде текста; с этой точки зрения она может быть названа системой когнитивной: она автоматически порождает некоторую информацию, не закладываемую при первоначальном представлении исходного материала, и проявляющуюся лишь в результате пересечения определенных заданных параметров, например, данные о временном периоде изготовления, определенный идентификатор-знак, и определенный материал, позволяют сделать вывод об имени автора. И очень важное свойство данной системы – это то, что она, как правило, позволяет заранее определить направление дальнейших исследований (в ней задаются параметры, своего рода ячейки, которые могут быть заполнены в будущем).
    В основу концепции положена мысль о том, что любой предмет окружающего нас мира может стать объектом научного исследования, а в нашем случае специалиста-музееведа, историка, искусствоведа и пр. Поскольку нас интересуют музеи, хранящие, в основном, артефакты, т.е. предметы, созданные руками человека, то мы сосредоточили наше внимание именно на них, хотя уже сейчас смеем утверждать, что предметы, являющиеся объектами хранения и изучения естественно-научных музеев, могут быть также охвачены Универсальной системой.
    Основной проблемой обработки фактографической информации и эффективности работы баз данных является полнота и точность ответов на информационные запросы, а это зависит от совершенства логико-лингвистического аппарата информационно-поискового языка.
    Под информационно-поисковым языком понимается любой набор терминов, объединенных определенной логикой (грамматикой), а также – набор условных синтаксических средств, используемых для описания предметов и содержания документов с целью поиска фактографической информации.
    Концепция построения лингвистического аппарата Универсальной системы диктуется следующими факторами:
    - требованиями логики и психологии – при анализе структуры понятий и представлений;
    - требованием обращения к аппарату семантики – для анализа плана содержания;
    - а также обращения к другим лингвистическим дисциплинам – для анализа плана выражения.
    Поскольку при поиске необходимо моделировать и логический, и психологический, и лингвистический аспекты отражения реального мира, то информационно-поисковый язык превращается в своеобразный сплав логических, психологических и лингвистических элементов.
   
    Основой любой системы описания является классификация.
    Классификация рассматривается как знание об объективно существующей внешней системе и является развернутым теоретическим построением.
    Взгляд на разнородные музейные фондохранилища не изнутри каждого из них, а как бы «сверху» как на некое единство, а именно – единое собрание артефактов, позволяет увидеть то общее, на основании чего все многообразие характеризующих музейные предметы признаков может быть поделено на некоторое ограниченное количество логических или понятийных категорий.
    Под категорией понимается:
    1) (философ. общее) – наиболее существенные свойства и отношения предметов и явлений объективного мира (материал, время, пространство, движение, причинность и т.д.);
    2) разряд, группа предметов, явлений, лиц, объединенных общностью каких-либо признаков.
    Каждая понятийная категория отражает определенные аспекты социальной и научно-естественной информации о любом, отдельно взятом предмете (в данном случае музейном).
    На ступени анализа информации важны естественно-логические связи, определяемые возникновением предмета и его жизнью с момента возникновения, а потому именно здесь определяются группы понятий, объединяющих логико-понятийные категории.
   
    I. Понятие «Создание предмета» предполагает:
    1. Цель создания, которое формулируется как «Назначение предмета».
    2. Авторство - это общее понятие «создателя»: автор идеи; автор атрибутов, сопровождающих предмет, автор декора, автор-мастер: скульптор, художник и пр.
    3. Воплощение – все, что касается создания предмета:
    - Кто создал – непосредственный мастер-изготовитель.
    - Где создан – производство: мастерская, ателье, типография.
    - Как создан – техника изготовления.
    - В каком виде создан – физические свойства предмета – внешние: форма, цвет, размер, вес; внутренние: материал, материальная структура, конструкция.
   
    II. Понятие «Существование предмета», т.е. жизнь предмета в социуме (раскрывается подобным же образом) и т. д.
   
    Определенные при исследовании логико-понятийные категории способны отразить все многообразие характеристик любого предмета с помощью аспектов, на которые они подразделяются. Структура каждой категории отражается средствами информационно-поискового языка с помощью специальной лексики, регламентированной и структурированной в соответствии с правилами научных классификаций как линейного, так и иерархического типов. Каждая категория может быть линейно или иерархически связана как с другими категориями, так и с самим предметом.
    Для каждого типа предметов, объединенных в любом фонде, необходим весь перечисленный набор категорий.
    Каждая категория в целом и каждый ее аспект могут быть объектом самостоятельного научного исследования и описания, например, «Декор и техника его нанесения» или «Клейма» и т.д.
   
    Анализ текстов описаний и документов, структурирование информации, ее формализация и регламентация представляют собой ключевую проблему для создания основы лингвистического аппарата при построении баз данных и их лингвистического обеспечения, в частности, надежного и успешного поиска фактографической информации.
    Последняя задача решается здесь, как и прежде в любой поисковой системе, последовательным выполнением двух операций:
    - сначала основное содержание описаний и запросов формулируется в терминах информационного языка (ИЯ) (процесс формализации),
    - затем производится сравнение выражений этого языка, передающих содержание запросов и текстов (процесс содержательного сопоставления).
    Цель процесса формализации – установление соответствия между единицами текста описания или информационных запросов на естественном языке (ЕЯ) и терминами информационного языка (ИЯ), присущего данной системе.
    Современный уровень вычислительной техники позволяет использовать в качестве поискового языка лексику (слова и словосочетания) естественного языка. Информационный язык создается по подобию естественного языка, однако, отличается от него рядом особенностей.
    При построении музейных баз данных и дальнейшей работе с ними наиважнейшими с лингвистической точки зрения являются две операции:
    1. анализ текста описания, использование его в соответствие с универсальной системой в базе данных посредством регламентированного языка описания, представленного в виде различного рода классификаторов и словарей;
    2. Синтез (формирование) текстов - извлечение информации, которую могут представить работающие базы данных, в соответствии с необходимыми требованиями, предъявляемыми к сервису, который эти базы данных должны обеспечить в результате работы, а именно:
    - формирование электронных каталогов;
    - формулирование разного вида документов;
    - ответы на поисковые запросы разных видов, как сформулированные заранее и представляющие «библиотеку запросов» – своего рода справочную систему ответов на традиционно-трафаретные вопросы; так и ответы на «нетрадиционные» запросы.
   
    Классификации бывают линейного и иерархического типов.
    Классификация как информационно-поисковая система представляет собой, чаще всего, систематическое и логическое расположение рубрик по иерархической схеме.
    Каждый класс определяется лишь по одному признаку и дает серию подклассов, в свою очередь, каждый подкласс может делиться на рубрики и подрубрики.
   
    Таким образом, язык описания и поиска – это прежде всего словари в широком понимании этого слова – словари ключевых слов и выражений, словари дескрипторов – рубрик классификаторов, это иерархические словари-классификаторы:
    - словари дескрипторов (общих) понятий;
    - понятийные тезаурусы, объединяющие слова в семантические поля (объединения разных классификационных систем);
    - толковые словари;
    - терминологические словари;
    - этимологические;
    - синонимические;
    - специальные классификаторы (типологические словари материалов, техники и т.д.)
   
    Проблема разработки научных классификаторов, как отраслевых, так и более общих – одна из самых острых и насущных при создании универсальной информационной системы.
    Мы уже говорили выше об идее создания универсального классификатора; в 80-х годах мы предлагали в качестве основы изобразительный классификатор, основным свойством которого должна быть лаконичность.
    Общими для всех видов предметов являются также классификаторы форм музейных предметов, орнаментов, материалов, исторических лиц (персоналии) и событийные (тематические). Кроме того, как уже говорилось, для каждого (отдельного) вида предметов, по мере работы над фондом, разрабатываются специальные словари и классификаторы, например, видов техники изготовления, обработки, декора; списки авторов, правителей, династии и пр.
   
    В настоящее время имеются достаточно разработанные классификаторы по материалам, технике изготовления различных предметов, типологические словари по фондам драгоценных металлов, нумизматики, картографии и т.д.
   
    Нарабатывается также и Классификатор форм музейных предметов, который, несмотря на наличие видеоизображений, продолжает играть очень важную роль для проведения поиска по этому параметру: наличие единого регламентированного языка описания форм позволит осуществлять поиск разнородных предметов и изображений одинаковой или подобной формы.
    При построении поискового языка для описания исторических событий и выявления исторических связей могут быть использованы как словари-классификаторы, так и специальный формализованный язык описания. Уже существует Классификатор исторических лиц по социальной структуре русского общества 18 века; представлены также Табель о рангах, списки слов-обозначений титулов и должностей государственных и общественных деятелей, названия династий и временных периодов, а также собственных имен по разным историческим эпохам.
    Для определения исторических событий предусматривается специальный поисковый язык, более сложный нежели язык классификатора или словарь. В основе этого ИПЯ лежат сопряженные друг с другом классификаторы - событийный и тематический - а также два вида словарей:
    - первый словарь включает существительные, определяющие большинство понятий данной сферы,
    - второй словарь является набором отглагольных существительных. Набор лексики словарей первого и второго типов – это основной пласт лексики данного языка. (Прилагательное и существительное рассматривается как одна лексическая единица – существительное).
    Лексика первого словаря связывается с лексикой второго словаря с помощью специальных знаков, выражающих определенные синтагматические отношения.
   
    Заключение
   
    В заключении мы хотим указать основные моменты, определяющие целесообразность и важность описываемых разработок:
    - базы данных, в основу структуры которых закладывается единая универсальная система описания, предполагающая наличие строго научных классификаций, носит иерархический характер и позволяет осуществлять «сквозной» поиск по материалам разнопрофильных фондов и музеев, например, подбирать материалы по теме одного какого-то исторического события, или материалы, имеющие отношение к одному историческому лицу. Очень важны здесь сопутствующие этому процессы стандартизации и унификации научно-инвентаризационной системы;
    - строгий научный подход к изучению и описанию фондов, «глобальное» осмысление привычного материала позволяет зачастую по-новому увидеть этот материал, представить его в нетривиальном виде и открыть в исследованиях «новые горизонты»;
    - основное достоинство и отличие представляемой системы в том, что, будучи заложенной в основу баз данных, в том числе и баз знаний, она несет в себе черты когнитивной системы, позволяющей в результате работы получать новую информацию, не заложенную на этапе анализа, и новых текстов. Кроме того, она позволяет автоматически определять направление и горизонты исследования.
    - и, наконец, реализация описываемой универсальной системы не зависит от конкретной математики и технических средств, поскольку она основана на строгой научной систематизации материалов, описаний и документов, что само по себе всегда было и будет целью научно-фондовой работы музеев. Естественно, сервис, предоставляемый системами, реализованными на более совершенной технике и с более совершенной математикой, значительно отличается в лучшую сторону как в отношении качества, так и объема услуг, концепция же системы не меняется с течением времени, что подтверждает опыт работы отдела Информатики ГИМа. Как уже говорилось, концепция отрабатывалась и совершенствовалась по мере тщательнейшего анализа всех звеньев работы каждого фондового отдела. В результате этого появились структурированные полные системы описания (с образцами словарей) каждого фонда: драгоценных металлов, дерева, рукописей, оружия, древнерусской живописи и т.д. На одном из первых этапов был разработан научный паспорт, в основу которого была положена концепция Универсальной системы. Если бы система научных паспортов была внедрена в работу отделов музея, то сейчас было бы гораздо меньше трудностей при внедрении автоматизированной системы.
    В настоящее время универсальная система реализуется постепенно для работы в компьютерной сети. Мы представляем универсальную систему научного описания в схеме «УСО – константа, UDS – const» (система с общими для всех фондов характеристиками). То, что специфично для какого-либо вида предметов, как уже говорилось, например, «номинал» для нумизматики, здесь представлено нерасшифрованным полем «Специфические характеристики».
    Вся научная специфика передается вариантами Универсальной системы, которые представлены в схемах UDS–special.
    Поскольку быстрое внедрение Универсальной системы научного описания затруднено как причинами чисто технического характера, так и психологическими (привыкание к абсолютно новым методам работы и освоение техники), на первых порах сотрудникам фондовых отделов была предложена Адаптированная система описания, как бы облегченный вариант Универсальной всеобъемлющей научной системы, занимающий место где-то между 2-ой ступенью учета и научным описанием. Адаптированная система была обсуждена во всех фондах музея и утверждена Ученым Советом.
    Таким образом, в настоящее время проводится поэтапная реализация системы, начиная с I-ой ступени учета. Она охватывает, на первых порах, самый минимальный набор характеристик. Лингвистика прорабатывается как в рамках этих параметров, так и в расчете на последующее углубление системы и расширение описания.
   
   
   

 
 © 1997-2001, АДИТ, Все права защищены Регистрация тезисов |  Информация о регистрации