главная/ условия/ контакты/ статьи/
Присылайте Ваши статьи и мы опубликуем их
Москва. №3, 2004./ ISSN – 1811 – 5721
Сборник статей аспирантов, соискателей, докторантов и научных работников
Региональный вестник молодых ученых
Васяева Елена Семеновна – к.т.н.,
доцент Марийского государственного
технического университета, кафедра информационно-вычислительных систем, г.
Йошкар-Ола.
E-mail: vasjaeva@mail.ru
Васяева Наталия Семеновна – к.т.н., доцент Марийского государственного
технического университета, кафедра информационно-вычислительных систем, г.
Йошкар-Ола.
E-mail: vasjaeva@mail.ru
Синельников
Антон Сергеевич – аспирант Марийского государственного технического университета.
E-mail:
a_sinelnikov@mail.ru
Работа выполняется при финансовой поддержке РФФИ
(гранты № 02-07-90317, № 03-07-06121 и № 04-07-90185)
В последнее время сложилась устойчивая тенденция к компьютеризации научно-исследовательской деятельности в области гуманитарных наук, в том числе в области археологии и истории. В археологии эта тенденция обусловлена тем, что для обработки и исследования того объема материала, который накоплен хотя бы в одном регионе в ходе археологических раскопок за последнее столетие, требуются достаточно большие временные и человеческие ресурсы. Обработка и анализ накопленного материала является сейчас основным направлением научно-практической деятельности центров исследований в области археологии.
Поскольку доступ исследователей к первичной информации затруднен по причине ее территориальной распределенности в различных археологических фондах и слабой систематизации, на ее поиск и обработку приходится затрачивать большое количество времени. Особенно остро эта проблема встает в процессе выявления скрытых закономерностей на значительном объеме неструктурированной разнородной информации. В связи с этим научный центр финно-угроведения республики Марий Эл одной из своих задач ставит создание доступных для исследователей хранилищ данных.
Исследование археологического материала заключается, в основном, в сопоставлении и анализе не только характеристик археологических объектов и находок, но также и графической информации, представленной в виде планов раскопок, карт, схем, разверток сосудов, рисунков, фотографий и т.д.
В Марийском государственном техническом университете совместно с Марийским НИИ языка, литературы и истории разрабатывается информационная система (ИС) для комплексного исследования грунтовых и курганных могильников, которая предназначена для решения задач такого рода. В силу специфики самой предметной области, система ориентирована на хранение, ввод, отображение и обработку разнородного археологического материала, представленного в виде реляционных таблиц, карт, рисунков, планов и т.д.
Целью данной работы является описание структуры и набора реализуемых функций разрабатываемой информационной системы, а также обоснование выбора поддерживаемых типов неопределенных данных.
Предпосылки создания системы
Со второй половины XX века на территории марийского края и волго-вятского региона в целом регулярно проводятся археологические экспедиции. Исследуются памятники разных эпох и культур. За этот период накоплено большое количество разнообразного археологического материала: отчеты по экспедициям и разведкам (представленные, как правило, в виде рукописей); находки (изделия из кремня, керамики, кости, бронзы, других драгоценных и недрагоценных металлов, бисера и т.д.); карты, планы раскопок; рисунки, схемы, фотографии и т.п.
Объем всех находок измеряется сотнями килограммов, а объем научных отчетов по экспедициям и различных сопутствующих документов исчисляется сотнями томов. Однако полная систематизация всего материала, не говоря уже о его комплексном анализе, не проводилась. Это связано, в первую очередь, с большим объемом информации, а также с территориальной распределенностью фондов.
Вопрос о качественной аналитической обработке накопленного археологического материала стоял перед исследователями всегда. Однако в связи с возрастанием интереса к миграционным процессам и взаимовлиянию древних культур он стал представлять в последнее время особый интерес. Благодаря развитию вычислительных систем и сетей, а также совершенствованию современных методов компьютерной обработки данных, появилась возможность переноса накопленной информации с бумажного носителя на электронные, ее длительного хранения и комплексной аналитической обработки.
В ходе работы над проектом был проведен тщательный анализ накопленного в республиканском археологическом фонде материала по курганным и грунтовым могильникам, а также учтены результаты анализа ряда других региональных археологических центров. Это позволило сделать вывод о необходимости и возможности при данном уровне технической оснащенности создания информационной системы для комплексного исследования грунтовых и курганных могильников.
Создаваемая информационная система предназначена для решения следующих основных задач:
· накопления и хранения данных о могильниках;
· комплексной обработке информации с целью выявления различных закономерностей;
· удаленного доступа пользователей к создаваемой базе данных (БД);
· удобства пользователей при вводе и обработке как текстовой, так и картографической информации.
Особенностью системы является то, что она включает в себя функции экспертной, геоинформационной и интеллектуальной систем, имеет клиент-серверную архитектуру и предназначена для совместного использования многими исследователями.
Функции, реализуемые системой
В ходе работы над проектом определены требования, которым должна удовлетворять разрабатываемая система:
· поддержка непротиворечивости вводимых в систему и получаемых (синтезируемых) на ее основе данных. Для гуманитарной области и, в частности для археологии, контроль за непротиворечивостью данных ставит задачу разработки для конкретной предметной области базы правил соподчиненности различных экземпляров объектов данных, с помощью которой возможен также синтез новых знаний. Основная сложность заключается в разработке структуры базы правил, учитывающей тот факт, что состояние данной базы должно постоянно изменяться;
· обработка неопределенных данных. Достоверность результатов, получаемых в процессе обработки данных, существенно зависит от достоверности самих данных. Методологическая и вычислительная погрешности всегда очевидны, тогда как достоверность данных является подводным камнем для многих областей исследований;
· возможность гибкой многокритериальной обработки данных. Это условие ставит задачу разработки средств формулирования запросов к базе данных, которые не требовали бы от пользователя специальной подготовки (в частности по SQL или QBE) и не сковывали «полета» научной мысли.
Перечисленные требования характерны для всех научно-исследовательских информационных систем обработки экспериментальных данных [4,7]. Учитывая особенности предметной области и требования к самой системе, было выделено четырнадцать основных функции, которые должна обеспечивать разрабатываемая ИС (рис. 1).
В силу специфики данных, хранимых в ИС, пользователями системы могут быть исследователи по самым разным областям знаний в области археологии, истории, этнографии (специалисты по ритуальным комплексам, способам захоронения, различным видам находок ...). Поэтому целесообразно в системе реализовать гибкий механизм формирование представлений БД (функция 3) для каждого пользователя с учетом его уровня доступа.
Предусмотрена реализация всех функций языка запроса (функция 5), в том числе поддержка различных способов интерпретации результатов (отчеты, графики, рисунки, схемы, карты, планы, диаграммы, экспертные заключения по запросу, формирование гипотез). Функция формирования сложных аналитических запросов дополнена возможностью формирования запросов по подобию. Вероятностная оценка данных включает экстраполяцию и реконструкцию событий и данных во времени. В процессе обработки данных пользователю доступен также режим автоматического составления планов к отчету по экспедициям (план погребения со схемой положения костяков, находками и сопутствующими объектами, план всего могильника).
Просмотр данных, хранящихся в системе (функция 6), включает типичные функции просмотра значений реляционных таблиц, отдельных рисунков, карт и т.д., а также отображения на экране требуемой информации об объекте, выделенном пользователем на карте.
При вводе новых данных в систему (функция 7) возможен автоматический ввод планов раскопов и погребений, а также добавление больших блоков данных от удаленных клиентов.
Составление полного подробного описания различных типов находок (браслеты, подвески, пряжки, орнаменты сосудов и т.п.) на этапе проектирования концептуальной схемы не представляется возможным. Поэтому в ИС введена дополнительная функция составления иерархического описания находок (функция 9), реализация которой позволит добавлять новые объекты в концептуальную схему в процессе функционирования ИС. Эта функция в целях обеспечения целостности системы будет доступна ограниченному числу пользователей.
Современные информационные системы, будь то системы управления базами данных, системы логического вывода или информационно-поисковые системы, должны корректно функционировать при условии, что некоторые данные в схеме данных отсутствуют или истинность их сомнительна. Не лишена такой специфики и предметная область разрабатываемой системы.
В литературе [8] для обозначения таких данных принят термин «неопределенные данные (значения)» или null-значения. Поддержка неопределенных типов данных выделена в виде отдельной функции ИС (функция 10). Из всего множества неопределенных значений (22 значения) [8] в силу специфики предметной области в разрабатываемой системе используются только четыре: а) свойство не присуще объекту независимо от времени (и никогда не будет известно); б) свойство не присуще объекту в рассматриваемое время; в) значение к рассматриваемому времени не внесено в БД; г) истинность значения сомнительна.
Подробно анализ обработки неопределенных типов данных и дополнение алгоритмов операций реляционной алгебры с учетом типов неопределенности отражены в отдельной статье [1]. Для защиты от несанкционированного доступа к функциям и данным системы (функция 11) выделены четыре основных уровня:
· администратор;
· оператор первого уровня;
· оператор второго уровня;
· исследователь.
Кроме того, предусмотрен дополнительный уровень доступа к картам и планам.
При выборе уровней доступа учитывались, в первую очередь, два фактора. Во-первых, система посредством вычислительной сети должна быть доступна удаленным пользователям, и, во-вторых, система предназначена для хранения конфиденциальной информации (карт, планов раскопок, описаний ценностей памятника и т.п.), которая может быть доступна ограниченным категориям пользователей. Это становится в последнее время особенно актуальным в связи с активизацией, так называемых, «черных» археологов, которые до приезда экспедиции успевают варварскими методами перекопать археологический памятник с целью изъятия находок, представляющих для них ценность. В результате таких действий безвозвратно утерянными оказываются не только находки, но и сам памятник археологии.
Администратор в системе может быть только один. Ему доступны все функции и данные ИС. Оператор первого уровня имеет доступ ко всей БД (либо ее части) и к части метаданных, не связанной с описанием структуры БД, связей и т.п. Ему определяются действия просмотра и редактирования данных, включая редактирование справочников, составление иерархического описания находок, а также функции, доступные на уровне «исследователь». Функция изменения концептуальной схемы БД по иерархическому описанию находок доступна только администратору. Операторов первого уровня может быть не более трех, обслуживающих серверную часть, и по одному на каждом удаленном узле сети. Удаленный оператор является ответственным за ввод информации по своему региону. В клиентских частях доступны только данные, относящиеся к определенному региону или культуре.
Оператор второго уровня может выполнять все функции оператора первого уровня, за исключением составления описания находок. Ему доступны данные только конкретного региона. Может быть зарегистрировано ограниченное число пользователей этого уровня для каждого узла сети.
Исследователю доступны только функции просмотра соответствующих данных БД и формирования к ним аналитических запросов с возможностью использования всех имеющихся режимов интерпретации полученных результатов. Количество исследователей в системе не ограничено.
Ограничения на доступ к данным (вертикальная и горизонтальная фильтрация отношений БД), а также на доступ к картографической информации налагаются отдельно для каждого пользователя в зависимости от его уровня в системе и соглашений с организациями, предоставившими информацию по могильникам.
В системе также предполагается реализовать механизм добавление больших блоков данных от удаленных клиентов. Удаленный оператор первого уровня получает «пустую» структуру БД и функционально ограниченную версию ИС с правом ввода, редактирования и просмотра только своих данных. В его функции входит организация работы по заполнению БД и, если необходимо, построение иерархического описания находок.
Рис.
1. Функции информационной системы
по
комплексному исследованию могильников
После заполнения БД оператором второго уровня она посылается на сервер, где администратор осуществляет добавление ее к общей БД. При этом проверяются изменения, которые внесены в ограничивающие подмножества и справочники.
Анализ типов неопределенности информации
Какие неопределенные значения будет поддерживать та или иная информационная система зависит в первую очередь от специфики предметной области, для которой строится данная система, и от круга задач, для решения которых она предназначена.
В данной работе в качестве одной из задач ставится выбор неопределенных значений, обработка которых реализуется в создаваемой ИС по комплексному исследованию грунтовых и курганных могильников (ниже системе). Предметная область для создаваемой системы описывает археологические памятники, а именно грунтовые и курганные могильники, объекты памятников и находки, полученные в ходе раскопок. База данных системы пополняется как из материалов, полученных в ходе раскопок, проводимых в настоящее время, периодичность которых зависит от полевых сезонов, так и из материалов раскопок предыдущих лет, хранящихся в археологических фондах. Различная степень сохранности материала, изменение со временем методик проведения раскопок и методик обработки материала во многом способствует необходимости использования в данной информационной системе неопределенных значений.
Наиболее полным с точки зрения учета всех типов неопределенности является дерево неопределенных значений [8]. Этим деревом представлены различные системные причины неполноты информации. Всего дерево содержит двадцать две вершины, одиннадцать из которых (вершины wi ) являются его листами.
Ниже приведено обоснование выбора четырех из одиннадцати типов неопределенных данных wi, являющихся листовыми в дереве неопределенных значений [2].
Неопределенное значение w1 «свойство не присуще объекту не зависимо от времени» (и никогда не будет получено) характерно для рассматриваемой предметной области по следующим причинам.
1. В систему могут заноситься данные о ранее освоенных памятниках, которые оценивались не по всем параметрам, используемым в настоящее время. За последние годы предложено использовать больше критериев для анализа полученного археологического материала и отсутствующее свойство «старого» памятника уже никогда не может быть получено. Например, в отчете о раскопках есть описание предмета, есть его фотография, а сам предмет был со временем утерян или разрушился полностью, поэтому определить для этого предмета некоторые новые свойства не представляется возможным.
2. Сохранность найденных в раскопе вещей зачастую является достаточно плохим. Особенно это характерно для более ранних эпох. В связи с этим какое-либо свойство объекта может отсутствовать по причине того, что оно просто не сохранилось. Такие данные у объекта, заносимого в БД, уже никогда не могут быть получены. Например, найден сосуд без венчика, поэтому нельзя утверждать какого диаметра и формы был венчик и был ли на нем орнамент; могильная яма «сползла» со временем в овраг или по памятнику была проложена дорога, поэтому многие параметры, описывающие этот объект, восстановить не представляется возможным.
Неопределенное значение w2 «свойство не присуще объекту в рассматриваемое время» также характерно для данной предметной области.
1. Некоторые свойства объектов могут быть получены только после проведения тщательного анализа (например, биохимического). На получение такой информации требуется достаточно много времени и к моменту заполнения данных о памятнике это свойство может быть еще не получено. Например, датировка памятника на основе углеродного анализа; определение возраста и пола костяка по результатам исследований антрополога.
2. Большие памятники осваиваются частями, и каждый год (или через несколько лет в зависимости от финансовых и других проблем) идет прирезка новой площади к старому раскопу. Поэтому существуют свойства объектов, присущие, например, всему памятнику, которые на начальном этапе раскопок не могут быть получены пока не будет освоен весь памятник или большая его часть. Например, общая площадь памятника; характер ориентации погребений, их группировка; тип могильника (курганный или курганно-грунтовый) и т.д.
Неопределенное значение w3 «свойство присуще объекту, но не внесено в схему» не характерно для информационной системы по комплексному исследованию могильников по следующим соображениям. В данном случае считается, что концептуальная схема БД уже сформирована полностью и использование такого неопределенного значения не имеет смысла. Хотя если подойти более жестко к рассмотрению данного значения, то оно все же имеет место для создаваемой системы. В процессе работы с системой описание некоторых объектов может конкретизироваться, но дополнения вносятся в виде целого законченного дерева (например, система может дополниться подробным описанием конкретного типа находки: браслетов, сосудов и т.д.). Поэтому до внесения дополнений и после них сама концептуальная схема будет считаться законченной на текущее время и значение w3 в данном случае использовать не правомерно.
Неопределенное значение w4 «к рассматриваемому времени значение не перенесено из другой модели» также исключено из рассмотрения, поскольку считается, что БД разрабатываемой системы создается впервые и строится на одной модели данных – реляционной модели. Неопределенное значение w5 «значение к рассматриваемому времени не внесено в БД» характерно для анализируемой предметной области по следующей причине.
Создаваемая информационная система ориентирована на заполнение БД в полевых условиях, т.е. непосредственно в ходе проведения раскопок. Некоторые свойства объектов могут быть определены либо в стационарных условиях (например, на керамических сосудах орнамент можно зафиксировать только после промывки находки, на которую требуется время), либо по завершении некоторого этапа раскопок (например, глубину погребения можно определить, только выбрав весь культурный слой). В этом случае не исключена ситуация, когда пользователи системы захотят провести анализ каких-либо данных уже в полевых условиях при еще незаполненной полностью БД. Неопределенные значения w6 «в рассматриваемое время значение находится под запретом», w7 «в рассматриваемое время из-за изменений в БД значение уже недоступно», w8 «в рассматриваемое время из-за изменений в БД значение еще недоступно» и w9 «значение находится в стадии изменения» не характерны для данной предметной области по следующим соображениям.
Для некоторых предметных областей (например, котировка акций, Internet-магазин и т.п.) частота обновления БД очень высока, поэтому могут возникнуть ситуации, когда на момент изменения БД доступ к некоторой информации закрыт. Кроме того, доступ к данным может быть закрыт в процессе работы с системой по причине конфиденциальности. В разрабатываемой системе все уровни доступа определены заранее для каждой категории пользователей, на сервер помещается уже готовая БД и частота ее обновления сравнительно низкая и зависит от периодичности проведения раскопок и «скорости» обработки материалов после них. Все это делает нецелесообразным использование таких неопределенных значений в данной системе.
Нецелесообразно также использовать неопределенное значение w10 «значение искажено». Связано это с тем, что преднамеренного искажения хранящейся информации сама система выявить не сможет и, следовательно, пометить такие данные как «искаженные» не представляется возможным. Кроме того, в силу специфики предметной области вероятность умышленного искажения информации в данной системе достаточна мала.
Неопределенное значение w11 «истинность значения сомнительна» характерно для рассматриваемой предметной области.
Такой тип неопределенности на некоторые данные может выставить администратор системы либо сама система обработки, если у исследователя возникли сомнения о достоверности внесенных ранее данных. Такая ситуация является вполне типичной, если на некоторые свойства объекта дается предварительная оценка и именно она на начальном этапе заносится в БД (например, датировка памятника). Также некоторая характеристика объекта может быть получена очень давно при использовании старых методик, в данный момент достоверность этих сведений ставится под сомнение, но проверить это зачастую уже не представляется возможным.
Таким образом, для реализации в информационной системе по комплексному исследованию грунтовых и курганных могильников выделено четыре типа неопределенных значений:
w1 – «свойство не присуще объекту не зависимо от времени»;
w2 – «свойство не присуще объекту в рассматриваемое время»;
w5 – «значение к рассматриваемому времени не внесено в БД»;
w11 – «истинность значения сомнительна».
Если при заполнении БД пользователь оставил какие-то поля незаполненными и не указал особой причины (например, свойство не присуще объекту, истинность значения сомнительна и т.д.), то система сама присваивает таким полям признак w5 «значение к рассматриваемому времени не внесено в БД». Также, если пользователь при заполнении полей БД не указывает никакого типа неопределенности, то система проставляет таким поля «по умолчанию» тип определенных (истинных) значений – 0.
Для практической реализации указанных неопределенных значений следует использовать полученные алгоритмические выражения операций сравнения полей кортежей и их типов неопределенности [2].
Выделенные неопределенные значения охватывают все возможные варианты «неопределенности» данных, характерные для рассматриваемой предметной области. Кроме того, такие значения могут быть использованы для других аналитических систем в области археологии, истории и этнографии.
Структура
информационной системы комплексного исследования
могильников
Разрабатываемая система включает в себя функции экспертной, геоинформационной и интеллектуальной системы, способной обрабатывать данные с разными типами неопределенности и выполнять сложную аналитическую обработку разнородной информации. Для реализации данных функций в системе выделены следующие подсистемы (рис. 2): идентификации пользователя, анализа запросов, обработки, геоинформационная, векторизации растровых изображений.
Связь пользователя с системой осуществляется посредством подсистемы идентификации пользователя, на которую возложены функции определения прав доступа к данным и формирования представлений. Связь всех подсистем с БД организованна через модуль выполнения запросов. Запросы к системе, как от локальных, так и от удаленных пользователей формулируются на специальном языке запросов, синтаксис которого является предметом дальнейших исследований и базируется на синтаксисе языка SQL [6].
В системе предусмотрены различные формы представления результатов обработки запросов (отчеты, графики, рисунки, схемы, карты, планы, диаграммы, экспертные заключения по запросу и т.п.). С этой целью система дополнена модулем интерпретации результата, основной задачей которого является работа с графикой. Анализ, обработка и ввод графической информации осуществляется геоинформационной подсистемой (ГИС). Для хранения различного рода графической информации (карты, планы, рисунки) предусмотрены различные модели [3].Хранение большого количества разнотипных документов в растровой форме становится затруднительным, поскольку они занимают большие объемы памяти. Поэтому в качестве основной модели выбрана векторная топологическая модель [5], позволяющая получить произвольный доступ к данным и учитывающая топологические характеристики пространственных объектов. При вводе картографической информации в системе выполняется преобразование геокоординат в декартовую систему координат посредством проекции Гаусса-Крюгера [3].
· · ·
Разработка информационной системы ведется на языке Visual C++. К настоящему времени: 1) построен подробный граф взаимосвязи объектов и свойств предметной области; 2) сформированы требования к проектируемой системе, на основе которых составлен полный перечень поддерживаемых системой функций; 3) построена концептуальная схема БД (при построении концептуальной схемы БД использовался унифицированный язык моделирования UML), отлажены структуры основных и справочных таблиц базы данных; 4) выделены уровни доступа к системе и разработаны шаблоны основных представлений БД для различных категорий пользователей; 5) разработаны алгоритмы обработки неопределенных типов данных [4]; 6) проведен анализ различных моделей хранения графической информации и алгоритмов картографической проекции; 7) разработаны алгоритмы управления трехмерным макетом скелета (для занесения в систему положения костяка в погребении).
Исследованные модели и алгоритмы апробированы в начальном программном варианте системы.
Предметом дальнейших исследований является создание интерфейса с цифровыми источниками растровых документов (цифровые фото и видео камеры и т.п.), а также разработка синтаксиса специального языка запросов к БД. Определенное внимание будет уделено обработке неопределенной и неполной информации, характерной для данных, полученных в ходе археологических экспедиций.
С возможностью использования разрабатываемого программного продукта будет продолжена интеграция специалистов, занимающихся вопросами истории, культуры, быта и миграции древнейших народов.
Создаваемая авторами ИС не имеет прямых аналогов. В институте истории материальной культуры РАН (г. Санкт-Петербург) разрабатывается археологическая информационная система «Археограф», предназначенная для регистрации, учета и поиска информации об археологических памятниках [9]. Предусматривается взаимодействие этой системы с ГИС для последующего анализа местоположения памятника с использованием цифровых карт любого масштаба. Хранение и обработка же каких-либо данных об объектах археологических памятников в системе «Археограф» не предусмотрены. В связи с этим авторы с благодарностью воспримут любую информацию о подобных системах и готовы к сотрудничеству в этой области.
1.
Алгоритмы операций реляционной алгебры с учетом неопределенных типов данных
/Васяева Е.С.// Тр. науч. конф. по итогам н.-и. работ Мар. гос. техн.
ун-та. Йошкар-Ола, 19-23 марта, 2001. Секц. информ. методы, технологии и
системы/ Мар. гос. техн. ун-т. - Йошкар-Ола, 2001. - C. 2-13. - Библиогр.:
9 назв. - Рус. - Деп. в ВИНИТИ 11.02.02 № 277-В2002. 2. Анализ специфики обработки неопределенных типов данных для
интеллектуальных информационных систем/ Синельников А.С., Васяева Е.С., Васяева
Н.С., - Материалы Международной
научно-практической Internet-конференции молодых
исследователей «Перспектива и развитие», 1 сентября