Что такое поисковые пути в базах данных
Рассматриваются реляционные базы данных (РБД) нормализованные на основе операций выборки и соединения [1], структура которых представлена на рисунке 1.
Рисунок 1. Структура реляционных баз данных, нормализованных на основе операций выборки и соединения
Представленной структурой может быть описана любая предметная область, т.к. для всякого атомарного значения отношения можно построить ориентированный граф связей с другими значениями. В качестве примера в представленной структуре реализована следующая информационная модель (рисунок 2).
Рисунок 2. Ориентированный граф связей некоторого подмножества атомарных значений реляционной базы данных
Перерисуем граф связей подмножества значений РБД, в виде ориентированной сети (рисунок 3).
Для разработки декларативного языка запросов к РБД со структурой, представленной на рисунке 1, необходимо определить алгоритм поиска информации на ориентированной сети. Как правило, пользовательские запросы формируются на выборку фиксированного набора атомарных значений по другим известным значениям.
Между любыми двумя значениями, если существует связующий их путь, то он однозначен. Точнее определить его как поисковый путь, чтобы отличать его от пути графа. Движение по связям разрешено в обе стороны: по направлению стрелки переход будем называть уточняющим, против стрелки — обобщающим.
Рисунок 3. Ориентированная сеть связей некоторого подмножества атомарных значений реляционной базы данных
Формально поисковый путь определяется следующим образом. Выбирается любая вершина vx уровня 0 (вершина с полустепенью захода, равной 0), из которой достижимы вершины с исходным и требуемым значениями, т.е. определяется подграф, если такой имеется, содержащий вершины с исходным и требуемым значениями. Строится неориентированный граф по следующим правилам:
- в качестве множества вершин выбирается множество вершин ориентированной сети;
- всякая дуга ориентированной сети заменяется ребром неориентированного графа;
- определяется вершина v´x неориентированного графа, соответствующая vx.
Из вершины v´x определяются две простые цепи к исходному и требуемому значениям. Поисковый путь определяется как совокупность найденных двух простых цепей за исключением совпадающих дуг. Согласно данному определению можно показать, что частным случаем является ситуация, когда поисковый путь совпадает с одним из путей сети. Замена ориентированной сети неориентированным графом обусловлена необходимостью выполнения обобщающих и уточняющих переходов между вершинами. Поиск информации на ориентированной сети может быть ускорен в случае внесения дополнений в алгоритм. Для этого необходимо сузить по возможности область поиска искомой информации запроса, при этом
- Пространство поиска может быть сужено по ширине, путем определения подмножества вершин уровня 0 для исходного множества значений и последующего выделения соответствующего им подграфа значений. Если для исходного множества значений выделено несколько областей, то в качестве результата выбирается их более узкая общая часть.
- Пространство поиска может быть сужено по высоте, путем определения подмножества уровней ориентированной сети, которым принадлежат требуемые значения. Для реализации данного пункта необходимо в структуре, представленной на рисунке 1, хранить дополнительную информацию, указывающую на то, какие атрибуты ролей принадлежат соответствующему уровню. Хранение дополнительной информации ускоряет процесс поиска информации, но снижает производительность операций добавления, удаления и изменения информации БД.
Представленный алгоритм используется при разработке компилятора языка манипулирования данными к РБД, нормализованных на основе операций выборки и соединения.
- Маликов А.В. Проектирование реляционных баз данных на основе операций выборки и соединения. Исследование их свойств. Монография. Под ред. А.Г. Чефранова. Ставрополь: СевКавГТУ, 2002.
Поиск информации в Интернете/Поиск в базах данных
Процедура поиска является одной из центральных процедур в системах автоматической обработки информации. При решении любой задачи требуется выбирать исходные данные из некоторых заранее подготовленных массивов информации и записывать результаты решения в эти или другие массивы. Наиболее рациональным подходом к организации массивов информации при решении вычислительных задач является концепция банков и баз данных. Проблемы поиска информации в формализованных базах данных заслуживают самого серьезного внимания. Поиск информации в базах данных – это процесс отбора из них множества описаний объектов, удовлетворяющих сформулированным в запросе условиям. При этом в качестве результатов поиска могут выдаваться не все признаки объектов, а только часть их – в соответствии с условиями запроса. Объект может выбираться из массива по значению одного идентифицирующего его (ключевого) признака или по сочетанию значений нескольких ключевых признаков. Он может также выбираться по сочетанию любых других (неключевых) признаков, если это сочетание однозначно выделяет его из множества всех объектов массива.
Признаки объектов [ править ]
Первичные признаки назначаются при первоначальном описании объектов, а производные являются функциями первичных. Поиск может вестись как по первичным, так и по производным признакам. Чаще всего в процессе поиска информации выбирается не один объект, а множество объектов. Оно может быть задано различными способами: 1) перечнем значений ключевых признаков или сочетаний ключевых признаков; 2) значением или интервалом (перечнем) значений одного неключевого признака; 3) булевой функцией значений или интервалов (перечней) значений любых признаков объекта (как ключевых, так и неключевых); 4) отношением между признаками, выраженным с помощью арифметических и логических операции (операций типа “И”, “ИЛИ”, “НЕ”), а также отношений =, >, < и их отрицаний. Условия выборки признаков у найденных объектов задаются в виде перечней наименований этих признаков. Важной проблемой, возникающей при реализации процедур поиска информации, является проблема отождествления признаков объектов и установления парадигматических отношений между ними (отношений типа род-вид, целое-часть и др.). Общее решение этой проблемы связано с возможностью распознавания смыслового тождества и парадигматических отношений различных форм наименований понятий на основе их морфологического, синтаксического и семантического анализа. Но на практике широко применяются и другие решения, основанные на унификации форм представления наименований понятий в базах данных и использования систем меню, в которых пользователю предлагается делать выбор наименований понятий только из числа рекомендованных.
Три основных способа организации процесса выполнения запросов: [ править ]
•композиция запросов – запросы выполняются в строго определенной последовательности, а результаты поиска по предыдущему запросу используются в качестве исходных данных для формирования следующего за ним запроса. При этом первый запрос в серии запросов определяется полностью, а остальные – не полностью и доопределяются в процессе поиска.
•объединение запросов – когда результаты поиска по нескольким запросам объединяются в одну общую выдачу.
•разветвление запросов – когда после выполнения очередного запроса есть возможность перехода к одному из нескольких запросов в зависимости от выполнения тех или иных условий. Перечисленные способы организации процесса выполнения запросов могут применяться в различных сочетаниях, что позволяет строить различные процедуры многошагового поиска.
В числе наиболее популярных баз данных, доступных в онлайновом режиме, особого внимания заслуживают «LexisNexis» и «Интегрум» , так как фактически являются гипертекстовыми, аккумулируя документы различного типа, включая в себя массивы других баз данных, в том числе и не имеющих электронных версий вне «LexisNexis» или «Интегрум».
Интегрум [ править ]
«Интегрум» — российское информационно-аналитическое агентство, открытое в 1996 году. Назначение агентства — обеспечивать необходимой информацией компании, государственные учреждения, учебно-исследовательские организации. Медиабанк «Интегрума» содержит более 500 000 000 оцифрованных материалов из 10000 источников: федеральных и региональных изданий, радиостанций, телеканалов, сайтов, библиотек и баз данных. Получить доступ к любому материалу можно через сайт http://www.integrum.ru/ . Для этого надо выбрать услугу и подписаться.
Услуги для компаний и госучреждений [ править ]
- Поиск в СМИ.
- Поиск компаний.
- Мониторинг СМИ.
- Бизнес-аналитика.
Услуги для учебных и исследовательских организаций [ править ]
Для исследователей и учащихся «Интегрум» это крупнейшая база данных русскоязычных источников. Не только современной прессы, но и полных текстов классической литературы, материалов фондов Агропрома, ИНИОНа, Роспатента, РГАЛИ, ГПНТБ. Работа с источниками максимально упрощена благодаря уникальной поисковой системе «Интегрума», учитывающей морфологию русского языка. На доступ к базе для некоммерческих организаций действуют скидки.
LexisNexis [ править ]
LexisNexis является ведущим мировым провайдером контента, предлагающий услуги для юридических и бухгалтерских фирм, корпораций, правительств, правоохранительных органов, научных учреждений.
Что такое поисковые пути в базах данных
Предлагаем Вашему вниманию новые поисковые системы и базы данных, доступ к которым предоставляется в ВПТБ. ИС «Поисковая платформа» Роспатента Информационно-поисковая система ФИПС (ИПС ФИПС) Национальная электронная библиотека (НЭБ) Поисковая система ЕАПАТИС База данных Orbit Intelligence by Questel
Возможность работы с поисковыми системам и базами данных предоставляется в компьютерном зале ВПТБ ФИПС (4-й этаж). В компьютерном зале вы можете так же получить консультацию специалиста, услуги переводчика, помощь в обучении заполнения электронной заявки на изобретения, полезные модели, товарные знаки.
Справки по телефонам: +7 (495) 531-66-46; +7 (499) 240-41-97. Адрес для переписки: Бережковская наб., 24, Москва, Г-59, ГСП-3, 125993. E-mail: vptb@rupto.ru.
ИС «Поисковая платформа» Роспатента
ИС «Поисковая платформа» — бесплатная поисковая система, предоставляемая Федеральной службой по интеллектуальной собственности (Роспатент), предназначенная для широкого круга пользователей в сфере информационного обеспечения решения задач создания и использования объектов интеллектуальной собственности в условиях постоянного роста объемов российского и мирового фондов патентной информации. Функциональные и сервисные возможности системы:
- Проведение поиска по мировому патентному фонду (изобретения, полезные модели) 26 стран и организаций, включая все русскоязычные массивы.
- описания изобретений и реферативная информация к авторским свидетельствам и патентам СССР, ранее неопубликованным авторским свидетельствам и патентам СССР (1924 г. — н. в.), с пробелами
- описания изобретений к патентам и заявкам РФ (1994 г. — н. в.)
- описания изобретений к международным заявкам (1978 г. — н. в.)
- Проведение поиска похожих документов с помощью технологий искусственного интеллекта, позволяющих находить семантически близкие документы по заданному отрывку или целому документу. Система также позволяет осуществить предварительную оценку научной новизны изобретения и найти зарегистрированные патенты-аналоги.
- Возможность проведения поиска по генетическим базам данных, а именно: аминокислотных и нуклеотидных последовательностей, протеинов с возможностью трехмерной визуализации найденных последовательностей.
- Используемые классификаторы: Международная патентная классификация и Совместная патентная классификация.
Проводятся работы по обеспечению поиска на цифровой платформе сведений по товарным знакам и промышленным образцам.
Информационно-поисковая система Федерального института промышленной собственности (ИПС ФИПС)
ФИПС публикует официальную информацию по всем объектам промышленной собственности в электронном виде и предоставляет к ней доступ через сайт в сети Интернет.
В ИПС ФИПС возможен поиск по объектам интеллектуальной собственности, зарегистрированным в России: изобретениям и полезным моделям на русском и английском языках, промышленным образцам, товарным знакам и знакам обслуживания, общеизвестным товарным знакам, географическим указаниям и наименованиям мест происхождения товаров, программам для ЭВМ, базам данных, топологиям интегральных микросхем и различным международным классификаторам.
Базы данных с бесплатным доступом в ВПТБ:
- БД Изобретения (ретроспективная) содержит полные тексты российских патентных документов до 1994 года в факсимильном виде (1924-1993 гг.)
- БД Изобретения содержит полные тексты российских патентов на изобретение и (частично) заявок на изобретение, графическую информацию (1994 –по н. в.)
- БД Полезные модели содержит формулы российских полезных моделей, графическую информацию — основной рисунок (1994 — по н. в.)
- БД Промышленные образцы содержит библиографическую, реферативную и графическую информацию о промышленных образцах, зарегистрированных в России (1993 — по н. в.)
- БД Товарные знаки содержит библиографическую информацию и изображения товарных знаков, зарегистрированных в России (1927 — по н. в.)
- БД Заявки на товарные знаки содержит библиографическую информацию и изображения товарных знаков, на регистрацию которых подана заявка (2005 — по н. в.)
- БД Наименования мест происхождения товаров содержит библиографическую информацию о наименованиях мест происхождения товаров, зарегистрированных в России (1996 — по н. в.)
- БД Заявки на наименования мест происхождения товаров содержит библиографическую информацию и наименование места происхождения товара, на регистрацию которого подана заявка (2005 — по н. в.)
- БД Общеизвестные товарные знаки одержит библиографическую информацию и изображения общеизвестных в России товарных знаков (1992 — по н. в.)
Бесплатные базы данных:
- БД Перспективные изобретения содержит полные тексты российских патентов на изобретения, признанных Федеральным институтом промышленной собственности перспективными. Изобретения, включенные в БД, удовлетворяют таким критериям, как высокий технический уровень в сравнении с мировыми аналогами, оригинальность технического решения, а также достаточная техническая проработанность и готовность к использованию в производстве (1993-2018 гг.)
- БД Изобретения на русском и английском языках содержит рефераты российских патентов на изобретение, графическую информацию (основной рисунок) (1994 — по н. в.)
- БД Полезные модели содержит формулы российских полезных моделей, графическую информацию (основной рисунок) (1994 – по н. в.)
- БД Программы для ЭВМ содержит опубликованные сведения о зарегистрированных программах для ЭВМ, начиная с номера 2013611451, опубликованные с 2013 извещения об изменении сведений о зарегистрированных программах для ЭВМ и выдаче дубликатов свидетельств (2013 –по н. в.)
- БД Зарегистрированные базы данных содержит опубликованные сведения о зарегистрированных базах данных, начиная с номера 2013620195, опубликованные с 2013 извещения об изменении сведений о зарегистрированных базах данных и выдаче дубликатов свидетельств (2013 –по н. в.)
- БД Топологии интегральных микросхем содержит опубликованные сведения о зарегистрированных топологиях интегральных микросхем, начиная с номера 2013630022, опубликованные с 2013 г. извещения об изменении сведений о зарегистрированных топологиях интегральных микросхем и выдаче дубликатов свидетельств (2013 –по н. в.)
- Изобретения, полезные модели, промышленные образцы и товарные знаки за последний месяц — полнотекстовая информация, опубликованная за последний месяц.
- БД Заявки на изобретения содержит заявки на изобретение, графическую информацию (основной рисунок) (1994 –по н. в.)
- Международные классификации (изобретения, промышленные образцы, товарные знаки)
Дополнительную информацию можно найти по адресу.
Национальная электронная библиотека (НЭБ)
Национальная электронная библиотека (НЭБ) — федеральная государственная информационная система, создаваемая Министерством культуры Российской Федерации при участии крупнейших библиотек, музеев, архивов, издателей и других правообладателей.
Основой формирования фондов НЭБ, согласно Указанию Президента Российской Федерации от 17.02.2018 № Пр-294, является обязательный экземпляр печатного издания в электронной форме, получаемый Российской государственной библиотекой. Доступ к таким объектам предоставляется после заключения лицензионного соглашения с правообладателями.
В НЭБ представлено:
- патентная документация СССР / Российской Федерации с 1924 г. по настоящее время, опубликованные заявки Российской Федерации на изобретения с 1995 г.;
- патенты Российской Федерации на полезные модели с 1994 г.;
- полные тексты переведенных в электронную форму книг, включая редкие и ценные издания, рукописи, диссертации, авторефераты, монографии, периодическая литература и др.;
- актуальные издания, отобранные экспертами и востребованные школьниками, студентами, учеными и исследователями, а также широкими слоями пользователей, которым необходим доступ к систематизированному, доверенному и современному знанию.
Основной целью НЭБ, в соответствии со статьей 18.1 Закона «О библиотечном деле», являются сохранение исторического, научного и культурного достояния народов Российской Федерации, обеспечение условий для повышения интеллектуального потенциала Российской Федерации и популяризации российской науки и культуры, а также формирование основы для создания единого российского электронного пространства знаний.
Оператором НЭБ является Российская государственная библиотека.
Участниками НЭБ являются государственные и муниципальные библиотеки, библиотеки образовательных, научных и иных государственных и муниципальных организаций, а также учреждения, обеспечивающие хранение обязательного экземпляра документов в электронной форме и (или) книжных памятников.
Пользователи библиотек могут получить свободный доступ ко всей совокупности объектов НЭБ, включая охраняемые авторским правом. При этом более двух третей фонда НЭБ можно свободно читать на портале НЭБ или с помощью мобильных приложений.
Объекты НЭБ – созданные в электронной форме копии печатных и электронных изданий, неопубликованных документов, в том числе диссертаций, других документов, представляемых в качестве обязательного экземпляра документов, а также книжные памятники.
ВПТБ в НЭБ:
В октябре 2015 года во Всероссийской патентно-технической библиотеке (ВПТБ) был организован доступ для читателей в НЭБ, а в мае 2016 года ВПТБ стала не только пользователем НЭБ, но и полноправным участником этого проекта.
Дополнительную информацию о НЭБ можно найти по адресу.
Евразийская патентная информационная система (ЕАПАТИС)
Cистема ЕАПАТИС разработана Евразийским патентным ведомством (ЕАПВ) с целью повышения эффективности и качества проведения патентных поисков и патентно-информационного обеспечения экспертизы заявок на изобретения. В 2003г. к ней открыт доступ через Интернет для национальных патентных ведомств стран-членов Евразийской патентной организации (ЕАПО).
В ЕАПАТИС поддерживается более 20 постоянно пополняемых локальных патентных баз данных (БД), в которых содержится более 88 млн описаний патентных документов. Объем предоставляемой пользователям патентной информации (с учетом полных описаний патентных документов по отдельным БД) составляет свыше 2 терабайт. В БД представлены патентные документы ЕАПВ, ВОИС, Европейского патентного ведомства, патентного ведомства США, СССР и России (с 1924 г.), патентные документы стран, входящих в «минимум документации РСТ» разной глубины ретроспективы, а также патентные документы национальных патентных ведомств стран СНГ, включая страны-члены ЕАПО.
В системе можно проводить любые тематические, нумерационные и именные поиски. В ней реализованы средства метапоиска во внешних патентных БД цифровых библиотек интеллектуальной собственности (IPDL) и информационных системах свободного доступа сети Интернет: USPTO, ESPACENET, PatentScope и др.
В результате проведения поиска формируются списки найденных патентных документов и предоставляются их реферативно-библиографические описания, с дальнейшей возможностью получения полного описания документа и дополнительной информации о нем из внешних источников.
Особенности системы:
- русскоязычный фонд патентной документации, включая советскую, российскую, евразийскую и национальную документацию;
- удобство и легкость в эксплуатации, реализованный в системе принцип «одного окна» позволяет проводить многоаспектные патентные поиски на нескольких официальных языках одновременно в локальных и во внешних БД свободного доступа сети Интернет;
- развитые сервисные возможности системы. По каждому запросу отображаются статистические данные о результатах поиска, в том числе по каждому поисковому индексу в отдельности. Структуру составленного запроса можно посмотреть перед отправкой на сервер. Программы анализатора запросов предоставляют рекомендации по дальнейшим действиям в случае получения нулевых результатов поиска. Автоматическое формирование гиперссылки во внешние БД для каждого найденного документа для возможности получения его описания и дополнительной информации о нем из внешних источников.
Условия доступа к системе ЕАПАТИС:
В свободном доступе можно проводить все виды поисков (расширенный, нумерационный, профессиональный) в БД ЕАПВ и поиски по номеру документа в других БД. Результаты поиска представляются в виде реферативно-библиографических описаний патентных документов. Предоставляются сервисы виртуального доступа к полным описаниям документов из внешних источников, поиска в БД МПК.
Платный доступ открыт ко всем БД системы в режимах расширенного, нумерационного и профессионального поиска, а также метапоиска. Предоставляются титульные листы и полные описания евразийских патентов и опубликованных евразийских заявок. Доступны сервисы виртуального доступа к полным описаниям документов из внешних источников, тематического поиска в БД ЕАПАТИС с использованием БД МПК, поиска в БД МПК.
Дополнительную информацию о НЭБ можно найти по адресу.
База данных Orbit Intelligence by Questel
Компания Questel была создана в 1978. Questel более 40 лет является международным информационным лидером. Она предоставляет доступ к базам данных, содержащим информацию об интеллектуальной собственности.
На сегодняшний день это лучшая информационная служба в мире, гарантирующая максимальную полноту и надежность исследований патентной документации. Глубина доступного архива с 1880 г.
Патентные базы данных компании Questel:
- крупнейший в мире патентный фонд, содержащий свыше 120 млн документов 95 стран и международных патентных ведомств;
- оригиналы патентных документов практически всех стран;
- документы на изобретения, полезные модели;
- рефераты на английском языке патентных документов стран наибольшего патентования;
- полные тексты патентных документов России, США, Франции, Германии, Великобритании, Бельгии, Швейцарии, Австрии, Китая, Японии, Индии и др., а также заявки и патенты международных патентных ведомств, включая ЕПВ;
- максимально полная информация о родственных патентах (patent family = патенты аналоги), включая их юридический статус;
- возможность автоматического перевода найденных документов на любой из 50 языков мира, включая русский, английский, французский, немецкий, испанский, итальянский, арабский, японский, китайский и др.
Для поиска информации в базах данных Questel служит поисковая система Orbit Intelligence. Поисковая система позволяет выполнять семантический анализ патентных документов: суть и формулу изобретения, преимущества данного патента и слабые стороны предшествующих. Статистический анализ позволяет изучать патентную активность компаний по годам и классификационным рубрикам, выявлять стратегические рынки компаний и партнеров по совместным разработкам.
Дополнительную информацию по базе данных можно найти на сайте Questel по адресу.
Меню раздела
- Услуги
- Новости
- Тематические вебинары
- Фонды и читальные залы
- Музей Роспатента
- Проекты
Методы быстрого поиска в базах данных
Хотя для проведения парных выравниваний были разработаны эффективные алгоритмы, позволяющие получать оптимальные выравнивания за время, пропорциональное квадрату длин выравниваемых последовательностей, для проведения быстрого поиска в больших базах данных последовательностей, содержащих, например, более 400 000 последовательностей, данные алгоритмы не подходят, так как подобный поиск может занимать несколько часов. Данная проблема была решена путем создания специализированных алгоритмов, позволяющих быстро получать выравнивания, близкие к оптимальным.
BLAST. Один из таких алгоритмов — BLAST (сокращение от Basic Local Alignment Search Tool — простой инструмент для поиска локальных выравниваний), получивший наибольшее распространение в задачах сравнительного моделирования.
Вместо того чтобы производить множество парных выравниваний исследуемой последовательности со всеми последовательностями из базы данных, BLAST разбивает исследуемую последовательность на множество перекрывающихся олигопептидов. В стандартной реализации алгоритма в качестве таких фрагментов принимаются триплеты аминокислот (рис. 3.8). После разделения последовательности полученные фрагменты используются для поиска совпадений. Важно отметить, что поиск находит как абсолютно идентичные совпадения, так и биологически значимые, например триплеты с заменой одного гидрофобного остатка на другой. После обнаружения совпадения алгоритм пытается расширять полученное выравнивание в обе стороны, оценивая после каждого шага расширения сумму пар, формирующих выравнивание согласно выбранной матрице замещения, и решая, стоит ли продолжать расширение дальше.
Рис. 3.8. Поиск первичного соответствия триплетов аминокислот в исследуемой последовательности (Query) и последовательности из базы
данных (Sbjct) (я); пример расширения обнаруженного соответствия
на одну позицию вправо (Query — исследуемая последовательность, Database — последовательность из базы данных) (б)
В результате работы алгоритма получается набор локальных выравниваний, которые затем комбинируются с учетом штрафов за пропуски для получения оптимального локального выравнивания с пропусками. Такие выравнивания строятся для каждой отмеченной в ходе первоначального поиска последовательности. Для всех выравниваний производится статистическая оценка значимости (см. подпараграф 3.1.3), и наиболее значимые выравнивания составляют результат поиска.
FASTA. FASTA, как и BLAST, является эвристическим алгоритмом для быстрого поиска похожих последовательностей в больших базах данных. Стратегия алгоритма основана на поиске наиболее значимой диагонали на матрице выравнивания. Атгоритм состоит из четырех фаз:
- 1) хеширование,
- 2) первая оценка,
- 3) вторая оценка,
- 4) выравнивание.
Цель хеширования — определить места точных совпадений сравниваемых последовательностей длинной более k элементов. Для каждого из отмеченных совпадений запоминается номер диагонали, к которой принадлежит совпадение. Номер диагонали определяется по разнице индексов формирующих ее элементов (/ — j), т.е. центральная диагональ имеет индекс 0, диагонали выше центральной обладают положительными индексами, ниже — отрицательными. Серия совпадений, располагающихся на одной диагонали, соответствует выравниванию без пропусков. Таким образом, используя матрицу замещения и штрафуя за пропуски, мы можем оценить значимость каждой из диагоналей выравнивания. В результате хеширования отбираются 10 лучших диагоналей.
На втором этапе для каждого из отобранных фрагментов строится локальное выравнивание, и лучшее из них возвращается пользователю как результат initl.
Третий этап пытается сформировать оптимальное выравнивание из нескольких выравниваний второго этапа. Результат возвращается пользователю с названием initn.
Наконец, последний этап строит выравнивание по алгоритму SW, ограничивая его окном из восьми диагоналей, отсчитывая их от результата initl. Данное выравнивание именуется opt.
Эти четыре этапа повторяются для каждой последовательности из базы данных, после чего производится статистическая оценка значимости получаемых выравниваний.