Construcción

escenarios

para

comparar

replicación activa

optimista

pesimista

Edíson

Álvarez

Ingeniero en Sistemas, Docente de la Facultad de

Ingeniería en Sistemas, Electrónica e Industrial

RESUMEN

En la actualidad

debido

al gran volumen de información

que

se procesa y no en un

solo lugar, es necesario determinar los escenarios más

adecuados

para aplicar ycon

figurar la distribución

la información en las organizaciones. LosAdministradores

Base

Datos distribuyen la información

entre

varios sitios,

pero

configuran

los escenarios

acorde

a las necesidades reales

rendimiento, seguridad ydisponi

bilidad

información.

presente

trabajo

pretende

mostrar

los

elementos

que

se deberían considerar para

configurar escenarios en los cuales se aproveche las ventajas de distribuir la infor

mación, no solo considerando

aspectos

de seguridad sino

también

factores

que

joren sustancialmente el rendimiento

los

sistemas

base

datos.

estudia

dos

técnicas

replicación, la Replicación Activa,

con

sus

variantes

pesi

mista

optimista,

y la Replicación Pasiva. Se

establece

marco

trabajo

de cual

quier

técnica de replicación en 5 fases: Solicitud del cliente, Coordinación

Servidores, Ejecución, Coordinación de

Asentimientos

Respuesta

al cliente. Se ex

plora

este

marco en el

contexto

la Replicación Activa y Pasiva.

Finalmente

compara

la replicación Activa Pesimista y la Replicación Activa Opti

mista

(que

en SQLServer

corresponden

a la replicación Transaccional con actuali

zación inmediata yactualización en cola, respectivamente). Para lograr

este

objetivo

se construyó un Front - End

que

actúa

como

un cliente

que

realiza solicitudes de eje

cución de transacciones

tanto

de consulta

como

de actualización, se configuró

ade

más los escenarios

replicación yrealizaron

experimentos

variando una serie de

parámetros,

con lo

que

obtuvo

datos

estadísticos que posibilitaron realizar una

comparación

entre

las técnicas

replicación

antes

mencionadas y

determinar

ven-

\tajas

ydesventajas.

UNIVERSIDAD TÉCNICA DE AMBATO / INVESTIGACIÓN YDESARROLLO

ABSTRACT

present

due to

the

large volume of ¡nformation being

processed

and

not

one

piace, it is necessary to

determine

the

most

appropriate

settíngs

to implement

and

configure

the

distribution of informatíon ínorganízations. The Database Managers

distríbute

the

informatíon among múltiple sites, but do

not

configure

the

settíngs

according to

the

real needs of performance, security and availabilityof information.

This

paper

aims

show

the

ítems

that

should

consídered

set

scenarios

which take advantage of distríbuting ¡nformation,

not

oniy considering safety as-

pects

but

aiso factors

that

substantially ímprove

the

performance

database

sys-

tems.

Transactíonal replicatíon ís selected for a more detailed study, selectíon justifíed

from

the

point of view

that

this

type

of replicatíon

ensures

transactíonal consís-

tency, acondítion required in

most

commercíal applicatíons, relying on a protocol

that does

not

belong to replicatíon itself, and

that

the

Commít Protocol in

two

phases,

however,

aiso

addresses

two

other

ways

replícate informatíon.

Finally,

compare

the

replicatíon Turns Pessímistic

and

Optimistic Active Replica

tíon (whích

correspond

SQL

Server

transactíonal

replicatíon

with

immediate

up-

dating and queued updatíng, respectively). To achíeve this goal we buílt a Front -

End

acts

as a clíent

that

makes

requests

executíon

both

query

transactíons

and

update,

it also

set

up replicatíon scenarios and

conducted

aseríes of experi-

ments varyíng parameters, thereby statístícal data obtaíned enabled acompahson

between

replicatíon techníques

mentioned

above

and

ídentífy

advantages

and dís-

advantages.

INTRODUCCION

área

en la cual las soluciones

están

integrando

tecnología con nuevas arquitec

turas

oformas

hacer

las cosas es, sin lugar adudas, el

área

de los sistemas distri

buidos de información. Ellos

refieren

manejo

datos

almacenados

facilidades de

cómputo

localizadas en muchos sitios

conectados

través

de una red

de comunicaciones. Un caso específico de

estos

sistemas distribuidos es lo

que

conoce

como

bases de

datos

distribuidas,

donde

la posibilidad de distribución se la

realiza a

través

la replicadón y en

otros

casos a

través

de la fragmentación de la

información, desde luego sin olvidar la posibilidad de una distribución combinada.

Una

base

datos

distribuida (BDD)es un conjunto de múltiples

bases

datos

ló

gicamente relacionadas, las cuales se encuentran distribuidas entre diferentes sitios

interconectados

por

una

red

comunicaciones.La

réplica

permite

distribuir

forma

automática

copias

de los

datos

de un

servidor

uno

ovarios

servidores

destino en uno o varios emplazamientos remotos [SoukupgS].

Una base de datos replicada consiste de un grupo de sitios n ={Ni,N2,N3,...,

Nn}

los

cuales

comunican

por

intercambio

mensajes.

Los sitios

son

detenidos

al fallar, y las fallas en los sitios

pueden

ser

detectadas.

Se considera un modelo

recuperación de fallas en el cual los sitios

pueden

recuperarse

reconectarse

al sis

tema

después

de sincronizar su

estado

con

alguna

las réplicas

que

estén

rriendo. La

base

datos

replicada

totalmente,

es decir,

cada

sitio

contiene

una

copia

base

datos.

Los

clientes

interactúan

con

base

datos

través

las

transacciones.

Las

trans

acciones

son

ejecutadas

automáticamente

éstas

pueden

ser

confirmadas

abor

tadas

todos

los sitios. Las

transacciones

son

parcialmente

ordenadas

conjunto

operaciones

lectura (r) o

escritura (w). Si una transacción

posee

operacio-

UNIVERSIDAD

TÉCNICA DE

AM6AT0

/INVESTIGACIÓN Y

DESARROLLO

nes de escritura, un protocolo de confirmación en dos fases (2PC

por

sus siglas en

inglés, TwoPhaseCommit) es ejecutado alfinal de la transacción

entre

todos los si

tios. En las

bases

datos

replicadas, el criterio

correcto

una

copia serializable,

es decir, cada copia debería

aparecer

como

una simple copia lógica y la ejecución

actual

transacción

será

equivalente

a una ejecución

serie

sobre

todas

las

copias físicas.

Cuando

cada

réplica

está

corriendo

máquinas

diferentes,

los

sistemas

replicados

base

datos

tiene,

teoría,

dos

ventajas

sobre

los

sistemas

centralizados:

• Alta disponibilidad.- sí una réplica colapsa^ (crash),

sea

por

una falla de

hardware

software,

resto

de réplicas

pueden

continuar

operando.

• Mejor rendimiento.- la carga de!

procesamiento

transaccional

puede

ser

distri

buida entre todas las réplicas (máquinas) en el sistema. Esto contribuye a:

- Mayor salida (throughput): las réplicas pueden independientemente ejecutar

consultos y las

operaciones

lectura de las

transacciones

de actualización,

porque

ellas no

alteran

estado

de la

base

datos,

es decir, el

procesa

miento

mayor

número

transacciones

por

unidad de

tiempo.

Menores

tiempos

respuesta:

que

las

consultas

pueden

ser

ejecutados

sobre

una réplica yenviar la

respuesta

al cliente, sin comunicaciones adicio

nales

entre

las réplicas.

Por

otra

parte, las ventajas

antes

mencionadas,

generan

los siguientes costos:

•

Procesamiento

adicional y

overheaden

las comunicaciones: las réplicas

requieren

comunicarse para

asegurase

que

los cambios han

tomado

efecto

todas

las co

plas de base de datos. Esto incrementa la carga en las máquinas(más precisa

mente

en el

subsistema

comunicaciones) y las comunicaciones

red, las

cuales

pueden

degradar

todo

rendimiento.

•Sistemas

altamente

complejos: las réplicas

corren

asincrónicamente^

sobre

dife

rentes

máquinas

asincrónicamente

reciben

las solicitudes

los

clientes

para

modificar las

bases

datos.

Realmente

sincronizar

las copias

las

bases

datos

através

las réplicas requiere de algoritmos avanzados de comunicación

procesamiento

transacciones.

ETODOLOGIA

Para realizar el estudio comparativo

entre

la Replicación Activa Optimista y la Pesi

mista

requiere:

a) Definir escenarios

replicación activa optimista ypesimista

b) Construir un

prototipo

de replicación

Establecer

los

parámetros

comparación

Número

operaciones

por

transacciones

Número

operaciones

lectura

número

operaciones

de escri

tura

d. Condiciones para anular una transacción (Rollback)

e. Porcentaje

transacciones a

ser

confirmadas (Commit)

f. Tamaño

base

datos

(tipos de

datos

emplear

número

gistros aprocesar)

c) Construcción de un Front - End para la

obtención

los valores

medi

ción de los

parámetros.

d) Elaboración

las gráficas

base

a los

resultados

obtenidos

Interpretación

resultados.

a) Escenario

Replicación

escenario construido, es el que se muestra en lafigura siguiente, cada estación tam-

decir,

proceso

deia

funcionar

definitivamente,

según

definición

encontrada

[Vanderwali200o]

Reaimente

ias

répiicas

son

sincrónicas

asincrónicas

UNIVERSIDAD

TÉCNICA

AMBATO

/INVESTIGACIÓN Y

DESARROLLO

bién incluye a SQLServer 2005,

cada

servidor

a su vez Publicador yDistribuidor.

WINDOWS

VISTA

SQL

SERVE

2005

WINDOWS

SERVER

2003

SQL

SERVER

2005

WINDOWS

SERVER

2003

WINDOWS

VISTA

b) Prototipo de Replkacíón

Partiendo del

hecho

que

la Replicación Activa no permite modificaciones indepen

dientes en las réplicas, es decir,

mantiene

la consistencia de los

datos

replicados en

todas

ellas, se

puede

considerar

que

la Replicación Activa Pesimista

corresponde

al modelo de Consistencia Estricta - Replicación

actualización inmediata de

subs

cripciones, y la Replicación Activa Optimista al modelo

Consistencia No Estricta

donde

se permite

que

exista un intervalo de

tiempo

no nulo

entre

los cambios

que

se producen en los datos originales y su propagación a las demás copias, es decir,

habilita a los

suscriptores

para

actualizaciones

cola, las

modificaciones

de los

datos pueden ser hechas en el Suscriptor, almacenarlas en una cola y propagarlas

al Publicador. Ambos modelos corresponden a la replicación transaccional

donde

mantiene

consistencia

integridad

transaccional.

Parámetros

del

prototipo

Número

operaciones

por

transacción:

>=5.

Estosignifica que cada transacción podría contener3operaciones de datos, mode

ladas

la siguiente manera: 1

operaciones

de lectura, 1operaciones

escritura

1de actualización o una combinación de ellas. Una operación es Iniciar transacción

yotra es una operación de confirmación (Commit) o una operación de deshacer

(Rollback).

Porcentaje

transacciones

confirmadas: 100.

Número de transacciones solicitadas

por

unidad de tiempo: @@Lock_timeout

Por

otra

parte,

número

transacciones

solicitadas

está

relacionado con el

"throughput" (salida) del sistema: el número de transacciones que son confirmadas

por

unidad

tiempo. Sea Crel conjunto

transacciones confirmadas

una co

rrida r,

entonces

definimos:

throughput(r) = #Cr

#Ces lacardinalidad del conjuntoC,

por

ejemplo, el

número

elementos

que

con

tiene.

Tamaño

base

datos:

50000

registros.

Tamaño

los

objetos

base

datos:

1- 30

bytes.

Técnicas de replicación: Replicación Activa Pesimista yReplicación Activa Optimista.

Número

réplicas:

234.

WINDOWS

UNIVERSIDAD TÉCNICA DE AMBATO / INVESTIGACIÓN YDESARROLLO

Interactividad

las

transacciones:

Interactivas,

decir,

cada

cliente

solicita

trans

acciones

una

continuación

otra.

Porcentaje

consultas:

399.

Número

clientes:

1 a

Escenarios: sea el escenario s =(pesim/sta;3; interactivas;50%;8), significas es un es

cenario

el cual la

técnica

de replicación pesimista es

usada,

sistema

con

réplicas. Las transacciones son interactivas y el

50%

de ellas

son

consultas y el nú

mero

total

clientes

sistema

son

Experimento: sea un experimento edefinido como e = ({pesimista; opti-

m/sta};{2;3;4};

/nteract/vas;{o%á99%};5).

Indicadores

Rendimiento

Tiempo de

respuesta

medio

por

transacciones confirmadas y el throughput.

proc(ú) Lacantidad de tiempo que demora odesde el momento en que o es solici

tada

por

el cliente, hasta el momento en que el cliente recibió el resultado de o.

net(o) Lacantidad de tiempo que demora o en el componente de Comunicación

(red)

desde

momento

que

o es solicitada

por

el cliente, hasta el

momento

que

el cliente recibió el resultado de o.

tota/(o) Lacantidad

tiempo

entre

momento

que

solicitada

por

el cliente,

hasta

momento

que

cliente

recibió

resultado

Este valor es igual a: proc(o) + net(ü).

Tiempo

respuesta

medio para las transacciones confirmadas

total(T)

total(o)

Sea

conjunto

que

contiene

todas

las

transacciones

confirmadas

en un

conjunto

corridas R.

indicador de rendimiento tiempo de

respuesta

medio para las

trans

acciones

confirmadas

define

como:

/jt

ntotal(T)

medio(R)

#Cr

Sea #transacciones{r) el

número

transacciones en una corrida r,

entonces:

throughput(r) =#transacdones{r) / media{r)

Sea Rel conjunto

corridas. media(R/c)

denota

tiempo

respuesta

medio para

las transacciones

consultas confirmadas en R.media(R/a) es el

tiempo

medio

respuesta

para

las

transacciones

actualización

confirmadas

med/a(R) =(med¡a(R/c)+media(R/a)) / n

c) Construcción del Front - End

Para

este

estudio

programó

una aplicación básica

que

permite

construir

esco

ger

escenario

aaplicar en

base

a: Tipo

Réplica, Número

réplicas. Tipo de

Transacción

(en

nuestro

caso no se consideran transacciones

solo lectura -read

only), el Porcentaje de Consultas (Queries), Número de clientes participantes, el Nú

mero

peticiones y el

número

de corridas de

prueba.

Lasiguiente figura

muestra

interfaz

la aplicación

desarrollada.

UNIVERSIDADTÉCNICA DE AMBATO/ INVESTIGACIÓNY DESARROLLO

Definícán

expeímento

escenarios

-la'xl

TipoTronsacaón

Elaboración

gráficas

según

los

resultados

obtenidos.

(Comparativa)

Tipo Réplica

(•

[Pesimiste^

C Optimista

Queries:

Itecdóíado:

pesimista,2,interactiva,50.1

Número

peticiones;

[50

Número

corridas:

¿enerar

borrar

a'parirr.ofit,-

¿allr

Distribución

frecuencias

tiempos

respuesta

para

la replicación pesimista

Distribución

frecuencias

tiempos

respuesta

para

la replicación

optimista

Tiempos

respuesta

medio

por

técnica

variando

porcentaje

consultas

350

300

250

200

150

100

350

300

250

200

150

100

N-Réplicas - -

Mr,o

rTros

(•

Dos

Cuatro

clientes

Interactiva

inidalizar

ejecución:

Fallos:

Hora

Inicio:

Hora

fin:

01:06:21

a.m.

|01

06:21

Tiempo de respuesta(8.

Transacciones

totales

10 15

Tiempo de respuesta(s)

Transacciones

totales

10 15

20 25

Tiempo de

respuestas)

20,00

18,00

116,00

14,00

12,00

10,00

8,00

6,00

4,00

2,00

0,00

UNIVERSIDADTÉCNICA DE AMBATO/ INVESTIGACIÓNYDESARROLLO

'pesimista

-optimista

Throughput

la replícactón

pesimista

variando

número

réplicas

60 70

100

consultas

-2

réplicas

-3

réplicas

Throughput

de la

replícación

optimista

variando

número

réplicas

Abortos

variando el

porcentaje

consulta

cliente

•2

clientes

consultas

100

Evolución

demora

procesamiento

Ü 18

Transacciones

solicitadas

clientes

UNIVERSIDADTÉCNICADEAMBATO/INVESTIGACIÓN

DESARROLLO

Throughput

función

del

número

clientes

Tiempos

respuesta

medio

por

técnica

variando

porcentaje

consultas

1600

1400

^ 1200

1000

¿•«800

600

•c

400

200

1 o

1 2 3

Número

clientes

consultas

CONCLUSIONES

• Larepiícación

instantáneas

es útil para suscriptores

que

solo requieren

datos

sólo

lectura.

Pero

adecuada

cuando

volumen

datos

enorme,

los

suscriptores

requieren

continuamente

datos

actualizados

necesitan

reali

zar

sus

propias

actualizaciones,

decir, el

rendimiento

decrece

medida

que

incrementa

volumen

peticiones.

•

número

de clientes en el escenario

propuesto,

determina

grado

de concu

rrencia,

considerando

que

las

transacciones

son

interactivas

producen

licitudes de

ejecución

cada

cierto

intervalo

tiempo,

que

afecta

throughput

del

sistema.

Mientras

más

clientes

participen

mayor

será

tiempo

demora.

Se aplica el criterio de señalización.

•

throughput

del sistema disminuye al

aumentar

número

de replicas partici

pantes, sin

embargo

se ve mejorada al utilizar la técnica de replicación optimista.

Se evita la propagación

la replicación a

través

una sola copia primaria.

• Alconfigurar

adecuadamente

los

catálogos

el rendimiento mejora significativa

mente.

BIBLIOGRAFIA

• [VandewaÍl2000]R.Vandewail, Database Replication Prototype, Department of

mathematics

Computer

Science University of Groningen, Groningen ,Nether-

lands

•[Jimenez200i]R. Jimenez-Peris, M. Patino-Martinez, G.Alonso, B.Kemme, How

Select aReplication Protocol According

Scalability, Availability

and

Com-

munication

Overhead,

2001

•[Patiño2002]M- Patiño-Martínez, R.JIménez-Peris, B.Kemme, G.Alonso: Scalable

'0%

consultas

50%

consultas

99%

consultas

-pesimista

'optimista

UNIVERSIDAD

TÉCNICA

AMBATO

/INVESTIGACIÓN Y

DESARROLLO

Replication in Database Cluster In:I4th International Symposium on Dístributed

Computing

(DISC),

Toledo,Spain,October 2002.

[Kerrime2000]B. Kemme, G.Alonso: Don't be lazy, be consistent: Postgres-R, A

new

way

implement Database Replication. In:26th International Conference

Very

Large Databases

(VLDB),

Cairo, Egypt, Septernber2000

[Pedone200o]M. Wiesmann, F. Pedone, A. Schiper, B. Kemme, C. Alonso: Un-

derstanding

Replication in Databases

and

Distributed Systems. In:20th Interna

tional Conference on Distributed Computing Systems

(ICDCS),

Taipei, Taiwan,

Republic of China, April 2000.

[Salasoó]

Jorge

Salas, Lightweight Reflection

for

Middieware-based Database

Replication, Universidad Politécnica de Madrid, 2006

[Coulouriso4]Coulouris George, DollimoreJean, and KindbergTím, Distributed

Systems Concepts and Design, Fourth ed., Addison Wesley,

USA,

2004

[Tanenbaumo8]Andrew S.Tanenbaum, and Maarten VanSteen, Sistemas distri

buidos. Principios y paradigmas, 2nd ed., Pearson Pretince Hall, Estado

Mé

xico, México,

2008

[Soujovoó] Sujoy Paúl, Pro

SQL

Server 2005 Replication, Apress, 2006

Otras

referencias

http://msdn.microsoft.com/es-es/librarv/msisnQ8.aspx

http://social.msdn.micro5oft.com/Forums/es-ES/sqlserveres/thread/csfbdbf8-

fs8b-4afe-bbad-8fQSse2f6s7Q

http://technet.microsoft.com/es-es/librarv/ms1s17qQ.aspx

http://support.microsoft.com/kb/i428oo/es

http://www.newsgrupos.com/microsoft-public-es-sqlserver/ss770Q-replicacion-

de-base-de-datos-sqi-200s-a.html