Computer Science: noviembre 2007

martes, 13 de noviembre de 2007

Indexacion Arboles B Bases de Datos PHP

Etiquetas: algoritmo, arboles, arboles b, bases de datos, binarios, busqueda, estructuras de datos, listas, recursividad

Existen dos tipos de almacenamiento:

Memoria Principal (RAM)

Tiempo de acceso bajo

Capacidad de almacenamiento bajo

Es volatil

Memoria Secundaria (HDD,DVD,..)

Tiempo de acceso elevado (movimiento del cabezal)
Capacidad de almacenamiento alto
No es volatil

La idea basica, es almacenar los datos en memoria secundaria, pero acceder directamente a ellos a traves de un indice que estara soportado por una estructura de datos, y no de forma secuencial.

El 80% del tiempo se pieder en el movimiento del cabezal. Se lee y se escribe Uble a Uble.

INDICE:

Estructura de acceso que se utiliza para acelerar el acceso a los registros; en respuesta a ciertas condiciones de busqueda.
Ordenacion virtual del fichero que permite encontrar la informacion mas facilmente

Tipos de indice

VECTORES

Ventajas: Acceso a memoria, busquedas binarioas o dicotomicas.
Inconvenientes: Limitacion de memoria, tamaño del vector (no son dinamicos), inserccion o borrado costosas

LISTAS ENLAZADAS

Ventajas: Acceso a memoria, no esta limitada de tamaño, actualizar una lista es menos costosa que un vector
Inconvenientes: Limitacion de la memoria, la busqueda de los indices es secuencial

ABB - BST (Arboles Binarios de Busqueda - Binary Search Tree)

Ventajas: Acceso a memoria, el tamaño no esta limitado, busqeudas binarias
Inconvenientes: Limitacion de la memoria, pueden degenerar en una lista (sumando asi los inconvenientes anteriores)

APE (Arboles Perfectamente Equilibrados)

Ventajas: Acceso a memoria, no tiene limitaciones de tamaño, busquedas binarias, no degeneran el una lista.
Desventajas: Operaciones de reequilibrio muy costosas, mantenimiento de la informacion de equilibrio constantemente

Casos de desequilibrio, rotaciones

El patron o esquema general para el restablecimiento del equilibrio es el siguiente :

ROTACIONES SIMPLES

(I-I)

(D-D)

ROTACIONES DOBLES

(D-I)

(I-D)

Ventajas: Acceso a Memoria, el tamaño del arbol no esta limitado, busquedas dicotomicas, actualizar este arbol es menos costoso, no degeneran en una lista, rotaciones menos costosas que el reequiibrio de APE
Inconvenientes: Limitacion de la memoria, las rotaciones siguen siendo costosas, mantenimiento del factor de reequilibrio

A viendo visto todas estas estructuras de datos, pasaremos a estudiar los arboles B, indicando su ventajas mas importantes respecto a las estructuras anteriores.

ARBOLES B

Caracteristicas :

Multicamino
De busqueda (esta rodenado)
Todas las hojas estan a la misma altura
Crece hacia arriba, no necesita rotaciones

Su factor de ocupacion

MINIMO= 50% , todos los nodos contienen n claves
MAXIMO= 100%, todos los nodos contienen 2n claves .

lunes, 5 de noviembre de 2007

Algoritmo de compresion HUFFMAN php

Etiquetas: estadistica, estructuras de datos

::link1:: Huffman Wikipedia(En)
::link2::

Informacion detallada del algoritmo

La idea que subyace detras del algoritmo es sencilla, primero se crea una tabla con las frecuencias para cada simbolo, se ordena segun su probabilidad, y luego se crea un arbol binario uniendo los nodos desde el primer lugar de a dos, sumergiendo asi los nodos con menos probabilidad de salir en el fondo del arbol, y dejando los nodos con mayor probabilidad en las ramas mas cercanas al nodo central.
Esta compresión sólo será óptima si las probabilidades de todos los símbolos de entrada son potencias enteras de 1/2. Y el peor de todos los casos se presentará cuando alguno de los símbolos posean una probabilidad cercana al 100%.

Texto a comprimir = "pinocho se comio un bizcocho"

Grafico de barras de Frecuencias

Tabla de texto de frecuencias

Reordenar la tabla en sentido ascendente

z(0.0357)u(0.0357)s(0.0357)p(0.0357)m(0.0357)e(0.0357)b(0.0357)
n(0.0714)h(0.0714)
i(0.1071)
c(0.1429)(0.1429)
o(0.2143)

Ahora iremos uniendo cada dos elementos (empezando por los que tengan probabilidad mas baja de salir) y crearemos un nodo hijo en el lugar que acupaban estos; asi hasta que quede un lugar, este sera el nodo padre. Observamos que los nodos con menor probabilidad quedaran al final del arbol y los de mayor en las ramas cercanas a la raiz, esto implica que cuanto mas probabilidad de salir tenga un nodo, menor numero de bits le asignara el codigo, y cuanto menos probabilidad, mayor numero de bits; aqui reside la potencia de este algoritmo.

Para obtener la tabla codificadora de cada elemento, realizaremos una busqueda en preorden por los nodos del arbol, asignando un "1" si bajamos por los hijos izquierdos o un "0" si bajamos por los hijos derechos.

Implementacion en PHP:

Descargar Codigo Fuente / Download Source Code

Una posible ejecucion del codigo seria:

Descargar Codigo Fuente / Download Source Code

viernes, 2 de noviembre de 2007

Polinomios interpoladores y el esquema de Shamir

Etiquetas: calculo, criptografia, interpolacion polinomica

Descargar el archivo completo: Polinomios Interpoladores y el esquema de Shamir

La interpolacion polinómica se utiliza, entre otras cosas, para la aproximacion de funciones, pero existe otra aplicacion para criptografia, entre otras, para compartir secretos, en este articulo se detalla el algoritmo que define "el esquema de Shamir" y se brinda el codigo escrito para PHP .

-