martes, 13 de noviembre de 2007

Indexacion Arboles B Bases de Datos PHP

Existen dos tipos de almacenamiento:
  1. Memoria Principal (RAM)
    • Tiempo de acceso bajo
    • Capacidad de almacenamiento bajo
    • Es volatil
  1. Memoria Secundaria (HDD,DVD,..)
    • Tiempo de acceso elevado (movimiento del cabezal)
    • Capacidad de almacenamiento alto
    • No es volatil

La idea basica, es almacenar los datos en memoria secundaria, pero acceder directamente a ellos a traves de un indice que estara soportado por una estructura de datos, y no de forma secuencial.

El 80% del tiempo se pieder en el movimiento del cabezal. Se lee y se escribe Uble a Uble.

INDICE:
  • Estructura de acceso que se utiliza para acelerar el acceso a los registros; en respuesta a ciertas condiciones de busqueda.
  • Ordenacion virtual del fichero que permite encontrar la informacion mas facilmente

Tipos de indice
  • VECTORES
    • Ventajas: Acceso a memoria, busquedas binarioas o dicotomicas.
    • Inconvenientes: Limitacion de memoria, tamaño del vector (no son dinamicos), inserccion o borrado costosas
  • LISTAS ENLAZADAS
    • Ventajas: Acceso a memoria, no esta limitada de tamaño, actualizar una lista es menos costosa que un vector
    • Inconvenientes: Limitacion de la memoria, la busqueda de los indices es secuencial
  • ABB - BST (Arboles Binarios de Busqueda - Binary Search Tree)
    • Ventajas: Acceso a memoria, el tamaño no esta limitado, busqeudas binarias
    • Inconvenientes: Limitacion de la memoria, pueden degenerar en una lista (sumando asi los inconvenientes anteriores)
  • APE (Arboles Perfectamente Equilibrados)
    • Ventajas: Acceso a memoria, no tiene limitaciones de tamaño, busquedas binarias, no degeneran el una lista.
    • Desventajas: Operaciones de reequilibrio muy costosas, mantenimiento de la informacion de equilibrio constantemente
  • AVL
Casos de desequilibrio, rotaciones





El patron o esquema general para el restablecimiento del equilibrio es el siguiente :

ROTACIONES SIMPLES

(I-I)

(D-D)


ROTACIONES DOBLES

(D-I)

(I-D)


    • Ventajas: Acceso a Memoria, el tamaño del arbol no esta limitado, busquedas dicotomicas, actualizar este arbol es menos costoso, no degeneran en una lista, rotaciones menos costosas que el reequiibrio de APE
    • Inconvenientes: Limitacion de la memoria, las rotaciones siguen siendo costosas, mantenimiento del factor de reequilibrio

A viendo visto todas estas estructuras de datos, pasaremos a estudiar los arboles B, indicando su ventajas mas importantes respecto a las estructuras anteriores.

ARBOLES B


Caracteristicas :
  • Multicamino
  • De busqueda (esta rodenado)
  • Todas las hojas estan a la misma altura
  • Crece hacia arriba, no necesita rotaciones
Su factor de ocupacion
  • MINIMO= 50% , todos los nodos contienen n claves
  • MAXIMO= 100%, todos los nodos contienen 2n claves .

lunes, 5 de noviembre de 2007

Algoritmo de compresion HUFFMAN php

::link1:: Huffman Wikipedia(En)
::link2:: Informacion detallada del algoritmo


La idea que subyace detras del algoritmo es sencilla, primero se crea una tabla con las frecuencias para cada simbolo, se ordena segun su probabilidad, y luego se crea un arbol binario uniendo los nodos desde el primer lugar de a dos, sumergiendo asi los nodos con menos probabilidad de salir en el fondo del arbol, y dejando los nodos con mayor probabilidad en las ramas mas cercanas al nodo central.
Esta compresión sólo será óptima si las probabilidades de todos los símbolos de entrada son potencias enteras de 1/2. Y el peor de todos los casos se presentará cuando alguno de los símbolos posean una probabilidad cercana al 100%.
  • Texto a comprimir = "pinocho se comio un bizcocho"
  • Grafico de barras de Frecuencias

  • Tabla de texto de frecuencias

  • Reordenar la tabla en sentido ascendente

z(0.0357)u(0.0357)s(0.0357)p(0.0357)m(0.0357)e(0.0357)b(0.0357)
n(0.0714)h(0.0714)
i(0.1071)
c(0.1429)(0.1429)
o(0.2143)

  • Ahora iremos uniendo cada dos elementos (empezando por los que tengan probabilidad mas baja de salir) y crearemos un nodo hijo en el lugar que acupaban estos; asi hasta que quede un lugar, este sera el nodo padre. Observamos que los nodos con menor probabilidad quedaran al final del arbol y los de mayor en las ramas cercanas a la raiz, esto implica que cuanto mas probabilidad de salir tenga un nodo, menor numero de bits le asignara el codigo, y cuanto menos probabilidad, mayor numero de bits; aqui reside la potencia de este algoritmo.
  • Para obtener la tabla codificadora de cada elemento, realizaremos una busqueda en preorden por los nodos del arbol, asignando un "1" si bajamos por los hijos izquierdos o un "0" si bajamos por los hijos derechos.

Implementacion en PHP:










Una posible ejecucion del codigo seria:




viernes, 2 de noviembre de 2007

Polinomios interpoladores y el esquema de Shamir




La interpolacion polinómica se utiliza, entre otras cosas, para la aproximacion de funciones, pero existe otra aplicacion para criptografia, entre otras, para compartir secretos, en este articulo se detalla el algoritmo que define "el esquema de Shamir" y se brinda el codigo escrito para PHP .

-