[Date Prev][Date Next][Date Index]

TALK REMINDER - TODAY 17:00 s.t. -- F.Weigel





ORT: Seminarraum 184/2

BEGINN: 13.12.2004 17:00 s.t.

VORTRAGENDER: Felix Weigel, LMU Muenchen


TITEL:

Felix Weigel, Klaus U. Schulz, Holger Meuss:
"Effizientes XML-Retrieval mit Knotenidentifikationsschemata"


ABSTRACT:

In digitalen Bibliotheken, Intranets und auch im Web finden sich immer mehr und immer größere persistente XML-Datenbestände, oft bereits im Gigabyte-Bereich. Als Beispiele seien Literaturdatenbanken, elektronische Lexika, technische Dokumentationen, annotierte linguistische Corpora und Sammlungen medizinischer, geographischer oder astronomischer Daten genannt. Spezielle Indexverfahren für XML-Baumanfragen unterstützen die effiziente Suche nach Struktur und Text in diesen Ressourcen. Jüngere Ansätze verwenden jedoch zusätzlich bestimmte Identifikatoren (IDs) für XML-Elemente, mit deren Hilfe sich die Baumrelationen in der Anfrage höchst effizient entscheiden lassen. Die aus der Literatur bekannten ID-Schemata unterscheiden sich hinsichtlich ihres Platzbedarfs (ID-Größe) und Zeitbedarfs (Entscheidungsaufwand), aber auch hinsichtlich ihrer Expressivität (Menge der entscheidbare Relationen). Mitunter lassen sich sogar Teile der Nachbarschaft eines Knotens (z. B. seine Vorfahren oder Geschwister) allein aus der Knoten-ID rekonstruieren.

Der Vortrag gibt einen kurzen Überblick über die aktuelle Forschung zu ID-Schemata und stellt einen neuen Ansatz vor, der unter dem Namen BIRD an der LMU München entwickelt worden ist und in Kombination mit verschiedenen Indexstrukturen eingesetzt werden kann. Es wird gezeigt, daß das BIRD-Schema ein Obermenge der Extended XPath Axes entscheiden und viele Relationen rekonstruieren kann. Im experimentellen Vergleich mit anderen Schemata belegt BIRD Spitzenplätze in puncto Zeiteffizienz bei gleichzeitiger moderater ID-Größe und nimmt somit eine interessante Stellung im Trade-off zwischen Expressivität, Platz- und Zeitbedarf ein. Offen ist bisher, inwieweit das Schema von bestimmten Eigenschaften der Indexstruktur abhängig ist oder für Optimierungen profitieren kann.