Monday, November 17, 2008

Aufgabenblatt 2

1.
a)

- Kfz-Kennzeichen
- Steuer-Identifikationsnummer / social security number
- MAC-Adresse
- Personalausweisnummer
- PURL
- NBN (national bibliography number)
- ISSN (International Standard Serial Number)
- Das info-scheme wurde von der Library of Congress eingeführt um Publikationen etc. zu identifizieren. 'The most pressing need was to find a way to use URIs to reference information assets that have identifiers in public namespaces but had no representation within the URI allocation – for example, LCCNs.'
http://www.loc.gov/standards/uri/info.html
- RFC3966 - The tel URI for Telephone Numbers
http://www.faqs.org/rfcs/rfc3966.html
- RFC1521 - MIME (Multipurpose Internet Mail Extensions)
http://www.faqs.org/rfcs/rfc1521.html
- LDIF
http://en.wikipedia.org/wiki/LDAP_Data_Interchange_Format

b)
identification = continent“.“country“.“address“.“name
address = city“_“zip“_“street“_“number
name = firstNames“_“lastName

Probleme:
- Unterschiedliche Adressschemata in unterschiedlichen Ländern
- Der Fall, dass eine Adresse auf zwei oder mehr Personen mit gleichem Namen zutreffen könnte, kann stets auftauchen, da kein weltweites Identifikationsnummernsystem für Personen existiert. Namen sind nicht eindeutig. Ausweis- und Sozialversicherungsnummern sind nicht international standardisiert.

Fazit: Realisierung nur begrenzt möglich und unter starken Annahmen bezüglich der Einzigartigkeit.

c)
http://identification (1.b))

d)
URI- Dubletten:
Hashtabelleneintragsvergleiche können aufgrund Speicherbeschränkungen nicht endlos durchgeführt werden.


Webseitendubletten:
Der Inhalt muss jeweils komplett gelesen und dann mit jedem bereits besuchten Dokument verglichen werden, was wiederum Unmengen an Zeit- und Speicherverbrauch mit sich zieht, da jedes Dokument komplett heruntergeladen und gespeichert werden muss.

Um festzustellen, dass zwei Dokumente identischen Inhalts sind, müssen sie erst komplett heruntergeladen werden und komplett 'gecrawlt' werden. Dann ist est für Optimierung schon zu spät.

2.
a)

http://myhpi.de/~martin.konarski/hcard.html

b)

http://maps.google.com/maps?q=http%3A//suda.co.uk/projects/microformats/geo/get-geo.php%3Ftype%3Dkml%26uri%3Dhttp%253A//myhpi.de/%257Emartin.konarski/hcard.html

3.
a)

Das Wurzelelement dieser DTD ist "kochbuch", welches mindestens aus einem "rezept" besteht. Ein "rezept" wiederum kann genau einen "rezepttyp" und genua einen "titel" besitzen, muss aber zumindest eine "zutat" und einen "arbeitsschritt" haben. "titel", "zutat" und "arbeitsschritt" besitzen vom Parser betrachtete Zeichenketten, während der "rezepttyp" keinerlei Zeichenketten beinhaltet und daher ein leeres Element ist. Ein "arbeitsschritt" besitzt zwingend eine "nummer", die durch eine Zeichenkette repräsentiert wird. Ein "rezepttyp" besitzt zwingend zwingend einen "namen", welches ebenfalls durch eine einfache Zeichenkette repräsentiert ist.

b)
Die XML-Datei ist nicht konform, da die in dem Element "rezept" angegebene Reihenfolge in der Liste der Unterelement nicht eingehalten wurde. In der DTD steht "zutat" vor "arbeitsschritt" in der Liste, während im XML zuerst der "arbeitsschritt" "Chillis zugeben" vor den einzelnen "zutaten" auftaucht. Ansonsten ist die XML-Datei zur DTD konform, da sämtliche Besonderheiten (Häufigkeiten der Elemente, leeres Element, Zwangsangabe eines Attributs) eingehalten wurden.

4.
a)

In welchem Film aus den siebziger Jahren stirbt der Protagonist ohne Vornamen am Ende in einem weißen Auto?

Vanishing Point -> http://www.youtube.com/watch?v=ySfbocEAmcs

Welches Nagetier kann länger als ein Kamel ohne Wasser auskommen?

Ratte -> http://www.nickfessler.com/Wisdom/32_Unknown_Facts.html

Zwischen welchen beiden Internetkritikern von Unterhaltungsmedien vergangener Tage brach im April 2008 eine 'Beschimpfungsfehde' aus?

Angry Video Game Nerd & Nostalgia Critic -> http://www.cinemassacre.com/new/?p=252

b)

http://myhpi.de/~martin.konarski/crawler.jar

No comments: