Educational Resources
Open Educational Resources?
Educational Resources
Open Educational Resources?
Hotspot für Openness in den Anwendungsdomänen Digital Humanities
Viele Fremd- und Fachwörter, für Personen, die aus den Geisteswissenschaften kommen vielleicht schwer zu verstehen
Digital Humanities,
Bei Geisteswissenschaften ist es Digital Humanities, bei Verwaltungswissenschaft Verwaltungswissenschaft
Beschreibung des Datenkompetenzzentrums QUADRIGA
Übergang deutlich machen. Erklären, dass QUADRIGA hinter den OERs steht
(Förderkennzeichen: 16DKZ2034A)
Warum ist das kleingedruckt?
7.4. QUADRIGA#
QUADRIGA lieber am Anfang vorstellen
Kontakt: Universität Potsdam Potsdam Graduate School QUADRIGA Datenkompetenzzentrum Am Kanal 47 14467 Potsdam Tel.: +49 331 977-4595 Fax: +49 331 977-4555 E-Mail: robin.moeser@uni-potsdam.de Impressum der Universität Potsdam
Das ist richtig so?
1h 15min
Wirklich?
In diesem Kapitel wurde durch eine quantitative Analyse von Worthäufigkeiten des semantischen Felds “Grippe” die Forschungsfrage untersucht,
Haben wir untersucht...
Inzwischen lassen sich zahlreiche weitere Beispiele finden, die zeigen, wie aufschlussreich n-Gramm-Analysen sein können. Betrachtet man etwa im englischen Google-Books-Korpus alle 2-Gramme, die mit dem Verb “to hate” (hassen) beginnen und mit einem Substantiv enden, so gehört 2-Gramme “hate war” (den Krieg hassen) zu den häufigsten Treffern. Auffällig sind dabei zwei sehr ausgeprägte Häufigkeitsspitzen, die zeitlich mit dem Ersten und dem Zweiten Weltkrieg zusammenfallen.
Spannend
dazu in der Lage sind, semantisch ähnliche Wörter zu erzeugen,
sehr gut semantisch ähnliche Wörter erzeugen
jedoch
Jedoch, aber usw. immer rausnehmen wenn geht
Die Grundlage unserer Analyse besteht darin, die Textstellen zu identifizieren
Die Analyse hat das Ziel Textstellen... Sehr komplizierter Satz gerade
n …
Welche Kapitel
untersucht
2 Mal untersucht hintereinander
In der Korpusanalyse kehren wir wieder zu unserer Fragestellung und auf die Operationalisierung der Fragestellung zurück. Unsere Fragestellung lautet:
Kehren wir zu unserer Fragestellung zurück, die lautet...
wir
Sie
kann
zu oft kann
Ihrer
zur, zu oft Ihrer
Diese
Die
Mit spaCy
Ich würde lieber von NLPs sprechen am Beispiel von spaCy
4.3. Resümee#
Wollt ihr nicht etwas dazu schreiben wie KI beim Code erstellen helfen kann und was zu beachten ist?
Im Folgenden wird exemplarisch der Roman “Feldblumen” von Adalbert Stifter (txt-Datei) mit der Bibliothek spaCy annotiert. Es werden folgendene Schritte durchgeführt:
ganz oft folgend
Dieses
Das
Korpusverarbeitung – Annotation mit spaCy
Warum nutzt ihr spaCy und nicht Stanza? Stanza ist deutlich stärker bei alten Sprachen https://stanfordnlp.github.io/stanza/ Reflektiert, was es für Alternativen gibt. Es gibt auf eine gute veröffentlichtung zu NLPs allgemein von Hiltmann et al https://arxiv.org/abs/2502.04351
können
Zu oft können Sie lernen...
Natural Language Processing
(NLP)
Lösungen
Finde ich super
folgenden
wieder folgend, das verfolgt mich ; )
Welche Aussagen beschreiben die verschiedenen Metadatenschemata korrekt?
Eine vierte Auswahl überlegen
Zu welchem Metadatenschema gehört das Element "teiHeader"?
Wird in der Frage eigentlich schon veraten
folgenden
wieder folgend
helfen Ihnen
unterstützen Sie dabei
Diese
Die
können
werden verschiedene Strategien... gewählt
Key points des Kapitels
Überlegt, ob ihr mit Anglizismen arbeiten möchtet
Resümee
Fazit
# --- Create Plotly figure ---
einheitlich auszeichnen, mit oder ohne ----
3.4.4. Option 1. ELTeC-DEU corpus#
Sehr schön visualisiert
e folgenden S
wieder etwas mit folgend
Im Folgenden
Es wird oft im Folgenden geschrieben
↓
Besseres Icon wählen
dies
das
Bereits in dieser Übersicht zeigt sich
Die Übersicht zeigt,
Dies
Das
– wie die Verteilung zeigt –
Gedankenstriche rausnehmen
vorgestellten
hier beschriebenen
CSV-Datei, bei der in der ersten Zeile ein Tabellenkopf steht, in den dann folgenden Zeilen jeweils zunächst eine durchzählende ID, dann ein Wort, gefolgt von weiteren linguistischen Informationen: der Grundform (“Lemma”) und der Wortart (“POS”, “Part of Speech”)
Hier sieht man auch schön, den Zusammenhang zwischen Text und Tabelle. Es lässt sich nicht immer so leicht trennen
Beispiel für eine XML-Kodierung nach TEI-Standard. Im Kopfbereich der Datei steht der <teiHeader> mit Metadaten, es folgt das <text>-Element, in dem der Text mit Strukturinformationen (z.B. <head> für Überschrift) gesoeichert wird
Mega!
Zudem ist die Erstellung in den entsprechende Editoren unterschiedlich, etwa des weit verbreiteten Oxygen XML Editors, Notepad++ oder Atom, was den Einstieg erschwert.
Sind die open-source? Oxygen zumindest nicht. Ein Hinweis dazu wäre vielleicht sinnvoll
Die Grippe wütet weiter Zunahme der schweren Fälle in Berlin. Die Zahl der Grippefälle ist in den letzten beiden Tagen auch in Groß-Berlin noch deutlich gestiegen. Die Warenhäuser und sonstigen Geschäfte, die Kriegs- und die privaten Betriebe klagen, dass übermäßig viele Angestellte krank melden müssen, und auch bei der Post und bei der Straßenbahn ist die Zahl der Grippekranken bedeutend gestiegen. Beispiel für Reinen Text ohne jede Formatierung, üblicherweise als TXT-Datei gespeichert
Sehr schön, gern mehr Beispiele einbauen
werden vier weit verbreitete Erscheinungsformen digitaler Texte vorgestellt:
stellen wir...
dabei jeweils
streichen
können
werden...
man
man ist kein schönes Wort
Korpus
Korpus ist synonym zu Textkorpus?
Datensammlungen
Was meint ihr mit Datensammlungen
Sammlungen von maschinenlesbaren Textdokumenten, die nach bestimmten Kriterien zusammengestellt wurden.
Deutlicher Machen. Korpora sind sehr grundlegend für das OER. Das sollte auf jeden Fall hängen bleiben
herauskristallisiert
richtiger Begriff? Vielleicht lieber entwickelt?
langfristigen Erhaltung der Daten
Warum ist das wichtig? Kurz erklären
Dies
Das, dies ist unsauber
– sowohl für das gesamte Korpus als auch für einzelne Elemente –
die Gedankenstriche geben ChatGPT-Vibes. Vielleicht lieber Kommas?
Ein beispielhaftes Metadaten-Set für ein Korpus könnte unter Verwendung von Dublin Core so aussehen:
Finde ich gut
Metadaten sind Daten über Daten.
Das ist sehr heruntergebrochen, vielleicht in einem Halbsatz erwähnen
Im zurückliegenden Kapitel haben wir die Forschungsfrage der vorliegenden Fallstudie expliziert und mithilfe von historischen Visualisierungen veranschaulicht. Um die Forschungsfrage für eine quantitativ-digitale Analyse adressierbar zu machen, haben wir eine Operationalisierung vorgenommen, durch die wir einen Messvorgang definieren können, der als Antwort für die Frage gelten kann. Im nächsten Kapitel werden wir nun unser Forschungskorpus aufbauen, auf dem wir den Messvorgang durchführen werden. { requestKernel: true, binderOptions: { repo: "binder-examples/jupyter-stacks-datascience", ref: "master", }, codeMirrorConfig: { theme: "abcdef", mode: "python" }, kernelOptions: { name: "python3", path: "./research_question" }, predefinedOutput: true } kernelName = 'python3'
Sehr schön mit dem "Wir"
Jede Operationalisierung bringt diskutable Einschränkungen mit sich. Die kritische Reflexion dieser Grenzen ist essentieller Bestandteil von Digital-Humanities-Projekten.
Vielleicht etwas dazu schreiben, dass auch traditionelle Methoden Einschränkungen mit sich bringen. Sonst bleibt hängen, dass DH super kritisch ist und der Rest nicht