#CorpusExplorer
Explore tagged Tumblr posts
notesjor · 4 years ago
Text
CorpusExplorer (Update Q1 2021)
Es ist wieder soweit: #CorpusExplorer #ReleaseWeek fĂŒr Q1 2021 - Neue spannende Funktionen. Infos zum Release hier. Pro Tag ein Tweet ĂŒber die neuen Funktionen.
Vielleicht irre ich mich – aber ich glaube, in 2021 werden einige große Dinge mit dem CorpusExplorer passieren. Zumindest haben sich viele Funktionen angesammelt, die darauf warten veröffentlicht zu werden. Also starten wir mir den Änderungen fĂŒr Q1 2021: DPXC-Editor “Der DPXC-Editor ist tot, lang lebe der DPXC-Editor”. Der DPXC-Editor ist ein Add-on, dass das Sammeln von Korpora per Copy&Paste

Tumblr media
View On WordPress
0 notes
linguistlist-blog · 2 years ago
Text
Large corpus of German YouTube language now available
Dear Linguist-Listers, The Nottingham Corpus of German YouTube Language (Nottinghamer Korpus Deutscher YouTube-Sprache or NottDeuYTSch) is now available for analysis in a variety of formats, including tsv, R object, JSON, SketchEngine and CorpusExplorer. https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-4806 The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, Germa http://dlvr.it/SqMPpk
0 notes
notesjor · 6 years ago
Text
Vortrag am 25.11.2019: "Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer" im Rahmen des "Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten" an der BBAW
Vortrag am 25.11.2019: “Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer” im Rahmen des “Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten” an der BBAW
Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestĂŒtzte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv fĂŒr die Forschung zu greifen, zu ĂŒberprĂŒfen oder zu durchleuchten.

View On WordPress
0 notes
notesjor · 6 years ago
Text
Vortrag am 19.11.2019: "Was heißt und zu welchem Ende studiert man Korpuslinguistik?" im Rahmen der "Ringvorlesung: Sprache und Kommunikation" an der UniversitĂ€t Siegen
Vortrag am 19.11.2019: “Was heißt und zu welchem Ende studiert man Korpuslinguistik?” im Rahmen der “Ringvorlesung: Sprache und Kommunikation” an der UniversitĂ€t Siegen
In dieser Ringvorlesung haben Sie die Möglichkeit, zahlreiche DozentInnen aus der Anglistik, der Germanistik und der Romanistik kennenzulernen. Sie werden Ihnen zentrale Bereiche aus der Linguistik und der Sprachlehr-/lernforschung vorstellen. Eine Liste der DozentInnen und Themen sehen Sie unten.. Das Material zur Ringvorlesung finden Sie auf der Lernplattform Moodle (http://moodle.uni-siegen.de
View On WordPress
0 notes
notesjor · 6 years ago
Text
CorpusExplorer (Update Q3 2019)
CorpusExplorer (Update Q3 2019)
Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:
Neue Funktionen:
Neue Formate:
FoLiA XML
RSS Feeds
Speedy (Import/Export) – Danke an/Thanks to: Iian Neill & Andreas Kuczera
YouTube JSON
Wiktionary
Redewiedergabe – http://www.redewiedergabe.de/korpus.html
QuickMode – UrsprĂŒnglich war der QuickMode nur fĂŒr Entwickler*innen gedacht. Deren Programme konnte so

View On WordPress
0 notes
notesjor · 6 years ago
Text
Es ist soweit – ein großes Update wartet auf alle Nutzer*innen des CorpusExplorers.
Hier eine Zusammenfassung der Neuerungen/Verbesserungen:
Eine persönliche Angelegenheit zuerst: Seit mehreren Versionen unterstĂŒtzen mich viele Nutzer*innen bei der Entwicklung, indem Sie der Übermittlung anonymisierter Telemetrie-Daten zustimmen. Euch allen vielen Dank. Meine Erfahrungen die ich dadurch sammeln konnte, sind unersetzlich. Mich störte aber (A) das diese Daten an Dritte (Microsoft Azure) gehen – und – (B) das eigentlich mehr Daten gesammelt werden, als nötig (ich hatte das schon so restriktiv eingestellt wie möglich, aber Azure Application Insights ist sehr sammelfreudig). Als Verfechter von Datensparsamkeit habe ich jetzt eine eigenen Lösung gebaut – der Quellcode fĂŒr den Server (der die Daten sammelt) findet ihr auf GitHub (https://github.com/notesjor/OpenSourceTelemetrie). Der CorpusExplorer nutzt jetzt also eine eigenen, OpenSource Infrastruktur, die außerdem sehr datensparsam ist. Es werden z. B. keine IP-Adresse mehr protokolliert.
Die neue Startseite / die neue Korpus Übersicht FĂŒr etwas mehr Komfort sorgen die neue Startseite und die neue “Korpus Übersicht”. Auf der Startseite gibt es jetzt die Sektion “Aktuelles und Neuigkeiten” (vielleicht etwas doppelt gemoppelt). In diesem Bereich werden aktuell Meldungen zum CorpusExplorer angezeigt (ein per RSS synchronisierter Newsfeed). Dies Betrifft sowohl Programm-Updates als auch z. B. Workshops (Wer eigenen Workshops bewerben will, kann sich gerne melden – Kontakt). Darunter ist die Sektion “VerfĂŒgbar Add-ons” zu finden. Hier werden alle offiziellen Add-ons des CorpusExplorers aufgelistet, die sich mit einem Klick installieren lassen (auch hier: wer eigene Entwicklung plant oder einstellen möchte – gerne melden). Auf der “Korpus Übersicht” findet sich eine Sektion “Frei verfĂŒgbare Korpora” – Auch diese lassen sich mit einem Klick installieren/abonnieren.
Neue Startseite: Aktuelle Meldungen zum CorpusExplorer und direkt installierbare Add-ons.
Neue Korpus Übersicht: Frei verfĂŒgbare Korpora jetzt direkt installieren. Über 2,4 Mrd. Token.
Neue Dateiformate:
UnterstĂŒtzung fĂŒr TEI-XML P5 des CALÂČ-Projekts
UnterstĂŒtzung fĂŒr OffeneGesetze.de
Export fĂŒr das SQLite basierte Format von coquery.org (aktuell BETA) – setzt eine Installation des SQLite-Addons voraus.
Verbesserungen:
Cut-Off-Phrasen sind jetzt strenger (auf Begriff (A) muss Begriff (B) folgen). Die Spanne zwischen den Begriffe A+B wird jetzt ausgegeben und erlaubt ein nachtrÀgliches Filtern.
Korrekturen:
Verbesserung des CEC6-Stream
Die RegEx-Suche in Tabellen wurde verbessert (Spalten wurden nicht korrekt angezeigt, Fehlermeldungen [Easteregg] wurde entfernt).
Schnappschuss Refresh wurde verbessert.
CorpusExplorer (Update Q1 2019) - Neu: Direkt installierbare Korpora/Add-ons. OpenSource Telemetrie. uvm. Es ist soweit - ein großes Update wartet auf alle Nutzer*innen des CorpusExplorers. Hier eine Zusammenfassung der Neuerungen/Verbesserungen:
0 notes
notesjor · 6 years ago
Text
CorpusExplorer (XMAS Update Dez/Jan 2018/19)
CorpusExplorer (XMAS Update Dez/Jan 2018/19)
Erstmal wĂŒnsche ich allen Nutzer*innen des CorpusExplorers frohe Feiertage und einen guten Rutsch ins Jahr 2019. Die letzten Tage des Jahres nutze ich, um ein paar Dinge im CorpusExplorer zu verbessert. Folgendes hat sich getan:
Übersichtsanzeige wurde verbessert. Bisher wurden die Token (z. B. auf den Übersichtsseiten zu Korpora und SchnappschĂŒssen) immer in Mio. angegeben. Dies fĂŒhrte in

View On WordPress
0 notes
notesjor · 7 years ago
Text
CorpusExplorer (Update Juni/Juli 2018) - Sentiment-Detection, Layer wÀhlbar, verbesserte Analysen
#CorpusExplorer (Update Juni/Juli 2018): #SentimentDetection, #ChangeLayer, #KWIC, #Keyword, #LeftRightFrequency
Das Update fĂŒr Juni/Juli 2018 bringt folgende Neuerungen und Verbesserungen mit sich:
Sentiment-Detection: Unter den Spezialfunktionen gibt es jetzt das neue Analysemodul “Sentiment Detection”. Damit lassen sich vordefinierte SD-WörterbĂŒcher auf ein(en) Korpus/Schnappschuss anwenden. Eine Besonderheit: Wenn Sie die Analyse starten, können Sie entweder aus einem vorgefertigten Modell wĂ€hlen,

View On WordPress
0 notes
notesjor · 7 years ago
Text
CorpusExplorer (Update Mai 2018)
#CorpusExplorer Update #Mai2018 - Import von #BundestagOpenAccess #WortschatzLeipzig - CloneDetection auf Basis von CTPH - Neue Filter
Folgende Funktionen wurden in der Mai 2018-Version des CorpusExplorers hinzugefĂŒgt/verbesser:
Neue annotierbare Dateiformate:
Deutscher Bundestag Plenarprotokolle OpenAccess
Deutscher Bundestag Drucksachen OpenAccess
Deutscher Wortschatz UniversitÀt Leipzig
Neue Clone-Detection: Mittels Clone-Detection können Text-Dubletten erkannt und aus einem Korpus entfernt werden. Bisher gab es nur zwei

View On WordPress
0 notes
notesjor · 7 years ago
Text
CorpusExplorer (Update April 2018) – schneller, exportfreudiger & neue Sprachmodelle
CorpusExplorer (Update April 2018) – schneller, exportfreudiger & neue Tagger/Sprachmodelle
Auch wenn erst Ende MĂ€rz ist, so ist das April Update bereits fertig.
Neue Funktionen / Verbesserungen:
UDPipe – Teil 1: Der CorpusExplorer kann ab jetzt eine bestehende UDPipe inkl. Universal Dependencies Sprachmodelle ansprechen (Herstellerwebseite). UDPipe muss zuvor installiert und die UD-Sprachmodelle mĂŒssen im selben Verzeichnis liegen wie die “udpipe.exe”.
UDPipe – Teil 2:FĂŒr alle, denen

View On WordPress
0 notes
notesjor · 8 years ago
Text
CorpusExplorer (Dezember Update 2017) - Erster Erfolg durch Telemetrie
CorpusExplorer #Update 2017-12 Erster Erfolg durch #Telemetrie
Eigentlich war fĂŒr 2017 kein weiteres Update nach November geplant. Mit dem November Update wurde die neue Telemetrie-Funktion des CorpusExplorers aktiviert. Damit lassen sich Fehler und Performance auf den Rechnern der Nutzer*innen anonym in Echtzeit ermitteln (mehr Details dazu – finden Sie hier). Dabei viel auf, dass einige der Nutzer*innen noch sehr alte Korpusdateien einsetzen (Version 5 und

View On WordPress
0 notes
notesjor · 8 years ago
Text
Lange habe ich nach einer Lösung gesucht, wie man Karten einfach und effizient im CorpusExplorer integrieren kann. Sowohl kommerzielle als auch OpenSource Lösungen wurden geprĂŒft – von klassischen WinForm- und WPF-Lösungen bis hin zu HTML5/JS. Zwei Dinge störten mich am meisten:
Entweder sind zu viele Funktionen vorhanden (was braucht man fĂŒr eine linguistische Visualisierung eine Routenplanung? oder eine Abfrage welche Restaurants in der NĂ€he sind?) oder es sind zu wenige/nicht die nötigen Funktionen enthalten.
Karten sind schön, aber sie mĂŒssen auch zweckmĂ€ĂŸig sein. FĂŒr diese erste Kartenversion wollte ich die LĂ€ndern unterschiedlich einfĂ€rben. Wenn man aber z. B. auf eine normale Karte zurĂŒckgreift und ein großes Land wie Russland einfĂ€rbt, dann verschwimmt die Wahrnehmung von kleineren/benachtbarten Staaten. Hier kam mir ein Tweet zur Hilfe – von Maarten Lambrechts. Er normierte alle LĂ€nder auf die gleiche GrĂ¶ĂŸe und ordnete sie auf einem Gitter/Schachbrett an. Diese Idee habe ich fĂŒr den CorpusExplorer implementiert (Quellcode hier) und veröffentlicht.
Hier die aktuelle selbst entwickelte Lösung in Bildern (weiteres im 2018):
Der CorpusExplorer erlaubt das einfache Zuordnen von unterschiedlichen LĂ€ndernamen/Schreibweisen zu einem ISO-Code.
Auch eine klassische Darstellung ist im CorpusExplorer möglich. Hier Auszug: Syrien-Zeitungskorpus. Bewegt man die Maus ĂŒber ein Land, erscheint die Frequenz und der ISO-Code des Landes.
Alle LĂ€nder in normierter GrĂ¶ĂŸe. Aktuell fehlen noch einige Kleinst- und Inselstaaten.
Ein zweiter kurzer Verweis auf Twitter: https://twitter.com/arche3000/status/928171160512221184 Dem kann nur zugestimmt werden – Karten gehören zu den klassischen Visualisierungen der Linguistik. Falls jemand eine wirklich gute Programm-Bibliothek/SDK/API/etc. fĂŒr linguistische Karten-Visualisierungen kennt 
 ich wĂŒrde mich sehr ĂŒber einen Hinweis freuen. Ebenso sind Ideen, Kritik oder Kooperation an/zu meiner Lösung erwĂŒnscht.
Neue #Map #Visualization im #CorpusExplorer NOV2017. Korpus laden, LÀnder zuordnen, Visualisierung bewundern :-) Lange habe ich nach einer Lösung gesucht, wie man Karten einfach und effizient im CorpusExplorer integrieren kann.
0 notes
notesjor · 8 years ago
Text
CorpusExplorer (August Update 2017)
CorpusExplorer Update 2017.08 - #Elasticsearch #R #Console
Das August-Update bringt nicht nur kleine Verbesserungen sondern auch drei große Neuerungen mit sich.
1. Öffnung der Konfigurations-Schnittstelle / Abschaltung der Advanced/PC-Poolraum Edition
Bisher gab es drei Versionen fĂŒr den CorpusExplorer – ZukĂŒnftig nur noch eine einheitliche Version. Folgende Installationspakete werden Anfang 2018 abgeschaltet. Nutzer*innen werden darĂŒber bei jedem

View On WordPress
0 notes
notesjor · 8 years ago
Text
Problem: Der CorpusExplorer zeigt keine Daten/Tabellen mehr an...
Problem&Lösung: Der CorpusExplorer zeigt keine Daten/Tabellen mehr an...
Bei einigen Nutzer*innen kann es vorkommen, dass urplötzlich keine Daten oder Tabellen im CorpusExplorer angezeigt werden. Das Problem liegt an der neuen DPI-Skalierungsfunktion von Windows. Diese neue Funktion wird durch das Windows-Update automatisch auf jedem Windows 10 Rechner installiert und tritt auch nur auf, wenn die Skalierung ungleich 100% betrÀgt (z. B. bei hochauflösenden Displays).
A

View On WordPress
0 notes
notesjor · 8 years ago
Photo
Tumblr media
CorpusExplorer (April Update 2017) - Fehler: Die Anwendung kann nicht gestartet werden. Wenn Sie die folgende Fehlermeldung erhalten, mĂŒssen Sie den CorpusExplorer ĂŒber die Systemsteuerung zuerst deinstallieren und dann erneut installieren.
0 notes
notesjor · 8 years ago
Text
CorpusExplorer v2.0 – Januar 2017 Update
CorpusExplorer v2.0 – Januar 2017 Update
Das erste Update 2017 bringt hauptsĂ€chlich Neuerungen ‘unter der Haube’ – es ist also eher funktional. DafĂŒr bereitet es den Weg fĂŒr neue Analysemöglichkeiten, die 2017 folgen werden. Die wichtigste Hauptfunktion ist das komplett neu entwickelte Dateiformat CEC6 (CorpusExplorerCorpus v6.0). Es hat gegenĂŒber der Version 5.0 folgende Vorteile:
Höhere Performance bei einigen Analysen.
Wesentlich

View On WordPress
0 notes