#CorpusExplorer
Explore tagged Tumblr posts
Text
CorpusExplorer (Update Q1 2021)
Es ist wieder soweit: #CorpusExplorer #ReleaseWeek fĂŒr Q1 2021 - Neue spannende Funktionen. Infos zum Release hier. Pro Tag ein Tweet ĂŒber die neuen Funktionen.
Vielleicht irre ich mich â aber ich glaube, in 2021 werden einige groĂe Dinge mit dem CorpusExplorer passieren. Zumindest haben sich viele Funktionen angesammelt, die darauf warten veröffentlicht zu werden. Also starten wir mir den Ănderungen fĂŒr Q1 2021: DPXC-Editor âDer DPXC-Editor ist tot, lang lebe der DPXC-Editorâ. Der DPXC-Editor ist ein Add-on, dass das Sammeln von Korpora per Copy&PasteâŠ
View On WordPress
0 notes
Text
Large corpus of German YouTube language now available
Dear Linguist-Listers, The Nottingham Corpus of German YouTube Language (Nottinghamer Korpus Deutscher YouTube-Sprache or NottDeuYTSch) is now available for analysis in a variety of formats, including tsv, R object, JSON, SketchEngine and CorpusExplorer. https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-4806 The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, Germa http://dlvr.it/SqMPpk
0 notes
Text
Vortrag am 25.11.2019: "Erstellen und ErschlieĂen von Korpusdaten mittels CorpusExplorer" im Rahmen des "Digillu-Workshop: Zusammenstellung und ErschlieĂung von Korpusdaten" an der BBAW
Vortrag am 25.11.2019: âErstellen und ErschlieĂen von Korpusdaten mittels CorpusExplorerâ im Rahmen des âDigillu-Workshop: Zusammenstellung und ErschlieĂung von Korpusdatenâ an der BBAW
Methoden zur Zusammenstellung und ErschlieĂung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestĂŒtzte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv fĂŒr die Forschung zu greifen, zu ĂŒberprĂŒfen oder zu durchleuchten.âŠ
View On WordPress
0 notes
Text
Vortrag am 19.11.2019: "Was heiĂt und zu welchem Ende studiert man Korpuslinguistik?" im Rahmen der "Ringvorlesung: Sprache und Kommunikation" an der UniversitĂ€t Siegen
Vortrag am 19.11.2019: âWas heiĂt und zu welchem Ende studiert man Korpuslinguistik?â im Rahmen der âRingvorlesung: Sprache und Kommunikationâ an der UniversitĂ€t Siegen
In dieser Ringvorlesung haben Sie die Möglichkeit, zahlreiche DozentInnen aus der Anglistik, der Germanistik und der Romanistik kennenzulernen. Sie werden Ihnen zentrale Bereiche aus der Linguistik und der Sprachlehr-/lernforschung vorstellen. Eine Liste der DozentInnen und Themen sehen Sie unten.. Das Material zur Ringvorlesung finden Sie auf der Lernplattform Moodle (http://moodle.uni-siegen.de
View On WordPress
0 notes
Text
CorpusExplorer (Update Q3 2019)
CorpusExplorer (Update Q3Â 2019)
Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:
Neue Funktionen:
Neue Formate:
FoLiA XML
RSS Feeds
Speedy (Import/Export) â Danke an/Thanks to: Iian Neill & Andreas Kuczera
YouTube JSON
Wiktionary
Redewiedergabe â http://www.redewiedergabe.de/korpus.html
QuickMode â UrsprĂŒnglich war der QuickMode nur fĂŒr Entwickler*innen gedacht. Deren Programme konnte soâŠ
View On WordPress
#2019#CEC#CorpusExplorer#FoLiA#HighDPI#Q3#QuickMode#Redewiedergabe#RSS#Speedy#Update#Wiktionary#YouTube
0 notes
Text
Es ist soweit â ein groĂes Update wartet auf alle Nutzer*innen des CorpusExplorers.
Hier eine Zusammenfassung der Neuerungen/Verbesserungen:
Eine persönliche Angelegenheit zuerst: Seit mehreren Versionen unterstĂŒtzen mich viele Nutzer*innen bei der Entwicklung, indem Sie der Ăbermittlung anonymisierter Telemetrie-Daten zustimmen. Euch allen vielen Dank. Meine Erfahrungen die ich dadurch sammeln konnte, sind unersetzlich. Mich störte aber (A) das diese Daten an Dritte (Microsoft Azure) gehen â und â (B) das eigentlich mehr Daten gesammelt werden, als nötig (ich hatte das schon so restriktiv eingestellt wie möglich, aber Azure Application Insights ist sehr sammelfreudig). Als Verfechter von Datensparsamkeit habe ich jetzt eine eigenen Lösung gebaut â der Quellcode fĂŒr den Server (der die Daten sammelt) findet ihr auf GitHub (https://github.com/notesjor/OpenSourceTelemetrie). Der CorpusExplorer nutzt jetzt also eine eigenen, OpenSource Infrastruktur, die auĂerdem sehr datensparsam ist. Es werden z. B. keine IP-Adresse mehr protokolliert.
Die neue Startseite / die neue Korpus Ăbersicht FĂŒr etwas mehr Komfort sorgen die neue Startseite und die neue âKorpus Ăbersichtâ. Auf der Startseite gibt es jetzt die Sektion âAktuelles und Neuigkeitenâ (vielleicht etwas doppelt gemoppelt). In diesem Bereich werden aktuell Meldungen zum CorpusExplorer angezeigt (ein per RSS synchronisierter Newsfeed). Dies Betrifft sowohl Programm-Updates als auch z. B. Workshops (Wer eigenen Workshops bewerben will, kann sich gerne melden â Kontakt). Darunter ist die Sektion âVerfĂŒgbar Add-onsâ zu finden. Hier werden alle offiziellen Add-ons des CorpusExplorers aufgelistet, die sich mit einem Klick installieren lassen (auch hier: wer eigene Entwicklung plant oder einstellen möchte â gerne melden). Auf der âKorpus Ăbersichtâ findet sich eine Sektion âFrei verfĂŒgbare Korporaâ â Auch diese lassen sich mit einem Klick installieren/abonnieren.
Neue Startseite: Aktuelle Meldungen zum CorpusExplorer und direkt installierbare Add-ons.
Neue Korpus Ăbersicht: Frei verfĂŒgbare Korpora jetzt direkt installieren. Ăber 2,4 Mrd. Token.
Neue Dateiformate:
UnterstĂŒtzung fĂŒr TEI-XML P5 des CALÂČ-Projekts
UnterstĂŒtzung fĂŒr OffeneGesetze.de
Export fĂŒr das SQLite basierte Format von coquery.org (aktuell BETA) â setzt eine Installation des SQLite-Addons voraus.
Verbesserungen:
Cut-Off-Phrasen sind jetzt strenger (auf Begriff (A) muss Begriff (B) folgen). Die Spanne zwischen den Begriffe A+B wird jetzt ausgegeben und erlaubt ein nachtrÀgliches Filtern.
Korrekturen:
Verbesserung des CEC6-Stream
Die RegEx-Suche in Tabellen wurde verbessert (Spalten wurden nicht korrekt angezeigt, Fehlermeldungen [Easteregg] wurde entfernt).
Schnappschuss Refresh wurde verbessert.
CorpusExplorer (Update Q1 2019) - Neu: Direkt installierbare Korpora/Add-ons. OpenSource Telemetrie. uvm. Es ist soweit - ein groĂes Update wartet auf alle Nutzer*innen des CorpusExplorers. Hier eine Zusammenfassung der Neuerungen/Verbesserungen:
0 notes
Text
CorpusExplorer (XMAS Update Dez/Jan 2018/19)
CorpusExplorer (XMAS Update Dez/Jan 2018/19)
Erstmal wĂŒnsche ich allen Nutzer*innen des CorpusExplorers frohe Feiertage und einen guten Rutsch ins Jahr 2019. Die letzten Tage des Jahres nutze ich, um ein paar Dinge im CorpusExplorer zu verbessert. Folgendes hat sich getan:
Ăbersichtsanzeige wurde verbessert. Bisher wurden die Token (z. B. auf den Ăbersichtsseiten zu Korpora und SchnappschĂŒssen) immer in Mio. angegeben. Dies fĂŒhrte inâŠ
View On WordPress
0 notes
Text
CorpusExplorer (Update Juni/Juli 2018) - Sentiment-Detection, Layer wÀhlbar, verbesserte Analysen
#CorpusExplorer (Update Juni/Juli 2018): #SentimentDetection, #ChangeLayer, #KWIC, #Keyword, #LeftRightFrequency
Das Update fĂŒr Juni/Juli 2018 bringt folgende Neuerungen und Verbesserungen mit sich:
Sentiment-Detection: Unter den Spezialfunktionen gibt es jetzt das neue Analysemodul âSentiment Detectionâ. Damit lassen sich vordefinierte SD-WörterbĂŒcher auf ein(en) Korpus/Schnappschuss anwenden. Eine Besonderheit: Wenn Sie die Analyse starten, können Sie entweder aus einem vorgefertigten Modell wĂ€hlen,âŠ
View On WordPress
0 notes
Text
CorpusExplorer (Update Mai 2018)
#CorpusExplorer Update #Mai2018 - Import von #BundestagOpenAccess #WortschatzLeipzig - CloneDetection auf Basis von CTPH - Neue Filter
Folgende Funktionen wurden in der Mai 2018-Version des CorpusExplorers hinzugefĂŒgt/verbesser:
Neue annotierbare Dateiformate:
Deutscher Bundestag Plenarprotokolle OpenAccess
Deutscher Bundestag Drucksachen OpenAccess
Deutscher Wortschatz UniversitÀt Leipzig
Neue Clone-Detection: Mittels Clone-Detection können Text-Dubletten erkannt und aus einem Korpus entfernt werden. Bisher gab es nur zweiâŠ
View On WordPress
0 notes
Text
CorpusExplorer (Update April 2018) â schneller, exportfreudiger & neue Sprachmodelle
CorpusExplorer (Update April 2018) â schneller, exportfreudiger & neue Tagger/Sprachmodelle
Auch wenn erst Ende MĂ€rz ist, so ist das April Update bereits fertig.
Neue Funktionen / Verbesserungen:
UDPipe â Teil 1: Der CorpusExplorer kann ab jetzt eine bestehende UDPipe inkl. Universal Dependencies Sprachmodelle ansprechen (Herstellerwebseite). UDPipe muss zuvor installiert und die UD-Sprachmodelle mĂŒssen im selben Verzeichnis liegen wie die âudpipe.exeâ.
UDPipe â Teil 2:FĂŒr alle, denenâŠ
View On WordPress
0 notes
Text
CorpusExplorer (Dezember Update 2017) - Erster Erfolg durch Telemetrie
CorpusExplorer #Update 2017-12 Erster Erfolg durch #Telemetrie
Eigentlich war fĂŒr 2017 kein weiteres Update nach November geplant. Mit dem November Update wurde die neue Telemetrie-Funktion des CorpusExplorers aktiviert. Damit lassen sich Fehler und Performance auf den Rechnern der Nutzer*innen anonym in Echtzeit ermitteln (mehr Details dazu â finden Sie hier). Dabei viel auf, dass einige der Nutzer*innen noch sehr alte Korpusdateien einsetzen (Version 5 undâŠ
View On WordPress
0 notes
Text
Lange habe ich nach einer Lösung gesucht, wie man Karten einfach und effizient im CorpusExplorer integrieren kann. Sowohl kommerzielle als auch OpenSource Lösungen wurden geprĂŒft â von klassischen WinForm- und WPF-Lösungen bis hin zu HTML5/JS. Zwei Dinge störten mich am meisten:
Entweder sind zu viele Funktionen vorhanden (was braucht man fĂŒr eine linguistische Visualisierung eine Routenplanung? oder eine Abfrage welche Restaurants in der NĂ€he sind?) oder es sind zu wenige/nicht die nötigen Funktionen enthalten.
Karten sind schön, aber sie mĂŒssen auch zweckmĂ€Ăig sein. FĂŒr diese erste Kartenversion wollte ich die LĂ€ndern unterschiedlich einfĂ€rben. Wenn man aber z. B. auf eine normale Karte zurĂŒckgreift und ein groĂes Land wie Russland einfĂ€rbt, dann verschwimmt die Wahrnehmung von kleineren/benachtbarten Staaten. Hier kam mir ein Tweet zur Hilfe â von Maarten Lambrechts. Er normierte alle LĂ€nder auf die gleiche GröĂe und ordnete sie auf einem Gitter/Schachbrett an. Diese Idee habe ich fĂŒr den CorpusExplorer implementiert (Quellcode hier) und veröffentlicht.
Hier die aktuelle selbst entwickelte Lösung in Bildern (weiteres im 2018):
Der CorpusExplorer erlaubt das einfache Zuordnen von unterschiedlichen LĂ€ndernamen/Schreibweisen zu einem ISO-Code.
Auch eine klassische Darstellung ist im CorpusExplorer möglich. Hier Auszug: Syrien-Zeitungskorpus. Bewegt man die Maus ĂŒber ein Land, erscheint die Frequenz und der ISO-Code des Landes.
Alle LĂ€nder in normierter GröĂe. Aktuell fehlen noch einige Kleinst- und Inselstaaten.
Ein zweiter kurzer Verweis auf Twitter: https://twitter.com/arche3000/status/928171160512221184 Dem kann nur zugestimmt werden â Karten gehören zu den klassischen Visualisierungen der Linguistik. Falls jemand eine wirklich gute Programm-Bibliothek/SDK/API/etc. fĂŒr linguistische Karten-Visualisierungen kennt ⊠ich wĂŒrde mich sehr ĂŒber einen Hinweis freuen. Ebenso sind Ideen, Kritik oder Kooperation an/zu meiner Lösung erwĂŒnscht.
Neue #Map #Visualization im #CorpusExplorer NOV2017. Korpus laden, LÀnder zuordnen, Visualisierung bewundern :-) Lange habe ich nach einer Lösung gesucht, wie man Karten einfach und effizient im CorpusExplorer integrieren kann.
0 notes
Text
CorpusExplorer (August Update 2017)
CorpusExplorer Update 2017.08 - #Elasticsearch #R #Console
Das August-Update bringt nicht nur kleine Verbesserungen sondern auch drei groĂe Neuerungen mit sich.
1. Ăffnung der Konfigurations-Schnittstelle / Abschaltung der Advanced/PC-Poolraum Edition
Bisher gab es drei Versionen fĂŒr den CorpusExplorer â ZukĂŒnftig nur noch eine einheitliche Version. Folgende Installationspakete werden Anfang 2018 abgeschaltet. Nutzer*innen werden darĂŒber bei jedemâŠ
View On WordPress
0 notes
Text
Problem: Der CorpusExplorer zeigt keine Daten/Tabellen mehr an...
Problem&Lösung: Der CorpusExplorer zeigt keine Daten/Tabellen mehr an...
Bei einigen Nutzer*innen kann es vorkommen, dass urplötzlich keine Daten oder Tabellen im CorpusExplorer angezeigt werden. Das Problem liegt an der neuen DPI-Skalierungsfunktion von Windows. Diese neue Funktion wird durch das Windows-Update automatisch auf jedem Windows 10 Rechner installiert und tritt auch nur auf, wenn die Skalierung ungleich 100% betrÀgt (z. B. bei hochauflösenden Displays).
AâŠ
View On WordPress
0 notes
Photo
CorpusExplorer (April Update 2017) - Fehler: Die Anwendung kann nicht gestartet werden. Wenn Sie die folgende Fehlermeldung erhalten, mĂŒssen Sie den CorpusExplorer ĂŒber die Systemsteuerung zuerst deinstallieren und dann erneut installieren.
0 notes
Text
CorpusExplorer v2.0 â Januar 2017 Update
CorpusExplorer v2.0 â Januar 2017Â Update
Das erste Update 2017 bringt hauptsĂ€chlich Neuerungen âunter der Haubeâ â es ist also eher funktional. DafĂŒr bereitet es den Weg fĂŒr neue Analysemöglichkeiten, die 2017 folgen werden. Die wichtigste Hauptfunktion ist das komplett neu entwickelte Dateiformat CEC6 (CorpusExplorerCorpus v6.0). Es hat gegenĂŒber der Version 5.0 folgende Vorteile:
Höhere Performance bei einigen Analysen.
WesentlichâŠ
View On WordPress
0 notes