Don't wanna be here? Send us removal request.
Text
Blog 5, 12. Dezember 2018
Es wurde weiter am Text Mining gearbeitet und die Theorie wurde weitergeführt. Zu jedem Schritt im Text Mining wurde ein kleiner Einführungs- und Theorieteil gemacht, gefolgt von den erledigten Arbeiten im Excel.
Tokanization: Tokanization ist der Überbegriff für die ersten Schritte im Text Mining
Stemming: ist das Zusammenfassen von sich wiederholenden Wörtern. Verschiedene Wörter, jedoch solche welche das gleiche bedeuten, wurden im Wortstamm zusammengefasst. So werden Wörter wie zum Beispiel Bürgersteig, Troittoirs, Bürgerstege, Bürgersteigs zusammengefasst und es gibt nur noch das Wort Troittoir.
Stopword Removal: unnötige und für den weiteren Verlauf nicht benötigte Wörter werden herausgelöscht, darunter Füllwörter wie auf, an, der, die, das, dem, im, für, er, sie, ihre, bei und viele weitere.
Abkürzung der Wörter: lange Wörter werden abgekürzt, zum Beispiel wird das Wort Parkplatz zu PP oder Strasse zu Str.
Weiter wurden die Antworten der Stadt Zürich genau analysiert. Oft gibt es Standard-Antworten wie zum Beispiel «Diese Reparatur wird von uns kommenden Wochen ausgeführt.» Solche und viele weitere Standardantworten wurden überarbeitet und zu einem Begriff wie «Woche», «Tage», «bald», «schnellstmöglich» und weitere zusammengefasst.
Schwierigkeiten: die Stadt Zürich gibt sehr oft personalisierte Antworten. Bei insgesamt über 16'000 Datensätzen sind dies einige. Jeden Datensatz einzeln durchzugehen und entsprechend zu standardisieren ist mit einem immensen Aufwand verbunden und unter den Zeitvorgaben der CASE-Study nicht möglich. Hierzu findet am Montag, dem 17.12., ein Skype-Termin zwischen der Betreuerin und mir statt, um die Schwerpunkte und den Aufwand für die weiteren Aufgaben festzulegen. Die Arbeit hinkt planmässig hinterher, vor allem durch den nicht eingeplanten Zusatzaufwand, jedoch sind die beiden Wochen ab Weihnachten bis zur Abgabe noch als Puffer eingeplant und werden somit teils noch benötigt, um an der Arbeit weiterzuarbeiten und diese abzuschliessen. Am Dienstag, 18.12., findet der Workshop zur Postergestaltung statt.
0 notes
Text
Blog 4, 30. November 2018
Leider kam ich noch nicht dazu, mit dem Data Mining zu starten. Ich habe sehr viel Zeit für die Analyse der GPS-Daten investiert. Nach der Kontaktaufnahme mit dem Projektleiter GIS der Stadt Zürich habe ich die GPS-Daten aus dem Excel konvertiert, so dass diese weiterverwendet werden können. Mithilfe der (sehr mächtigen, fast zu mächtigen) Software QGIS Grass konnte ich diese weiterverarbeiten. Via Openstreetmap lud ich die Karte der Stadt Zürich herunter, auf welcher ich dann die Koordinaten der Meldungen von Züri wie neu darstellen konnte. Weiter kann in diesem Programm gefiltert werden, ich kann z.B. nur alle Meldungen der Graffitis auf der Karte anzeigen lassen. So kann ich dann die Daten weiterverwenden und werde sicherlich spannende Angaben machen können. Das Data Mining hinkt ein wenig hinterher, wie auch der Theorieteil. Hier werde ich in den nächsten Wochen aufholen müssen, damit ich die Arbeit in gewünschter Form erledigen kann.
Nächste Schritte:
Data Mining
Regelfindung
Weiterarbeit am Theorieteil
0 notes
Text
Blog 3, 16. November 2018
Ein grosser Teil des Text Minings wurde gemacht.
Folgende Schritte wurden (grösstenteils mit der Funktion Suchen und Ersetzen) erledigt:
Diverse Umlaute wurden nicht richtig dargstellt. Z.B. stand bei der Kategorisierung Gr^3nflächen/Spielplõtze anstelle von Grünflächen/Spielplätze. Weiter waren andere Umlaute, insbesondere alles mit ä, ö und ü nicht sauber dargestellt.
In der Antwort der Stadt Zürich hatte es viele Zeilenumbrüche <br/>. Diese wurden eliminiert.
Anhand des Datums der Erfassung und der Antwort der Stadt wurde eine neue Spalte mit der Dauer der Behebung erstellt.
Stoppwort Elimination: diverse Füllwörter wurden gestrichen, und zwar folgende: auf, an, der, die, das, dem, des, den, ein, eine, er, sie, es, hat, ist, bei, in, im, für, und. Beachten musste man, dass bei Suchen und Ersetzen Wörter wie z.B: Kirmes oder Pessimist, wo das Wort «es» darin vorkommt, achtsam vorgegangen werden muss. Hierfür wird mit Leerschlägen vor und nach dem Wort gearbeitet.
Weiter hatte ich Kontakt mit dem Projektleiter GIS der Stadt Zürich. Er gab mir Tipps, wie ich die Koordinaten der Tabelle entsprechend umrechnen kann, damit ich diese weiterverwenden kann.
Zudem bin ich weiterhin mit der Literaturrecherche beschäftigt. Wie bereits im letzten Blog mitgeteilt, bin ich mit der Arbeit hinter der Zeit, jedoch bestehen momentan keine Schwierigkeiten.
Link Projektplan: https://www.dropbox.com/s/vgo6tgxay1gc7hv/Projektplan_v1_MarcBurkhardt.xlsx?dl=0
0 notes
Text
Blog 2, 2. November 2018
Die Daten als DBF-Format konnten in eine XLSX-Datei umgewandelt werden. Somit sind die Daten im gängigen Format im Excel verfügbar, um diese zu verarbeiten. Am 1.11. fand ein Treffen mit der Betreuerin statt, um die Thematik Text Mining zu besprechen. Bevor bei «Züri wie neu» überhaupt Data Mining gemacht werden kann, muss der unstrukturierte Text zuerst in eine Form gebracht werden, dass damit gearbeitet werden kann. Die Spalten, welche für die Weiterverarbeitung nicht nötig sind, wurden bereits herausgelöscht. Dabei handelt es sich um den Status der Störung, eine leere Spalte updated_data sowie der Spalte N, welche eine Kombination aus dem Titel sowie der Beschreibung der Störung ist, welche bereits in anderen Spalten ersichtlich ist. Weiter ist die Kategorisierung doppelt vorhanden, somit wurde auch dort eine Spalte gelöscht.
Bei folgenden Daten wird das Text Mining gemacht:
GPS-Koordinaten
Kategorie der Störung
Titel der Störung
Detailbeschreibung der Störung
Foto der Störung (wenn vorhanden)
Interface (Meldung erfolgte über Web Interface, App oder andere)
Datum der Erfassung und der Behebung
Antwort der Stadt Zürich
Der nächste Schritt wird sein, durch Data Mining den Text in eine brauchbare Struktur umzuwandeln, um danach mittels Assoziationsanalyse das Data Mining zu machen und diverse Regeln zu erstellen. Des Weiteren bin ich noch mit der Literaturrecherche beschäftigt, um den Theorieteil Smart City und die Definition eines Frameworks voranzubringen.
Trotzdem, dass ich mit der Arbeit (insbesondere dem Theorieteil) hinter der Zeit bin, bestehen sonst momentan keine Schwierigkeiten.
Link Projektplan: https://www.dropbox.com/s/vgo6tgxay1gc7hv/Projektplan_v1_MarcBurkhardt.xlsx?dl=0
0 notes
Text
Blog 1, 22. Oktober 2018
Nach den beiden Kickoff-Sitzungen (25.9. mit dem Auftraggeber, 02.10. mit der Betreuerin) war der Auftrag für die CASE-Arbeit detailliert bekannt und wurde noch ein wenig abgeändert. Das Hauptthema wurde neu auf Data Mining gelegt.
Der Projektplan wurde aufgrund der Kapitel der CASE-Arbeit erstellt (https://www.dropbox.com/s/vgo6tgxay1gc7hv/Projektplan_v1_MarcBurkhardt.xlsx?dl=0). Nachdem ich den Projektplan erstellt habe, liegt der Schwerpunkt momentan auf dem Grundlagenkapitel. Das Grundlagenkapitel besteht aus einem Smart City Theorieteil, einer guten Definition eines Framworks, der Beschreibung von «Züri wie neu» sowie dessen Einordnung in ein Framework.
Die Daten von «Züri wie neu» ist Opendata verfügbar, man kann darauf zugreifen und alle Meldungen mit Beschreibung und GPS-Daten herunterladen. Das Ziel der Arbeit lautet nun, diese Daten genaustens zu analysieren und Data Mining zu machen. Die rund 16’000 Daten sind in diversen Formaten verfügbar, unter anderem als DBF- oder JSON-Datei. Ich habe mich mit der Datenanalyse auseinandergesetzt. Die Schwierigkeit besteht darin, eine guten Konverter zu finden, um das Dateiformat in eine Exceldatei (.xlsx) umzuwandeln. Es gibt zahlreiche Online-Konverter, jedoch sind die Gratisversionen eingeschränkt auf eine gewisse Grösse und die 16'000 Datensätze sind für die Freewares zu gross. Somit liegt mein Schwerpunkt momentan auf folgenden 2 Sachen:
Suchen einer geeigneten Software, um alle Datensätze in eine Standardform (Excel) zu bringen, damit die Daten sauber und einwandfrei analysiert werden kann
Erarbeitung des Grundlagenkapitels, insbesondere dem Theorieteil Smart City sowie der Definition eines Framworks.
0 notes