Maschinelles Lernen zur Strukturierung von Dokumenten­sammlungen
Um der raschen Entwicklung der Nanotechnologie folgen zu können, greift man vermehrt auf bibliometrische Methoden zurück. Ziel der Untersuchung ist es Tools zu entwickeln, die Entscheidungsträgern einen quantitativen Überblick über diese komplexen Forschungsinhalte bereitstellt. Die Datengrundlage besteht aus bibliographischen Angaben und den Abstracts von knapp 100.000 Forschungsarbeiten mit deutscher Beteiligung aus dem Zeitraum von 1994 bis 2014. Die Veröffentlichungen sollen automatisiert hinsichtlich ihrer geographischen Verteilung und ihrer Forschungsinhalte ausgewertet werden. Letztere lassen sich durch Themenmodellierung aus der Vielzahl der Abstracts extrahieren. Unser Anwendungsfall sind umweltverträgliche Nanotechnologien für den Klimaschutz.
Themenmodellierung mit LDA
Themenmodellierung vereint Methoden aus den Bereichen Machine Learning und Natural Language Processing und kann die unbekannte thematische Struktur einer Dokumentsammlung aufdecken. Jedes Dokument wird automatisch mit den darin enthaltenen Themen annotiert. Die Latente Dirichlet Allokation (LDA) ist ein wahrscheinlichkeitsbasierter Ansatz zur Themenmodellierung. Dabei werden iterativ Ausdrücke so zu Themen zusammengefasst, dass kohärente, voneinander abgrenzbare Themen entstehen. Jedes Thema kann in jedem Dokument mit einer bestimmten Wahrscheinlichkeit auftauchen. Eine typische Dokumentsammlung besteht beispielsweise aus einigen Hunderttausend Dokumenten, die (nach Bereinigung) etwa Zehntausend verschiedene Ausdrücke enthalten. Je nach Divergenz der Inhalte könnte man daraus bis weit über 100 Themen generieren lassen.
Nutzen für den Anwender
– Visualisierung der standortbezogenen Forschungsleistungen
– Fachliche Einordnung einzelner Regionen oder Standorte
– Visualisierung der Trends von Forschungsleistung und -richtung deutscher Standorte
– Effekte vergangener standortbezogener Entscheidungen werden sichtbar gemacht