Ma­schi­nel­les Ler­nen zur Struk­tu­rie­rung von Do­ku­men­ten­­samm­lun­gen

Um der ra­schen Ent­wick­lung der Na­no­tech­no­lo­gie fol­gen zu kön­nen, greift man ver­mehrt auf bi­blio­me­tri­sche Me­tho­den zu­rück. Ziel der Un­ter­su­chung ist es Tools zu ent­wi­ckeln, die Ent­schei­dungs­trä­gern ei­nen quan­ti­ta­ti­ven Über­blick über die­se kom­ple­xen For­schungs­in­hal­te be­reit­stellt. Die Da­ten­grund­la­ge be­steht aus bi­blio­gra­phi­schen An­ga­ben und den Abs­tracts von knapp 100.000 For­schungs­ar­bei­ten mit deut­scher Be­tei­li­gung aus dem Zeit­raum von 1994 bis 2014. Die Ver­öf­fent­li­chun­gen sol­len au­to­ma­ti­siert hin­sicht­lich ih­rer geo­gra­phi­schen Ver­tei­lung und ih­rer For­schungs­in­hal­te aus­ge­wer­tet wer­den. Letz­te­re las­sen sich durch The­men­mo­del­lie­rung aus der Viel­zahl der Abs­tracts ex­tra­hie­ren. Un­ser An­wen­dungs­fall sind um­welt­ver­träg­li­che Na­no­tech­no­lo­gi­en für den Kli­ma­schutz.

The­men­mo­del­lie­rung mit LDA

The­men­mo­del­lie­rung ver­eint Me­tho­den aus den Be­rei­chen Ma­chi­ne Learning und Na­tu­ral Lan­gua­ge Pro­ces­sing und kann die un­be­kann­te the­ma­ti­sche Struk­tur ei­ner Do­ku­ment­samm­lung auf­de­cken. Je­des Do­ku­ment wird au­to­ma­tisch mit den dar­in ent­hal­te­nen The­men an­no­tiert. Die La­ten­te Di­rich­let Al­lo­ka­ti­on (LDA) ist ein wahr­schein­lich­keits­ba­sier­ter An­satz zur The­men­mo­del­lie­rung. Da­bei wer­den ite­ra­tiv Aus­drü­cke so zu The­men zu­sam­men­ge­fasst, dass ko­hä­ren­te, von­ein­an­der ab­grenz­ba­re The­men ent­ste­hen. Je­des The­ma kann in je­dem Do­ku­ment mit ei­ner be­stimm­ten Wahr­schein­lich­keit auf­tau­chen. Ei­ne ty­pi­sche Do­ku­ment­samm­lung be­steht bei­spiels­wei­se aus ei­ni­gen Hun­dert­tau­send Do­ku­men­ten, die (nach Be­rei­ni­gung) et­wa Zehn­tau­send ver­schie­de­ne Aus­drü­cke ent­hal­ten. Je nach Di­ver­genz der In­hal­te könn­te man dar­aus bis weit über 100 The­men ge­ne­rie­ren las­sen.

Nut­zen für den An­wen­der

– Vi­sua­li­sie­rung der stand­ort­be­zo­ge­nen For­schungs­leis­tun­gen

– Fach­li­che Ein­ord­nung ein­zel­ner Re­gio­nen oder Stand­or­te

– Vi­sua­li­sie­rung der Trends von For­schungs­leis­tung und -rich­tung deut­scher Stand­or­te

– Ef­fek­te ver­gan­ge­ner stand­ort­be­zo­ge­ner Ent­schei­dun­gen wer­den sicht­bar ge­macht