Ermüdungsdaten sind in vielen Industriezweigen unerlässlich, um die Lebensdauer und Zuverlässigkeit von Materialien und Bauteilen unter zyklischer Beanspruchung zu bewerten und sie belastungsgerecht auszulegen. Die Generierung von Ermüdungsdaten ist kostspielig, weshalb Literaturdaten eine wirtschaftliche Alternative darstellen. Das Potenzial der Daten in der materialwissenschaftlichen Literatur ist enorm, aber sie sind sehr heterogen und können nur in Verbindung mit dem relevanten Kontext genutzt werden.
Während die neuesten grundlegenden Sprachmodelle bei vielen allgemeinen Aufgaben der Informationsextraktion Spitzenleistungen erzielen, fehlt diesen Modellen das domänenspezifische Wissen, das für die genaue Extraktion von materialwissenschaftlichen Daten erforderlich ist.
Bei einem Ermüdungstest wird eine Materialprobe zyklisch belastet, bis beispielsweise Risse auftreten oder die Probe versagt. Die Ergebnisse von Ermüdungstests werden in sogenannten S-N-Diagrammen dargestellt, die den Zusammenhang zwischen der maximalen Spannung (S) und der Anzahl der Belastungszyklen (N) zeigen, denen ein Material standhält, bevor es versagt.
Für die generative Extraktion von Ermüdungsdaten aus wissenschaftlichen Publikationen hat das Fraunhofer IWM in Zusammenarbeit mit der University of California zwei (agentenbasierte) Workflows auf Basis von Vision and Reasoning Language Models (VLM/RLM) entwickelt. Dabei kommt ein schemabasierter Ansatz zum Einsatz, bei dem ein Datenschema die Zielentitäten und anwendbaren Einschränkungen eindeutig definiert. Dieses Schema wird dem Reasoning Language Model zur Verfügung gestellt, um kontextuelles Domänenwissen bereitzustellen. Zwei Workflows erweitern dies, indem sie zum einen eine vom Menschen inspirierte sequenzielle Analyse diskriminierender Merkmale innerhalb von Abbildungen anwenden, bevor sie sich mit textuellen Details befassen, und zum anderen eine dynamische Wissensanreicherung durchführen, bei der verschiedene Datenvalidatoren, Reasoner und Wissensdatenbanken eine detaillierte Überprüfung der Extraktionen ermöglichen.
Diese Methodik deckt sogenannte Sprachmodell-Halluzinationen auf und ermöglicht nicht nur die Erzeugung hochwertiger Ermüdungsdatensätze, wodurch der Bedarf an experimentellen Daten reduziert wird, sondern auch die nahtlose Integration von Literatur und proprietären Datenquellen.