Wissenschaft und Forschung

Neben seinen anwendungsstarken Business Units

ist Linguwerk ein sehr wissenschaftsintensives Unternehmen. Linguwerk gestaltet Zukunft aktiv mit, indem es Spitzenforschung in reale Anwendungen oder Produkte überführt. Die Bereiche sind dabei vielfältig, im Folgenden ausgewählte Beispiele:

  • \Spracherkennung und -verarbeitung
  • \Biometrie und Vitalparametererfassung
  • \Machine Learning und KI
  • \Sensoren, Sensornetzwerke und eingebettete Systeme
  • \Elektronik, Mobilität und Verkehr
  • \Technologien für Energietechnik
  • \Neuartige medizinische Anwendungen
  • \Automotive, Medical, Industrial, Energy, …
  • \Akustik, Signal- und Bildverarbeitung
  • \Mensch-Maschine-Interfaces
  • \Kindgerechte technikgestützte Lehrmedien

Als Basis für Innovationen arbeiten wir seit vielen Jahren eng mit nationalen und internationalen Hochschulen und Universitäten im Rahmen von Forschungsprojekten zusammen. Dank dieser Kooperationen ist es uns möglich, aktuelle Forschungsergebnisse und Verfahren ergänzend in Produktentwicklung und Projektarbeit zu integrieren. Im Folgenden werden ausgewählte Forschungsprojekte vorgestellt.

 

wissenschaftliche Kooperationen

  • E Dresden University of Technology (TUD), Germany
  • E Dresden University of Applied Sciences (HTW), Germany
  • EBaden-Wuerttemberg Cooperative State University (DHBW), Germany
  • E Karlsruhe Institute of Technology (KIT), Germany
  • EEuropean Center of Excellence in Speech Synthesis (ECESS), University of Maribor (UMB), Slovenia
  • EUniversitat Politècnica de Catalunya – Barcelona Tech (UPC), Spain
  • ERussian Academy of Sciences (RAS), Russia
  • EJapan Advanced Institute of Science And Technology (JAIST), Japan
  • ECarnegie Mellon University (CMU), USA

Projekte

Forschung und Entwicklung

Struktur 2.0

In Struktur 2.0 soll ein intelligentes medizinisches Befundungssystem implementiert und erprobt werden, das aus freiem Diktat strukturierte Befunde erstellt, dabei durch ein integriertes Feedbacksystem das medizinische Personal unterstützt und gleichzeitig allgemeinverständliche Patientenreports generiert.

Dazu soll die Befunderstellung unter Einsatz der forschungsintensiven Technologiebereiche Spracherkennung (ASR) und Natural Language Processing (NLP) erfolgen. Der diktierte Befund wird durch ASR in digitalisierten Text umgewandelt, anschließend mit Hilfe von NLP und KI analysiert und automatisiert auf eine von den medizinischen Fachgesellschaften empfohlene und leitlinienkonforme Struktur in standardisierter Form abgebildet. Ein intelligentes klinisches Feedbacksystem weist den befundenden Radiologen auf fehlende oder unplausible Angaben hin. Auf Basis der resultierenden strukturierten Daten sollen standardisierte Befunde und allgemeinverständliche Patientenreports erstellt und exportiert werden können.

Unser Projektbeitrag: Die Linguwerk GmbH befasst sich hierbei mit der Entwicklung der KI-Systeme insbesondere im Bereich ASR und NLP sowie mit der Bereitstellung einer Trainings- und Evaluationsumgebung für die Entwicklung und Evaluation der nötigen KI-Algorithmen.

Gemeinsames Forschungsprojekt mit: Informatics Systemhaus GmbH & Co. KG, LASA – Lausitz Advanced Scientific Applications gGmbH

Diese Maßnahme wird mitfinanziert mit Steuermitteln auf Grundlage des vom Sächsischen Landtag beschlossenen Haushaltes.

Ultravital

Schon nach kurzer Zeit können bspw. in den Sommermonaten im verschlossenen Automobil die Temperaturen lebensbedrohlich ansteigen, insbesondere für Babys und Tiere. Laut aktueller Statistik starben in den vergangenen 10 Jahren allein in den USA 371 Kleinkinder an einem Hitzschlag, weil sie an einem heißen Tag in einem verschlossenen Auto zurückgelassen wurden. Solche tragischen Todesfälle sollen durch UltraVital verhindert werden.

Das Forschungsvorhaben befasst sich daher mit der Überwachung des Innen- bzw. Fahrgastraumes von Kraftfahrzeugen, die eine reale Nachfrage in der Automobilindustrie darstellt. Für diesen Zweck wird eine neuartige Sensortechnologie auf Basis der neuen Ultra-Wideband-Radar-Technologie (UWB Radar) erforscht, die Vitalparameter von Fahrgästen bestimmen und auswerten sowie Lebewesen orten kann. Der entwickelte Sensor bietet darüber hinaus den Vorteil, Themen des autonomen Fahrens zu unterstützen sowie weitere Funktionen im Kraftfahrzeug zu übernehmen.

Unser Projektbeitrag: Die Linguwerk GmbH befasst sich hierbei mit der Entwicklung des UWB-Radar-Sensors sowie der Bereitstellung einer Trainings- und Evaluationsumgebung für die Entwicklung und Evaluation der nötigen KI-Algorithmen.

Gemeinsames Forschungsprojekt mit: LASA – Lausitz Advanced Scientific Applications gGmbH, Innotas Produktions GmbH, Hochschule für Technik und Wirtschaft Dresden

iDOKS

Die Sprach- und Sprechererkennung hat in den vergangenen Jahren enorme Fortschritte gemacht. Die heutige Spracherkennung erfasst und „übersetzt“ das Gesprochene sehr gut „eins zu eins“. Probleme hat sie dagegen noch beim Verdichten der Informationen. Das heißt: Sie kann Gespräche sehr gut aufzeichnen. Sie kann sie aber nicht zusammenfassen oder relevante Informationen aus ihnen herausfiltern.

iDOKS steht für die Erforschung und Entwicklung eines integrierten Dokumentations-Systems für die automatisierte Informationsverdichtung von Multi-Sprecher-Szenarien durch neue Methoden der künstlichen Sprach-Intelligenz. Ziel des Projektes iDOKS ist die Automatisierung der Protokollierung von Meetings und Gesprächen. Dabei wird die Interpretation und Verdichtung des Gesprochenen von einer KI übernommen. Auf Basis von Wissensgraphen in neuronalen Netzen und Nutzerprofilen der Anwender soll ein Sprachassistent entwickelt werden, der relevante Informationen in Gesprächen erkennt und wiedergibt. Erstmalig wird dadurch eine vollständige Informationsextraktion und -dokumentation in komplexen Multi-Sprecher-Szenarien unabhängig von Thematik und Anwendungsgebiet möglich.

Das Ergebnis ist ein autonomes Assistenz-System, um Multi-Sprecher-Szenarien nachzubereiten – ob bei Meetings in Unternehmen und Behörden oder in der Diagnostik. Es kann effizient relevante Informationen von irrelevanten trennen und Gesprächsinhalte verständlich zusammenfassen.

Unser Projektbeitrag: Linguwerk erforscht und entwickelt die für das Gesamtsystem notwendigen Module Multi-Sprecher-Identifikation und Raummikrofon-Spracherkennung.

Gemeinsames Forschungsprojekt mit: MediaInterface GmbH, Dresden // Institut für Angewandte Informatik e.V., Leipzig

ADAMA

ADAMA steht für die Erforschung und Entwicklung eines computergestützten Aussprache-Trainingssystems zur Akzentverbesserung mit artikulatorischer Rückmeldung. Realisiert wird dies durch eine direkt im Mund angebrachte Sensorik und ein neuartiges akustisch-artikulatorisches Matchingverfahren. In einem interaktiven Lernsetting erhält der Übende zum einen ein Feedback zur akustisch-artikulatorischen Abweichung von der optimalen muttersprachlichen Referenz und zum anderen eine visuelle Rückkopplung von der Abweichung wichtiger Artikulatoren zum Ideal- bzw. Referenzwert, in Form eines computeranimierten Avatars (talking head). Im Weiteren soll die technische Machbarkeit eines derartigen Trainingssystems demonstriert und die Wirksamkeit der Verringerung des Akzentes zunächst in der deutschen Sprache nachgewiesen werden.

Unser Projektbeitrag: Entwickelt werden die Sensorik, ein Embedded System, das die neue Sensorik ansteuert und die Messergebnisse in Echtzeit verarbeitet, ein geeigneter Sensorträger, Algorithmen für das akustisch-artikulatorische Matchingverfahren sowie Lehr- und Feedbackkonzeptionen einschließlich eines edukativen Gesamtdesigns der Sprachübungen.

Gemeinsames Forschungsprojekt mit: Institut für Akustik und Sprachkommunikation – Technische Universität Dresden

Neural Speech – Leading-Edge Spracherkennungstechnologie aus Sachsen

Ziel des Vorhabens ist die Erforschung von neuartigen Technologien für die Entwicklung und Anpassung von automatischen Spracherkennern (Automatic Speech Recognition – ASR). Diese ASR-Technologien sollen eine automatisierte Anpassung eines Spracherkennungssystems (ASR-System) an verschiedene Nutzeranforderungen und Plattformen ermöglichen.

Unser Projektbeitrag: Erforschung neuartiger Ansätze für die ASR-Modellierung, das ASR-Training, ASR-Decoding-Technologien; die automatisierte Datenvorverarbeitung, die Automatisierung von Trainings- und Modellierungsverfahren, die automatische Generierung eines domainspezifischen LVCSR-Systems; Erarbeitung computerlinguistischer Methoden für LVCSR; Erforschung der Anforderungen an die Anpassungsschnittstelle und Entwicklung einer Anpassungsschnittstelle für LVCSR-System und ASR-Modell.

Gemeinsames Forschungsprojekt mit: Professur für Grundlagen der Elektrotechnik und Technische Informatik – Hochschule für Technik und Wirtschaft (HTW) Dresden

Das Forschungsprojekt wird von der Europäischen Union und dem Freistaat Sachsen finanziell unterstützt.

Zungenmaus

Ziel des Forschungs- und Entwicklungsprojektes ist die Entwicklung eines Gesamtsystems, welches aus Zungenbewegungen kontinuierliche Steuerbewegungen (eines Cursors) analog einer Computermaus ermöglicht und somit PC-Steuerungen und weitere Gerätesteuerungen in der häuslichen Umgebung zulässt. Die „Zungenmaus“ soll Personen helfen, denen es aus gesundheitlichen Gründen nicht möglich ist, diese Geräte mit ihren Händen zu bedienen.

Unser Projektbeitrag: Entwicklung einer Hardware zur Sensordatenerfassung; Erforschung von Algorithmen zur Sensordatenauswertung; Entwicklung einer Software zur Geräteansteuerung; Untersuchung von Aspekten der Ergonomie und Usability

Gemeinsames Forschungsprojekt mit: Institut für Akustik und Sprachkommunikation – Technische Universität Dresden

Das Forschungsprojekt wird von der Europäischen Union und dem Freistaat Sachsen finanziell unterstützt.

3D4F

Ziel des Forschungs- und Entwicklungsverbundprojektes ist die Entwicklung eines 4-Finger-Scanners zur berührungslosen und irritationsfreien Erfassung von Fingerabdrücken mittels 3D-Sensorik, der alle 4 Finger gleichzeitig erfasst. Dabei verhindert die berührungslose Aufnahme, im Gegensatz zur kontaktbasierten Aufnahme, dass Krankheitserreger über die berührten Flächen weitergegeben werden.

Unser Projektbeitrag: Entwicklung neuartiger Verfahren zur Fälschungserkennung (Presentation Attack Detection – PAD), die sich aus dem 3D-Anwendungsfall und aus dem Bezug zur integralen Beschreibung von Objektteilen ergeben.

Gemeinsames Forschungsprojekt mit: JENETRIC GmbH, Jena // ART-KON-TOR Produktentwicklung GmbH, Jena // Docter Optics SE, Neustadt an der Orla // Technische Universität Chemnitz // Zentrum für Bild- und Signalverarbeitung e.V., Ilmenau // Fraunhofer IOF, Jena

DIALOG TOYS – English Learners

Wir haben einen weltweit neuartigen technologieunterstützten Ansatz entwickelt, mit dem Kinder im Vorschulalter Fremdsprachen lernen können. Mit Lingufino von DIALOG TOYS lernen Kinder spielerisch die ersten Englischvokabeln. Der Freistaat Sachsen unterstützt uns bei der Markteinführung der Englischlernapplikation.

HiFi-AEC

Ziel des Forschungs- und Entwicklungsprojektes ist die Entwicklung einer Stereo-AEC-Technologie für Car-Infotainment-Systeme (CIS), die es ermöglicht, die Nutzersprache von einem Stereo-Echosignal aus Lautsprechern zu befreien und dabei HiFi-Signale zu eliminieren. Die dadurch mögliche höhere Performanz soll die Nutzerakzeptanz von Sprachbediensystemen und damit auch die Fahrsicherheit in CIS erhöhen.

Unser Projektbeitrag: Algorithmische Optimierung der Stereo-AEC unter realen Einsatzbedingungen; Integration der entwickelten HiFi-AEC-Technologie auf Embedded Plattformen.

Gemeinsames Forschungsprojekt mit: Institut für Nachrichtentechnik – Technische Universität Braunschweig

OSLO

Ziel des Forschungs- und Entwicklungsverbundprojektes ist die Entwicklung eines optoelektronischen Messsystems zur Steuerung interaktiver logopädischer Übungen in der Schlaganfalltherapie. Es wird körpernahe Sensorik entwickelt, um Zungenbewegungen von Schlaganfallpatienten am Ort des Geschehens zu erfassen, anstatt auf äußerliche Merkmale angewiesen zu sein (wie in der gegenwärtigen logopädischen Therapie der Fall). Durch die Bewegungsdaten wird die Interaktion mit einem Therapiespiel möglich, das den Patienten einerseits in die Lage versetzt, intuitiv und ohne logopädisches Personal selbstständig an seiner Genesung mitarbeiten zu können und andererseits den Therapiefortschritt durch gleichzeitigen Fortschritt im Spiel spürbarer zu erleben.

Unser Projektbeitrag: Entwicklung von Embedded Plattformen der Sensor- und Steuerungseinheit sowie Konzeption und Implementierung therapeutischer Übungsspiele.

Gemeinsames Forschungsprojekt mit: Institut für Akustik und Sprachkommunikation – Technische Universität Dresden // Klinik und Poliklinik für Hals-, Nasen-, Ohrenkrankheiten, Kopf- und Halschirurgie (Abteilung für Phoniatrie und Pädaudiologie) – Universitätsmedizin Greifswald

sprechAktiv international – sprint

Ziel des Forschungs- und Entwicklungsverbundprojektes Internationalisierung von Sprachlehrmedien mit integrierter Sprachtechnologie ist es, Forschungsdemonstratoren von interaktiven Sprachlehrmedien zu entwickeln. Die dabei entstehenden edukativen Spielzeuge mit einer integrierten, neuartigen Sprachtechnologie sowie zugehöriger Lehrbücher mit illustrativ umgesetzten Abenteuergeschichten sollen die Verbesserung sprachlicher Fähigkeiten von Klein- bzw. Vorschulkindern in verschiedenen Sprachen unterstützen.

Unser Projektbeitrag: Ausbauen des Projektes sprechAktiv (Entwicklung von Sprachlehrmedien für Vorschulkinder mit Deutsch als Muttersprache) für den internationalen Markt.

Gemeinsames Forschungsprojekt mit: Professur für Grundlagen der Elektrotechnik und Technische Informatik – Hochschule für Technik und Wirtschaft (HTW) Dresden

Stimme 2.0

Ersatzstimme für Patienten, denen aufgrund eines Tumors der Kehlkopf entfernt wurde. Erforschung eines neuen Verfahrens für einen mobilen Stimmgenerator, der durch Sprachsynthese eine neue Stimme ermöglicht.

Unser Projektbeitrag: Erforschung der Hardware und Sensorik für die erfolgreiche Generierung der Sprachsythese.

Gemeinsames Forschungsprojekt mit: Institut für Akustik und Sprachkommunikation – Technische Universität Dresden (TUD)

IsI-Speech

Individualisierte Spracherkennung in der Rehabilitation für Menschen mit Beeinträchtigung in der Sprechverständlichkeit.

Linguwerks Projektbeitrag: Entwicklung und Integration eines Spracherkennungssystems für mobile Geräte.

Gemeinsames Forschungsprojekt mit: Fakultät Rehabilitationswissenschaften (TU Dortmund) // Department für Angewandte Gesundheitswissenschaften (Hochschule für Gesundheit, Bochum) // Projektgruppe Hör-, Sprach- und Audiotechnologie (Fraunhofer-Institut für Digitale Medientechnologie (IDMT) // SpeechCare GmbH

Publikationen, Konferenzen und Workshops

Auszug ausgewählter wissenschaftlicher Aktivitäten von Forschern unter Beteiligung der Linguwerk GmbH der letzten Jahre:

  • \Annual Conference of the International Speech Communication Association (INTERSPEECH)
  • \International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  • \International Conference on Spoken Language Processing (ICSLP)
  • \ International Conference on Speech and Computer (SPECOM)
  • \International Conference on Computers, Communications, Control and Power Engineering
  • \European Signal Processing Conference (EUSIPCO)
  • \Conference on Electronic Speech Signal Processing (ESSV)
  • \Workshop on Child, Computer and Interaction (WOCCI)
  • \DSP for In-Vehicle and Mobile Systems

International

  • Gräßer, F.; Tesch, F.; Schmitt, J.; Abraham, S.; Malberg, H,; Zaunseder, S.: A pharmaceutical therapy recommender system enabling shared decision-making. In: The Journal of Personalization Research, User Modeling and User-Adapted Interaction, Volume 32, S. 1019 – 1062, (2022).

  • Gräßer, F.; Kallumadi, S.; Malberg, H.; Zaunseder, S.: Aspect-based sentiment analysis of drug reviews applying cross-domain and cross-data learning. In Proc. of the 2018 International Conference on Digital Health (DH’18), Lyon, France, S. 121 – 125

  • Pintér, G.; Schielke, M.; Petrick, R.: Investigating Word Segmentation Techniques for German Using Finite-State Transducers. In Proc. 20th International Conference on Speech and Computer, SPECOM 2018, Leipzig, Germany, S. 511 – 521.

  • Gräßer, F.; Beckert, S.; Küster, D.; Schmitt, J.; Abraham, S.; Malberg, H,; Zaunseder, S.: Therapy decision support based on recommender system methods. In Journal of Healthcare Engineering, Volume 2017.

  • Gräßer, F.; Beckert, S.; Küster, D.; Schmitt, J.; Abraham, S.; Malberg, H,; Zaunseder, S.: Neighborhood-based Collaborative Filtering for Therapy Decision Support. In Proc. HealthRecSys at ACM Conference on Recommender Systems 2017, Bozen, Italy

  • Peter, P.; Bakardjiev, P.; Kürbis, S. und Petrick, R.: Towards Minimally Invasive Velar State Detection in Normal and Silent Speech. In Proc. Interspeech 2016, S. 1780 – 1784.

  • Matthes, K.; Petrick, R. und Hain, H.-U.: Lingunia World of Learning. Workshop on Speech and Language Technology in Education (SLaTE) 2015, Leipzig, Deutschland, 2015.
  • Mehrez, T.; Abdelkawy, A.; Heikal, Y.; Lange, P.; Nabil, H. und Suendermann-Oeft, D.: Who Discovered the Electron Neutrino? A Telephony-Based Distributed Open-Source Standard-Compliant Spoken Dialog System for Question Answering. In Proc. of the GSCL 2013, International Conference of the German Society for Computational Linguistics and Language Technology, Darmstadt, Germany, September 2013.
  • Claus, F.; Gamboa Rosales, H.; Petrick, R.; Hain, H.-U. und Hoffmann, R.: A Survey about ASR for Children. In Proc. of Workshop on Speech and Language Technology in Education (SLaTE) 2013, Grenoble, Frankreich, 2013, S. 26 – 30.
  • Claus, F.; Gamboa Rosales, H.; Petrick, R.; Hain, H.-U. und Hoffmann, R.: A Survey about Databases of Children’s Speech. INTERSPEECH 2013, Lyon, Frankreich, 2013, S. 2410 – 2414.
  • Unoki, M.; Lu, X.; Petrick, R.; Morita, S.; Akagi, M. und Hoffmann, R.: Voice Activity Detection in MTF-Based Power Envelope Restoration. In Proc. of INTERSPEECH 2011, Florenz, Italien, 2011, S. 2609 – 2612.
  • Petrick, R.; Fehér, T.; Unoki, M. und Hoffmann, R.: Methods for Robust Speech Recognition in Reverberant Environments: A Comparison. In Proc. of INTERSPEECH 2010, Makuhari, Chiba, Japan, Sept. 2010, S. 582 – 585.
  • Jokisch, O.; Hain, H.-U.; Petrick, R. und Hoffmann, R.: Robustness Optimization of a Speech Interface for Child-Directed Embedded Language Tutoring. In Proc. of Workshop on Computer Child Interaction (WOCCI) 2009, Boston, USA, 2009, CD-ROM.
  • Petrick, R.: A Comparison of Methods for Robust Speech Recognition in Reverberant Environments. In Proc. of Czech German Workshop on Speech Processing, Prag, Tschechien, 2009, CD-ROM.
  • Petrick, R.; Rückert, C. und Hoffmann, R.: Room Acoustic Conditions and Limits in Home and Office Environments. In Proc. of SPECOM 2009, St. Petersburg, Russland, 2009.
  • Coelho, L.; Hain, H.-U.; Jokisch, O. und Braga, D.: Towards an Objective Voice Preference Definition for the Portuguese Language. I Iberian SLTech – I Joint SIG-IL/Microsoft Workshop on Speech and Language Technologies for Iberian Languages. Porto Salvo, Portugal, 2009, S. 67 – 70.
  • Reichel, U.; Pfitzinger, H. R. und Hain, H.-U.: English grapheme-to-phoneme conversion and evaluation. Speech Analysis, Synthesis and Recognition, Applications in Systems for Homeland Security, Piechowice, Polen, 2008, S. 159 – 166.
  • Reichel, U.; Hain, H.-U. und Pfitzinger, H. R.: Evaluation of three grapheme-to-phoneme conversion methods. ECESS Workshop 2008, Vigo, Spanien, 2008.
  • Hain, H.-U.: LexComp: a Lexicon Compression Approach. In Proc. of AST Workshop 2008, Maribor, Slowenien, 2008.
  • Höge, H.; Kacic, Z.; Kotnik, B.; Rojc, M.; Moreau, N. und H.-U. Hain: Evaluation of Modules and Tools for Speech Synthesis – The ECESS Framework. LREC 2008, Marrakesch, Marokko, 2008, S. 91 – 95.
  • Petrick, R.; Unoki, M.; Mittal, A.; Segura, C. und Hoffmann, R.: A Comprehensive Study on the Effects of Room Reverberation on Fundamental Frequency Estimation. In Proc. of INTERSPEECH 2008, Brisbane, Australien, 2008, S. 131 – 134.
  • Petrick, R.; Lu, X.; Unoki, M.; Akagi, M.; Hoffmann, R.: Robust Front End Processing for Speech Recognition in Reverberant Environments: Utilization of Speech Characteristics. In Proc. of INTERSPEECH 2008, Brisbane, Australien, 2008, S. 658 – 661.
  • Petrick, R.; Lohde, K.; Lorenz, M. und Hoffmann, R.: A New Feature Analysis Method for Robust ASR in Reverberant Environments Based on the Harmonic Structure of Speech. In Proc. of EUSIPCO 2008, Lausanne, Schweiz, 2008, CD-ROM.
  • Unoki, M.; Petrick, R.; Mittal, A. und Hoffmann, R.: Effects of Room Reverberation on Robust and Accurate F0 Estimates. Technical Report of IEICE, Morioka, Iwate, Japan, 2008, S. 1 – 6.
  • Petrick, R.; Lu, X.; Unoki, M.; Akagi, M.; Hoffmann, R.: Robust Front End Processing for Speech Recognition in Reverberant Environments: Utilization of Speech Properties. Technical Report of IEICE, Morioka, Iwate, Japan, 2008, S. 7 – 12.
  • Petrick, R.; Jokisch, O. und Hoffmann, R.: The Influence of Reverberation: Speech Recognition versus Human Perception. In Proc. of SPECOM 2007, Moskau, Russland, 2007, S. 194 – 203.
  • Petrick, R.; Lohde, K.; Wolff, M. und Hoffmann, R.: The Harming Part of Room Acoustics for Automatic Speech Recognition. In Proc. of INTERSPEECH 2007, Antwerpen, Belgien, 2007, S. 1094 – 1097.
  • Hain, H.-U.: Context Dependent Phonetic Transcription. In Proc. of AST Workshop 2006, Maribor, Slowenien, 2006.
  • Bonafonte, A.; Höge, H.; Kiss, I.; Moreno, A.; Ziegenhain, U.; van den Heuvel, H.; Hain, H.-U.; Wang, X. S. und Garcia, M. N.: TC-STAR: Specifications of Language Resources and Evaluation for Speech Synthesis. LREC 2006, Genua, Italien, 2006, S. 311 – 314.
  • Hain, H.-U.; Racky, J. und Volk, T.: The Papageno TTS System. In Proc. of TC-STAR Workshop 2006, Barcelona, Spanien, 2006.
  • Petrick, R.; Hirschfeld, D.; Gruber, C. und Kienast, G.: Comparison of Signal Enhancement Techniques in Communications and Speech Control Tasks for a Single-DSP in-Car Application. In Proc. of Biennial on DSP for in-Vehicle and Mobile Systems 2005, Sesimbra, Portugal, 2005. Paper M2-6.
  • Petrick, R.; Kinast, G. und Hirschfeld, D.: Influence of a Single Channel and a Multi Channel Noise Reduction on the Recognition of Noisy Speech. In: Studientexte zur Sprachkommunikation Vol. 36, Proc. of the 16th Conference on Electronic Speech Signal Processing (ESSP), w.e.b. Universitätsverlag, Prag, Tschechien, 2005, ISBN 3-938863-17-X, S. 159 – 166.
  • Hain, H.-U.: Classification and Pronunciation of Numbers for a TTS System. In: Studientexte zur Sprachkommunikation Vol. 36, Proc. of the 16th Conference on Electronic Speech Signal Processing (ESSP), w.e.b. Universitätsverlag, Prag, Tschechien, 2005, ISBN 3-938863-17-X, S. 430 – 437.
  • Volk, T. und Hain, H.-U.: New Languages for Papageno embedded. In Proc. of AST Workshop 2004, Maribor, Slowenien, 2004.
  • Hain, H.-U. und Volk, T.: Preprocessing and Prosody Generation for a TTS System with a Very Small Footprint. In Proc. of AST Workshop 2003, Maribor, Slowenien, 2003, S. 131 – 141.
  • Tao, J. und Hain, H.-U.: Automatic Speech Segmentation for Chinese Speech Database Based on HMM. In Proc. of TENCON ’02, 2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering, 28. – 31. Oktober 2002, Peking, China, 2002, S. 481 – 484.
  • Hain, H.-U. und Zimmermann, H. G.: A Multi-lingual System for the Determination of Phonetic Word Stress Using Soft Feature Selection by Neural Networks. In Proc. of Fourth ISCA ITRW on Speech Synthesis, 2001, Perthshire, Scotland, 2001, Paper 120.
  • Hain, H.-U.: A Multi-lingual System for the Determination of Phonetic Word Stress Using Soft Feature Selection by Neural Networks. In Proc. of AST Workshop 2001, Maribor, Slowenien, 2001.
  • Hain, H.-U.: An Automatically Trainable Multi-lingual System for Grapheme-to-Phoneme Conversion for Speech Synthesis. In Proc. of Workshop on Multi-Lingual Speech Communication 2000, Kyoto, Japan, October 11 – 13, 2000, S. 122 – 127.
  • Hain, H.-U.: A Hybride Approach for Grapheme-to-Phoneme Conversion based on a Combination of Partial String Matching and a Neural Network. Proc. ICSLP 2000, Peking, 2000, III: S .291 – 294.
  • Hain, H.-U.: A DTW like Algorithm for Grapheme to Phoneme Mapping in Phonetic Dictionaries. In Proc. of AST Workshop 2000, Maribor, Slowenien, 2000.
  • Rojc, M.; Stergar, J.; Wilhelm, R.; Hain, H.-U.; Holzapfel, M. und Horvat B.: A Multilingual Text Processing Engine for the Papageno Text-to-Speech Synthesis System. In Proc. of Eurospeech 1999, Budapest, Ungarn, 1999, S. 2107 – 2110.
  • Hain, H.-U.: Automation of the Training Procedures for Neural Networks Performing Multi-lingual Grapheme to Phoneme Conversion. In Proc. of Eurospeech, Budapest, Ungarn, 1999, S. 2087 – 2090.

National

  • Robert, W.; Vogel, D.; Gräßer, F.; Schielke, M.; Starke, L.; Petrick, R.; Rex, R.; Lehmann, J.: iDOKS: Ein integriertes Dokumentationssystem zur Zusammenfassung von Gesprächen und Meetings. In Christoph Draxler (Hrsg.): Elektronische Sprachsignalverarbeitung, Tagungsband der 34. Konferenz für Elektronische Sprachsignalverarbeitung, ESSV 2023, München, TUDpress, 2023, ISBN: 978-3-95908-303-4, S. 209 – 216.
  • Lange, P. und Suendermann-Oeft, D.: Tuning Sphinx to Outperform Google’s Speech Recognition API. In Hoffmann, R. (Hrsg.): Studientexte zur Sprachkommunikation, Tagungsband der 25. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Dresden, Germany, TUDpress, März 2014, S. 32 – 41.
  • Claus, F.; Petrick, R. und Hain, H.-U.: Zum Stand der Technik in der automatischen Erkennung von Kindersprache. In Wolff, M. (Hrsg.): Studientexte zur Sprachkommunikation, Vol. 64, Tagungsband der 23. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Cottbus, Germany, TUDpress, ISBN 978-3-942710-81-7, 2012, S. 2012 – 2019.
  • Matthes, K.; Claus, F.; Hain, H.-U.; Petrick, R.: Herausforderungen an Sprachinterfaces für Kinder. In Mixdorff, H. (Hrsg.): Electronic Speech Signal Processing 2010, Berlin, TUDpress, 2010, ISBN 978-3-941298-85-9, S. 180 – 187.
  • Fehér, T.; Petrick, R.; Hoffmann, R.: Mehrkanaliges akustisches Front-End für Spracherkennungssysteme. In: Hoffmann, R. (Hrsg.): Studientexte zur Sprachkommunikation, Vol. 53, Tagungsband der 20. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Dresden, Germany, 2009. S. 135 – 141.
  • Hain, H.-U.; Jokisch, O. und Coelho, L.: Multilingual Voice Analysis: Towards Prosodic Correlates of Voice Preference In: Hoffmann, R. (Hrsg.): Studientexte zur Sprachkommunikation, Vol. 53, Tagungsband der 20. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Dresden, Germany, 2009.
  • Wittenberg, S.; Petrick, R.; Wolff, M. und Hoffmann, R.: Einkanalige Störgeräuschunterdrückung zur Steigerung der Worterkennungsrate eines Spracherkenners. In Fellbaum, K. (Hrsg.): Studientexte zur Sprachkommunikation, Vol. 33, Tagungsband der 18. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), TUDpress, Cottbus, 2007, ISBN-13: 978-3940046-40-6, S. 52 – 59.
  • Petrick, R.; Gruber, C. und Fenske, M.: Ein effektiver Algorithmus zur kombinierten Echounterdrückung und Geräuschreduktion in Freisprechanwendungen. In Fellbaum, K.: Studientexte zur Sprachkommunikation, Vol. 30, Tagungsband der 15. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), w.e.b. Universitätsverlag, Cottbus, 2004, ISBN: 3-937672-65-5, S. 236 – 243.
  • Hoffmann, R.; Jokisch, O.; Strecha, G.; Volk, T.; Hain, H.-U.; Fingscheidt, T.; Aalburg, S. und Stan, S.: Sprachsynthese mit minimiertem Footprint für Embedded-Anwendungen. VDE-Kongress Innovationen für Menschen, 18. – 20. Oktober 2004, Berlin, Band 1: Fachtagungsberichte der ITG/ETG. Berlin/Offenbach: VDE Verlag 2004, S. 187 – 192.
  • Hain, H.-U.; Volk, T. und Fingscheidt, T.: Preprocessing and Prosody Generation for a TTS System with a Very Small Footprint. In Kroschel, K. (Hrsg.): Studientexte zur Sprachkommunikation, Vol. 28, Tagungsband der 14. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), w.e.b. Universitätsverlag, Karlsruhe, 2003, ISBN: 3-935712-83-9, S. 272 – 279.
  • Hain, H.-U. und Zimmermann, H. G.: Optimierung der Eingabe eines neuronalen Netzes zur Bestimmung der Wortbetonung mit Hilfe von Weight Decay. In: Tagungsband der 12. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Bonn, 2001, S. 282 – 289.
  • Hain, H.-U.: Ein hybrider Ansatz zur Graphem-Phonem-Konvertierung unter Verwendung eines Lexikons und eines neuronalen Netzes. In: Tagungsband der 11. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Cottbus, 2000, S. 160 – 167.
  • Hain, H.-U.: Datengetriebene Vorgehensweise zur Disambiguierung linguistischer Kategorien und zur Satzendemarkierung. In Mehnert, D. (Hrsg.): Tagungsband der 10. Konf. für Elektron. Sprachsignalverarbeitung (ESSV), Görlitz, 1999, ISBN-13: 978-3933592644, S. 216 – 221.

Buchbeiträge

  • Petrick, R.: Robuste Spracherkennung unter raumakustischen Umgebungsbedingungen. Dissertation, Institut für Akustik und Sprachkommunikation, Technische Universität Dresden, TUDpress Verlag der Wissenschaften Dresden, 2009, ISBN-13: 978-3941298477.
  • Hoffmann, R.; Alisch, L.-M.; Altmann, A.; Fehér, T.; Petrick, R.; Wittenberg, S. und Hermkes, R.: The Acoustic Front-end in Scenarios of Interaction Research. In: Esposito, A., et al. (eds.): Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction. Selected papers from COST Action 2102 International Workshop. Berlin etc.: Springer-Verlag, 2008, ISBN: 978-3-540-79871-1, S. 188 – 200.
  • Hain, H.-U.: Phonetische Transkription für ein multilinguales Sprachsynthesesystem. Dissertation, Institut für Akustik und Sprachkommunikation, Technische Universität Dresden, w.e.b. Verlag, 2005, ISBN-13: 978-3937672762.

Patente

  • 7406417 „Method for conditioning a database for automatic speech processing“
  • 7333932 „Method for speech synthesis“
  • 7171362 „Assignment of phonemes to the graphemes producing them“
  • 7107216 „Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon“
  • 7664645 „Individualization of voice output by matching synthesized voice target voice“

Sperrveröffentlichungen