category-banner

Maschinelles Lernen für das Spracherkennungstraining Ppt

Rating:
100%

You must be logged in to download this presentation.

Favourites
Loading...
Impress your
audience
100%
Editable
Save Hours
of Time

Merkmale dieser PowerPoint-Präsentationsfolien :

Präsentation von maschinellem Lernen zur Spracherkennung. Diese Folien werden zu 100 Prozent in PowerPoint erstellt und sind mit allen Bildschirmtypen und Monitoren kompatibel. Sie unterstützen auch Google Slides. Premium-Kundensupport verfügbar. Geeignet für den Einsatz durch Manager, Mitarbeiter und Organisationen. Diese Folien sind leicht anpassbar. Sie können Farbe, Text, Symbol und Schriftgröße entsprechend Ihren Anforderungen bearbeiten.

People who downloaded this PowerPoint presentation also viewed the following :

Inhalt dieser Powerpoint-Präsentation

Folie 1

Auf dieser Folie wird die Spracherkennung als Anwendung des maschinellen Lernens vorgestellt. Es handelt sich um eine Funktion, die es einer Computersoftware ermöglicht, menschliche Sprache in Text umzuwandeln.

Folie 2

Diese Folie zeigt die Funktionsweise eines Spracherkennungssystems. Der dreistufige Prozess umfasst die Signalebene, die akustische Ebene und die Sprachebene, die ein analoges Signal in eine Transkription umwandelt.

Folie 3

Auf dieser Folie werden die wichtigsten Merkmale eines effektiven und effizienten Spracherkennungssystems aufgeführt. Zu diesen Funktionen gehören Sprachgewichtung, Akustiktraining, Sprecherkennzeichnung und Obszönitätsfilterung.

Hinweise des Dozenten:

  • Sprachgewichtung: Sie kann die Präzision verbessern, indem bestimmte Wörter gewichtet werden, die häufig verwendet werden, z. B. Produktnamen
  • Akustikschulung: Diese ML-gesteuerten Systeme konzentrieren sich auf den akustischen Teil des Geschäfts. Es trainiert das System, sich an Sprechstile (wie Tonhöhe, Lautstärke und Tempo) und akustische Umgebungen (wie sie in Callcentern vorkommen) anzupassen.
  • Sprecherkennzeichnung: Diese Systeme können eine Transkription eines Gesprächs mit mehreren Teilnehmern erstellen, die auf die Beiträge jedes Sprechers verweist oder diese markiert
  • Obszönitätsfilterung: Filter können verwendet werden, um bestimmte Wörter oder Phrasen zu identifizieren und die Audioausgabe zu bereinigen

Folie 4

Auf dieser Folie werden Arten von Spracherkennungsalgorithmen dargestellt. Dazu gehören die Verarbeitung natürlicher Sprache, das Hidden-Markov-Modell, N-Gramme, neuronale Netze und die Sprecherdiagnose.

Hinweise des Dozenten:

  • Verarbeitung natürlicher Sprache: Während die Verarbeitung natürlicher Sprache (NLP) nicht unbedingt eine spezielle Methode zur Spracherkennung ist, handelt es sich um einen Zweig der künstlichen Intelligenz, der sich auf die Mensch-Maschine-Interaktion über Sprachen wie Sprache und Text konzentriert. Viele mobile Geräte verfügen über eine integrierte Spracherkennung, um Sprachsuchen durchzuführen (z. B. Siri) oder die Zugänglichkeit von Nachrichten zu verbessern
  • Hidden-Markov-Modell: Hidden-Markov-Modelle ermöglichen es uns, versteckte Ereignisse in ein Wahrscheinlichkeitsmodell einzufügen, beispielsweise Wortart-Tags. Sie werden als Sequenzmodelle bei der Spracherkennung verwendet und weisen jedem Element in der Sequenz, z. B. Wörtern, Silben, Phrasen usw., Beschriftungen zu. Diese Beschriftungen erstellen eine Zuordnung mit der verfügbaren Eingabe und ermöglichen so die Identifizierung der relevantesten Beschriftungssequenz
  • N-Gramm: Dies ist das grundlegendste Sprachmodell, bei dem Sätzen oder Phrasen Wahrscheinlichkeiten zugewiesen werden. Ein N-Gramm ist eine Sammlung von N Wörtern. Beispielsweise ist „Bestellen Sie die Pizza“ eine 3-Gramm-Phrase, während „Bitte bestellen Sie die Pizza“ eine 4-Gramm-Phrase ist. Grammatik und die Wahrscheinlichkeit bestimmter Wortfolgen werden genutzt, um die Erkennung und Genauigkeit zu erhöhen
  • Neuronale Netze: Trainingsdaten werden mithilfe neuronaler Netze verarbeitet, die mithilfe von Knotenschichten die Vernetzung des menschlichen Gehirns nachbilden. Jeder Knoten besteht aus Eingaben, Gewichtungen, einer Vorspannung und einer Ausgabe. Wenn der Ausgabewert einen bestimmten Schwellenwert erreicht, wird der Knoten aktiviert und die Daten werden an die nächste Ebene des Netzwerks weitergeleitet. Durch überwachtes Lernen lernen neuronale Netze diese Zuordnungsfunktion und ändern sie dann mithilfe eines Gradientenabstiegs basierend auf der Verlustfunktion
  • Sprecher-Diarisierung: Sprecher-Diarisierungsalgorithmen erkennen und segmentieren Sprache basierend auf der Identität des Sprechers. Dies ermöglicht es Programmen, zwischen Personen in einer Diskussion zu unterscheiden und wird häufig in Contact Centern verwendet, um zwischen Kunden und Kundenbetreuern zu unterscheiden

Folie 5

Diese Folie zeigt den IBM-Anwendungsfall der durch maschinelles Lernen gesteuerten Spracherkennung. Spracherkennungstechnologien und -dienste ermöglichen es IBM, komplizierte Geschäftsabläufe zu automatisieren und gleichzeitig wichtige Geschäftseinblicke zu gewinnen.

Hinweise des Dozenten:

  • IBM Watson Speech to Text: IBM Watson Speech to Text ist eine cloudbasierte Lösung, die Informationen über Grammatik, Sprachstruktur und Audio-/Sprachsignalzusammensetzung anwendet, um eine individuelle Spracherkennung für eine effektive Texttranskription zu generieren
  • IBM Watson Text to Speech: IBM Watson Text to Speech liefert menschenähnliches Audio aus geschriebenem Text, erweitert die Zugänglichkeit über Sprachen und Interaktionsmodi hinweg und steigert die Kundenbindung und -zufriedenheit

Ratings and Reviews

100% of 100
Write a review
Most Relevant Reviews

2 Item(s)

per page:
  1. 100%

    by Cleo Long

    Wonderful templates design to use in business meetings.
  2. 100%

    by O'Connor Collins

    What an exhaustive collection of templates you guys have there in slideteam. Impressive!!!

2 Item(s)

per page: