Der Status der Linux-Spracherkennung

Die Spracherkennung unter Linux folgt den Windows- und Mac-Plattformen, da sowohl Microsoft als auch Apple viel Zeit und Kosten in das Hinzufügen von Sprachbefehls- oder Sprachassistenten-Software zu ihren Kernbetriebssystemen investiert haben.

Obwohl die Situation für Linux nicht so trostlos ist, wie es bei vielen Spitzentechnologien der Fall ist, bleibt das freie und Open-Source-Universum einen Schritt zurück, insbesondere bei Sprachbefehlstools.


Native Linux-Spracherkennung

Keine Linux-Distribution konzentriert sich auf die Spracherkennung. Apps, die Spracherkennungsfunktionen unterstützen, basieren jedoch auf einer Handvoll Open-Source-Bibliotheken, darunter Sphinx, Kaldi, Julius und Mozilla Deepspeech.

Negativespace / Mockup.Photos

Diese Bibliotheken stützen sich auf ein Sprachkorpus, um Variationen von Tönen anzubieten, um die KI zu trainieren und daher die Sprache korrekt in Text zu übersetzen. Open-Source-Projekte sind jedoch weniger anspruchsvoll (da sie weniger Beiträge zum Trainieren der KI leisten), was bedeutet, dass die meisten Text-zu-Sprache-Apps für Linux die Konvertierung häufig verpfuschen. Normalerweise verpfuschen sie es so gründlich, dass nicht klar ist, was die ursprüngliche Rede gewesen sein könnte.

Optionen für Linux Speech to Text

Verwenden Sie einen von fünf Lösungswegen.

  • Verlassen Sie sich auf native Linux-Apps, die in den Repositorys Ihrer Distribution verfügbar sind - falls vorhanden.
  • Amazon stellte Alexa für Linux zur Verfügung, auch für Raspberry Pi. Sie müssen viele benutzerdefinierte Anpassungen vornehmen, damit dieses Arrangement funktioniert, aber es wird funktionieren.
  • Greifen Sie über DictationIO in Ihrem Browser auf die Google Speech API zu. Dieser Dienst funktioniert nur für Diktate. Sie können es nicht für Sprachbefehle verwenden. Es wird von Googles KI betrieben, daher ist die Qualität gut.

  • Verwenden Sie einen Dienst wie Alexa oder Google Assistant als Sprachbefehlsdienstprogramm für Linux über den Triggercmd-Dienst. Triggercmd wird auf Ihrem Computer ausgeführt. Verwenden Sie diese Option, um Alexa oder Google Assistant aufzurufen und diese Tools basierend auf Ihrem Befehl bestimmte Bash-Skripte ausführen zu lassen. Sagen Sie etwas wie "OK Google, fragen Sie den Triggerbefehl, um den Rechner zu öffnen." Google Assistant dient als Vermittler mit Triggercmd, um das Bash-Skript auszuführen, das durch den Ausdruck "Rechner öffnen" angegeben wird.
  • Verwenden Sie Wine oder eine virtuelle Maschine mit Software für Windows wie Dragon NaturallySpeaking. Mit der richtigen Optimierung können Sie die Dragon-Engine für die Transkription verwenden, obwohl diese Lösung für Sprachbefehlsanwendungen nicht funktioniert.

Schreibe einen Kommentar