WAV/MP3 in Text konvertieren

  • Vielleicht weiß hier ja jemand was:


    Ich bin auf der Suche nach einem Tool, welches in der Lage ist, Audio-Dateien - z. B. WAV, MP3 - in Text zu konvertieren...macht natürlich nur Sinn, wenn diese Audio-Dateien auch wirklich Text enthalten, aber genau darum geht es mir auch.

    Ich habe nichts dagegen, wenn ich dafür ein paar Euro hinlegen muss - ich hab natürlich auch nichts dagegen, wenn es so ein (gutes) Teil als Freeware gibt :mrgreen::haha:


    Außerdem sollte es definitiv kein Online-Tool sein, davon gibt's mehrere, so etwas will ich nicht, sondern etwas, was ich lokal/stationär installiere.

    Ich suche auch kein Dictate-Tool. denn ich will nichts diktieren, sondern gesprochenes/aufgezeichnetes wieder in Text verwandeln.


    Selbst ich komme bei der Google-Suche da nicht so ganz mit, denn egal, was ich als Suchbegriff angebe, wird mir z. B. ständig ein namhafter Allroud-Konverter angeboten, der alles konvertieren kann, nur nicht Audio in Text, oder es werden Online-Tools angeboten, oder "kostenlose" Testversionen und und und...was vernünftiges ist mir noch nicht untergekommen:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Nordmann2012

    Hat den Titel des Themas von „Wav/MP3 in Text“ zu „WAV/MP3 in Text konvertieren“ geändert.
  • An sowas habe ich auch schon gedacht, also als Notlösung:gruebel: Also, ich schalte das Mikrophon in World ein und spiele die WAV-Datei ab:gruebel:


    Die Diktat-Funktion von Word (egal, ob online oder stationär) funktioniert fast absolut sauber, wie ich feststellen durfte:zwinker: Im Online-World (aber auch nur dort) gibt es seit ganz kuirzem eine Transcribe-Funktion, aber leider kann die nur englisch:(:twisted:


    Der Hintergrund: In meinem Projekt muss ich was quatschen, und da ich nicht der geborene Kommentator bin, ist das Ergebnis bis auf sehr wenige Stellen überhaupt nicht so, wie ich es haben will:gruebel:


    Ich will aber das Rad auch nicht neu erfinden müssen, d. h. ich brauche mein Gesprochenes als Text, um das einüben und danach das dann flüssiger und mit mehr signifikanter Betonung sprechen zu können.


    Ich könnte mich natürlich selber abhören und dann mitschreiben...mühselig!:o


    Da ich außerdem den gleichen Kommentar auch mindestens auf englisch sprechen will, brauche ich den Quelltext ohnehin:gruebel:


    Ich hatte vor ein paar Wochen so begonnen, dass ich den Text vorher ausgearbeitet und dann abgelesen habe...nicht gut,, überhaupt nicht gut, klingt vollkommen unnatürlich:(:nein: Also habe ich eine gewisse Grundlage, sozusagen eine Kladde ausgearbeitet, das hat dann mehr schlecht als recht - also gefühlt fast nur schlecht - funktioniert:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Danke für Deine Mühe, aber das hatte ich gleich zu Beginn meiner Recherchen auf dem Monitor:gruebel:


    Vielleicht nochmal zum besseren Verständnis: Ich suche kein KEIN Diktier-Programm!


    Das Teil von Microsoft bzw. World, was Dein Link beschreibt, habe ich schon per se in meinem Office 365, und das funktioniert auch ohne das eigentlich für Spracheingabe-Funktionen nötige Training ausgezeichnet:zwinker:



    Ich suche eine Software, die Audio-Dateien wie z. B. WAV, MP3 und ähnliche lädt und dann in Text konvertiert!


    Klar, zaebon, die eine Idee von Dir wäre für mich eine Notlösung, nämlich das Mikro direkt neben den Lautsprecher legen und die Audio-Datei (am besten wäre da wohl MP3, wie ich inzwischen festgestellt habe) abzuspielen:gruebel: Wenn nichts anderes geht, würde und werde ich das wohl so tun müssen:o


    Ich habe inzwischen mal geguckt und mir Express Scribe:link: heruntergeladen und installiert, wobei ich nicht lange gefackelt und mir gleich die Pro-Version gekauft habe.


    Also, das Teil scheint wohl neben einigen anderen Dingen auch das zu können, was ich will und vorstehend beschrieben habe...aber ich sag Euch, es ist unglaublich mühselig, dahin zu kommen, was ich möchte:o:twisted:


    Ich bin inzwischen so weit, dass ich WAV- und MP3-Dateien (von der Software "Diktate" genannt) laden und abspielen kann...jetzt sitze ich hier und brüte und experimentiere am nächsten Schritt, nämlich herauszufinden, wie die Transcription (also Konvertierung von Audio in Text) funktioniert:twisted:


    Es MUSS gehen, so steht es in allen Beschreibungen der Software, aber wie genau (und in wenigen/erfoderlichen) Schritten, steht nicht mal in der Hilfe der Software...ich bin ja einiges gewöhnt an solchen "Hilfen", und selbst wenn ich keine Ansprüchen stellen würde (und als ehemaliger Hilfe- und Anleitungs-Manual Author tue ich das eigentlich), stände/stehe ich hier wie der Ochs vor'm Berg...DIE Hilfe hätten die sich sparen können:twisted:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Ups:oMir ist es endlich gelungen, die Transcription einzusetzen...und ich kugel mich hier gerade vor lauter Lachen:lol2:


    Ich glaube, ich werde wohl doch das Diktat-Traning der MS-Sprachsoftware durchführen müssen:haha:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Aha!


    Man muss also tatsächlich die eigene (Aus-) Sprache des gewählten Profils trainieren, um zu besseren Ergebnissen zu kommen...ich habe gerade das erste, quasi Basis-Stimmen-Training, durchgeführt, und schon das hat sowas von deutlicher Auswirkung.


    Der Text meiner Beispiel-Audio-Datei ist zwar immer noch wenig brauchbar (zu viele nötige Korrekturen), aber nun erkennt die Software doch sehr viel mehr, der Sinn meines "Vortrags" von etwa einer Minute Dauer ist doch schon zu erkennen...mal sehen, wie das nach meiner Mittagspause weiter geht.


    Also, eines scheint klar: Die Software, die ich mir da angelacht habe, scheint grundsätzlich (gut?) zu funktionieren, aber egal, für was man sich da entscheidet (ich habe noch 2, 3 weitere Tools gefunden, die das leisten sollen, was mir vorschwebt), man sollte die Windows 10 eigene Spracherkennung unbedingt sorgfältig trainieren, und darauf wird leider nirgends deutlich sichtbar hingewiesen.

    Eine Selbstverständlichkeit ist so etwas auch aktuell nach wie vor nicht, nämlich dass man ohne jedwede Vorbereitung deutlich mehr als ein paar schnöde Windows (oder Android und Co) Kurzbefehle ins Mikro pusten kann und das System so etwas korrekt umsetzt:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Hier mal ein Beispiel davon, wenn man mit einem Transcripting-Tool und noch vergleichsweise untrainierter Spracherfassung, -erkennung arbeitet: Ich hatte in der Übungs-MP3-Datei "Lara Croft" gesagt, das Tool hat daraus "Al di la hofft" gemacht:mrgreen:

    An anderer Stelle in besagter Übungs-Datei steht (also ist zu hören): "wie ich meine", das Tool hat stattdessen "sich Mark für" ausgespuckt:o:haha:


    Es scheint also schon sehr wichtig zu sein, dass nicht nur Spracheingabe deutlich erfolgt, sondern auch die Qualität der Audio-Datei so hochwertig wie möglich sein sollte:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Noch ein "Ergebnis" des Transcripters, das mich zum Lachen gebracht hat: In meinem Übungstext heißt es "und tja, dann ab dafür", die Software macht daraus "und Jagd fernab der Führung":mrgreen:


    Es ist ja schon deutlich besser geworden, aber um zu erreichen, dass da auch wirklich Texte "ausgespuckt" werden, die ich nur wenig korrigieren muss, sind wohl noch einige 5-Minuten-Trainings-Einheiten für die Spracheingabe notwendig.


    Trotzdem: Es scheint so, als ob sich die Ausgabe gelohnt hat, allerdings speziell für meine Zwecke, ich muss fast 1 Stunde Aufnahmen transcripieren, und das eventuell nicht nur einmal:o


    Wer so etwas aller Vorraussicht nach nur einmal benötigt (oder einmal alle 2 Jahre oder so) und außerdem nur wenig Audio in Text konvertieren muss, sollte sich überlegen, ob sie/er statt der etwas mehr als 30€ nicht lieber die paar Male in 1, 2 Stunden unter Mithören tippselt:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • man könnte die Datei vielleicht abspielen und direkt selbst wieder erkennen lassen :gruebel:

    nämlich das Mikro direkt neben den Lautsprecher legen und die Audio-Datei (am besten wäre da wohl MP3, wie ich inzwischen festgestellt habe) abzuspielen:gruebel:

    Das habe ich auch gerade mal ausprobiert...das Ergebnis ist erstaunlich gut, viel viel genauer als das mit der Software:o


    Ich schaue zunächst noch nach, ob die Software mit weiterem Spracherkennungstraining des Computers noch besser reagiert, aber nicht sehr lange...das sind nicht sehr viele Korrekturen, die ich beim o. a. Versuch durchführen musste:gruebel:


    Tun mir jetzt die etwas mehr als 30€ leid? Nicht wirklich, nein, hab ich in Kauf genommen, das Risiko, aber doch erstaunlich, wie groß der Unterschied sein kann, wenn dieMicrosoft Spracherkennungssoftware mit einem simplen Trick alles gut erkennt und das Ergebnis recht ordentlich in einem World-Dokument plazieren kann, die Transcriptions-Software aber nicht...gibt zu denken:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Das habe ich auch gerade mal ausprobiert...das Ergebnis ist erstaunlich gut, viel viel genauer als das mit der Software

    Das muss ich zurück nehmen:twisted:

    Bis zum späten Nachmittag - also vorgestern - klappte es so, und dann, urplötzlich, wie aus heiterem Himmel war irgendwas mit den Audio-Einstellungen anders, und nicht nur dort, und ich schwöre erneut, ich habe definitiv nichts am System gemacht:gruebel::oIch habe auch mal in Protokollen o. ä. nachgeschaut, nichts, was vorgestern Nachmittag irgend etwas "veranlasst" haben könnte:gruebel:


    Plötzlich waren die Voreinstellungen zum Öffnen bestimmter Dateien weg, z. B. öffnete sich beim Doppelklick auf Bilder plötzlich wieder die Auswahl, mit welchem Bilder-Tool das Ding geöffnet werden soll, wo ich doch so etwas beispielweise immer mit der Windows Fotoanzeige öffne:gruebel:, und mit den anderen Typen war das nicht anders...wie geschrieben, wie aus heiterem Himmel, und es gab kein Update oder sonst irgendwas, was manchmal im System herumfuhrwerkt:twisted:


    Auf jeden Fall hate sich die Aufnahme-Eigenschaft geändert, und plötzlich waren auch die "provisorischen" Aufnahmen Lautsprecher->Mikrophon->Dokument vollkommen "unfertig", auch das "Sprach-Training" für Computer-Spracherkennung (zu finden in der Systemsteuerung) bringt offenbar kaum was:twisted:


    Komisch, das alles:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • Da bin ich oben ja gut in Panik geraten:o...und ursächlich war ne "Eigenart" meiner Video-Software, die ab und an meint, das Standard-Mikro (statt meiner eigenen Einstellung) bereitstellen zu müssen, Magix macht sowas manchmal.


    Scheint doch alles so weit ok zu sein.

    Die Software, die ich mir gekauft hatte, kann man wohl wirklich knicken:gruebel::(


    Wenn nun jemand zaebon's Tip befolgen will - der als Provisorium grundsätzlich funktioniert -, dann sollte sie/er folgendes beachten:


    Das in MP3- oder WAV-Format vorrhandene "Diktat", welches wieder automatisch (also nicht abhören und mitschreiben) in schriftliche Form gebracht werden soll, sollte schon eine annehmbare gesprochene Qualität haben. Wenn man ohne solche Absichten z. B. ein Let's Play oder so kommentiert und nicht wirklich sorgfältig (deutlich, nicht zu schnell) spricht, hat man schon das erste Problem...ich habe mich vorhin erneut ausgeschüttet vor Lachen, was so alles dabei herausgekommen ist, sogar der Begriff "Merkel" tauchte aus mir unerfindlichen Gründen einige Male im Text auf:mrgreen::haha:


    Nicht weniger wichtig ist die Wiedergabe. Die meisten Systeme werden wohl ihr Soundsystem in's Mainboard integriert haben, meistens ist das wohl Realtek. Dazu wird dann die eigene Software geliefert, entweder auf der CD/DVD des Mainboards oder nachträglich downloadbar, wobei letzteres meist aktueller ist.


    Das dazu dann halbwegs brauchbare Lautsprecher gehören, ist obligatorisch. Bei den (Realtek-) Sound-Einstellungen, egal welches System (Stereo, 5:1, 7:1), ist es wichtig (auch mit dem wahrscheinlich vorhandenen Equalizer), die tiefer gelegenen Frequenzen "abzumildern", wie ich festgestellt habe.

    Unser Ohr hört Tieftöne nur bis 30 Hertz, eher noch höher, aber die Diktat-Software von Windows 10 z. B. kriegt das offenbar mit und missinterpretiert daher die Schallwellen (damit nämlich funktioniert die Spracherkennung).

    Meine Aufnahmen mit dem Mikro vom Lautsprecher wurden plötzlich sehr viel besser, nachdem ich die tiefen Töne (ich höre nunmal gerne so viel Bass, wie nur irgend möglich:haha::mrgreen: ) herausgenommen hatte, wohingegen die Höhen keine so große Rolle zu spielen scheinen.


    Zu guter Letzt muss man etwas mit der Lautstärke der Lautsprecher justieren. Die sollte nicht zu leise sein, denn dann verschluckt die Aufnahme-/Stimmerkennungsfunktion von Windows "genuschlte", undeutlich gesprochene Worte, aber auch nicht zu laut, denn dann werden Töne "mitverwertet", die mit der Stimme aus dem Lautsprecher nichts zutun haben.


    Auf diese Weise konnte ich meine Kommentare, die ich in Textform vorliegen haben muss, einigermaßen eben dorthin rekonstruieren:zwinker:


    Ich weiß offen gestanden nicht, ob es deutlich bessere Transcriptiuon-Tools wie das von mir gekaufte gibt, denn eines haben die gewiss miteinander gemein: Sie sind auf eine vernünftige Quelle, sprich Texte im Audio-Datei-Format angewiesen:gruebel: Mit dem Express Scribe, das ich mir gekauft habe, werde ich bestimmt weiter experimentieren, vielleicht finde ich ja doch noch die Lösung, um wirklich komfortabel Texte aus Sound-Dateien wieder in Text zu konvertieren.

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel:

  • abgesehen von dir natürlich:mrgreen:

    Tja, es schaut aus, als wäre ich ein ganz besonderes Unikat:gruebel:

    :mrgreen::haha:


    Ich beschreibe mein Motiv für diese Herausforderung nochmal genauer: Ich brauche den Text (allesamt Kommentare) für mögliche Übersetzungen.


    Ich hatte zunächst versucht, frei drauflos zu diktieren (also kommentieren), aber bei diesem speziellen Let's Show geht das nicht so einfach, eigentlich ganz und gar nicht:gruebel:


    Vorher hatte ich aber auch versucht, zunächst den Text zu verfassen, hatte da aber noch überhaupt kein Gefühl für Geschwindigkeit des Clips und Inhalt meines gesprochenen Kommentars...zusammen handelt es sich dabei durchaus um zwischen 50 und 60 Minuten Text:o


    Irgendwie hatte ich das aber dann doch hingekriegt, mit "lockeren" Textvorgaben als "Leitfaden", mehr schlecht als recht, wie ich gemerkt hatte, als ich mir das erste fertige Werk angeschaut/angehört habe.


    Was ziemlich genau stimmt, ist, dass Text (also Kommentar) und Film zusammenpassen...aber Abhören und dabei mit-tippseln war definitiv nicht die Lösung, das hatte ich kurz versucht.


    Jetzt habe ich also Text, der zwar immer noch an nicht wenigen Stellen ordentlich korrigiert werden muss, aber dazu muss ich nun nicht dauernd hinhören...und ich habe eine Chance:


    Im original Text sind, wie es nunmal leider bei meinen Kommentaren der Fall ist, nicht wenige "äh", viel zu viele, also so, dass das unangenehm auffällt...und ich bin kein Sportkommentator, neige also dazu, doch eher etwas "ruhig" zu sprechen, und das Movie, was ich kommentieren möchte, verdient doch auch im Kommentar etwas mehr "Lebhaftigkeit":gruebel:


    Es würde mich garnicht wundern, wenn es noch mehr Leute gäbe, die eine ähnliche Aufgabe zu bewältigen haben, aber nicht weiter darüber nachdenken, denn, wie Du schriebst, es ist wohl doch etwas ungewöhnlich, vielleicht trauen sich einige einfach nicht, dazu was zu schreiben geschweige denn nachzufragen:gruebel:

    "Geht nicht" gibt's nicht..."Gibt's nicht" geht auch nicht immer...
    Wer will, findet Wege, wer nicht will, sucht Gründe...und der Mensch ist Weltmeister im Erfinden von Gründen :mrgreen:

    Wenn die Klügeren immer nachgeben, haben am Ende nur noch die Dummen das Sagen:gruebel: