Difficult Audio for AI Transcription: Mojikoshi-san Insights
7. juni 2025

Mojiokoshi-san er en AI-transskriptionstjeneste, der bruger AI til at transskribere lyd. AI'en bruger teknologier fra Google og AmiVoice (en japansk udbyder af talegenkendelsessystemer).
AI-transskription har styrker og svagheder, når det kommer til de lydfiler, den transskriberer.
I denne artikel vil vi introducere eksempler og årsager til lydfiler, som AI-transskription har svært ved eller er dårlig til.
Ved at kende eksemplerne og årsagerne kan du skabe lydfiler, der er nemmere at transskribere med AI-transskription, så brug det som reference.

Lydfiler, som AI-transskription har svært ved
- Lyd, der er for lav, eller hvor mikrofonen er for langt væk, hvilket gør det svært at høre.
- Lyd, hvor støj er så intens, at stemmen overdøves.
- Lyd, der er sløret på grund af rumklang fra indendørs ekkoer.
- Lyd, der indeholder musik, såsom sangtekster.
- Lyd, der ikke indeholder stemmer.
- Lyd med meget stærk dialekt.
- Lyd, hvor flere sprog er blandet.
- Lyd, der er svær at høre for et menneske.
Vi anbefaler ikke at bruge Mojiokoshi-san til sådanne lydfiler, da de ikke kan transskriberes nøjagtigt.
Relateret artikel >6 tips til optagelse for nøjagtig AI-transskription
Hvis du rapporterer en fejl for en lydfil, som AI-transskription har svært ved, vil den blive afvist, og du vil ikke kunne få refunderet timer.
Især er mange fejlrapporter relateret til problemer med filens indhold. Lad os se på et par eksempler.
Ingen stemme optaget i filen (der er perioder med kontinuerlig støj eller stilhed)
Hvis du uploader en lydfil uden at kontrollere dens indhold, kan det ske, at:
Optagelsen er mislykkedes, hvilket resulterer i "mislykket optagelse og stilhed" eller "mikrofonen blev afbrudt under optagelsen, så kun støj kan høres i midten, og der er ingen stemme."
Billedet ovenfor viser resultatet af en transskription af en fil, der kun indeholdt støj.
Mojiokoshi-san bruger AI til transskription. AI'en vil forsøge at transskribere så godt som muligt, selv i støjende områder.
Dette problem opstår især, når du bruger PerfectVoice, og filen har mere end 1 minuts støj eller stilhed i begyndelsen.
Hvis du får et uforståeligt transskriptionsresultat, såsom "aaaaaaa" eller "nnnnnnn", eller hvis den samme sætning transskriberes gentagne gange, bedes du kontrollere filens indhold.
Du kan forhindre dette problem ved at klippe støj eller stilhed i begyndelsen af filen.
Selvom du transskriberer en fil som beskrevet ovenfor og bruger timer, kan timerne ikke refunderes.
1. Lyd, der er for lav, eller hvor mikrofonen er for langt væk, hvilket gør det svært at høre.

Når jeg gennemgår de lydfiler, der har resulteret i fejl, er det mest almindelige problem, at lyden er for lav, eller at mikrofonen er for langt væk.
er dette eksempel.
Selv hvis transskriptionen er mulig, vil nøjagtigheden være lav. Derfor anbefales AI-transskription ikke til lydfiler, hvor talerens lydstyrke er lav, eller hvor mikrofoninputtet er for fjernt, og lyden ikke er ordentligt opfanget.
Eksempel: Optagelse af en forelæsning med en smartphone fra de bagerste rækker i et forelæsningslokale.
2. Lydfiler med kraftig støj, der overdøver stemmen
Støj er en stærk fjende for AI-transskription!

I lyd med støj er talerens stemme ofte overdøvet, og det er "svært at høre, selv for mennesker".
Det er let at overse under optagelse, men vindstøj er også en stærk fjende.
Det er umuligt for AI at transskribere noget, der er "svært at høre, selv for mennesker", med høj nøjagtighed.
Eksempel: Optagelse i et støjende miljø som en café udendørs, eller med lyden af service eller musik (baggrundsmusik).
Nærhed mellem mund og mikrofon, hvilket resulterer i vindstøj fra vejrtrækning.
3. Lydfiler, hvor lyden er sløret på grund af rumklang
Det er overraskende svært at lægge mærke til rumklang i hverdagen, når man lytter med sine egne ører.
Når lyden er optaget, kan rumklang lyde dæmpet eller som om stemmen kommer langvejsfra.
Især i firkantede rum eller rum med få møbler er der tendens til at opstå rumklang.
Eksempel: Optagelse af samtaler mellem flere personer, der sidder forskellige steder i et mødelokale med én IC-optager.
Optagelse af en præsentation i et mødelokale, hvor lyden er sløret på grund af rumklang.
4. Lydfiler med musik, såsom sangtekster

AI-transskription kan ikke transskribere sange.
Nogle overvejer at downloade sange uden tekst fra YouTube og forsøge at transskribere dem!
Men AI-transskription er udelukkende beregnet til at transskribere samtaler.
Den kan ikke transskribere sange.
Eksempel: Downloade en sang fra YouTube og transskribere den.
5. Lydfiler uden lyd
Lydfiler uden lyd kan ikke transskriberes.

Det er selvfølgelig umuligt at transskribere noget, der ikke indeholder lyd.
Måske har du forsøgt at transskribere uden at vide, at mikrofoninputtet var sat til nul.
Før du forsøger at transskribere, skal du kontrollere lydfilen manuelt og sikre dig, at "lyden er korrekt indtastet", før du prøver AI-transskription.
Eksempel: Ikke klar over, at mikrofoninputtet ikke fungerede
6. Stærke dialekter

AI-transskription er ikke god til dialekter.
Som navnet antyder, udføres AI-transskription af "AI". AI er trænet til at transskribere baseret på standardsprog. Derfor er den ikke god til at transskribere dialekter.
Selvom det ikke er umuligt at transskribere med AI, kan det resultere i en transskription med manglende ord eller kun en lille del, selvom optagemiljøet er godt, og taleren taler tydeligt og langsomt.
Eksempel: Lyd optaget til referat fra et regionalt møde → talerens dialekt er meget stærk
Eksempel: I tilfælde af japanske dialekter
Selv lyd optaget af en dygtig annoncør i et godt optagemiljø som tv, vil dialekter ikke blive transskriberet godt.
7. Hvad der er svært for mennesker at høre
Hvad der er svært for mennesker at høre, er endnu sværere for AI at høre.

Når man hører "AI", tænker man, at det er meget alsidigt og kan udføre arbejde bedre end mennesker.
Men AI er stadig ikke på niveau med mennesker.
Når der kræves fleksibilitet, falder AI's arbejdspræcision drastisk.
I tilfælde af AI-transskription falder transskriptionsnøjagtigheden meget, hvis det er noget, som et menneske finder "svært at høre".
Når mennesker transskriberer, kan de, selvom det er lidt svært at høre, forudsige "det må være sådan" ud fra samtalens kontekst og flow.
Men AI-transskription kan kun transskribere "som det høres". Den kan ikke supplere eller forudsige som et menneske.
Hvordan opnår man højpræcisions transskription med AI-transskription?


For at opnå højpræcis AI-transskription er det vigtigt at anvende visse teknikker under optagelsen.
Denne artikel introducerer de optimale optagepunkter, når du transskriberer med AI.
6 optimale optagepunkter for AI-transskription
- Mikrofon af høj kvalitet
- Mikrofonen er korrekt placeret
- Sørg for et stille optagemiljø
- Gør talerens udtale tydelig
- Tal én ad gangen
- Udfør en optagetest
For mere information >>6 optagepunkter for præcis transskription
Udnyt AI-transskription og manuel transskription effektivt
Sammenligner man AI-transskription med manuel transskription, er AI-transskription markant billigere.
Især blandt AI-transskriptionstjenester er "Mojiokoshi-san" ekstremt billig og sandsynligvis den billigste i branchen.
Men for lydfiler, som AI-transskription har svært ved at transskribere, er det mere pålideligt at bestille manuel transskription.
Men er det ikke dyrt at bestille manuel transskription?
Hvis du undrer dig over det, kan du læse denne artikel.
Relateret artikel >>Hvad er den gennemsnitlige pris for ekstern transskription af tale? [Tips til at bestille billigt inkluderet]
Som nævnt har AI-transskription sine styrker og svagheder.
For lydfiler, som AI-transskription er god til, brug "AI-transskription".
For lydfiler, som AI-transskription har svært ved:
- Prøv at transskribere med AI-transskription
→ Hvis det ikke virker, transskriber med "manuel transskription"
anbefales.
AI-transskription er billig, så selv for lydfiler, som AI-transskription måske har svært ved, kan det lykkes at transskribere, hvis du prøver med indstillingen "intet tab, hvis det ikke virker; heldigt, hvis det gør".
Mojiokoshi-san's AI-transskription giver dig mulighed for at transskribere de første 1 minut gratis. Du kan kontrollere transskriptionsnøjagtigheden. Prøv det gerne.
■ AI-transskriptionstjeneste "Mr. Transscription"
"Mr. Transcription" er et online transskriptionsværktøj, der kan bruges fra nul startomkostninger og 1.000 yen om måneden (* gratis version tilgængelig).
- Understøtter mere end 20 filformater såsom lyd, video og billeder
- Kan bruges fra både pc og smartphone
- Understøtter tekniske termer såsom lægehjælp, IT og langtidspleje
- Understøtter oprettelse af undertekstfiler og højttaleradskillelse
- Understøtter transskription på cirka 100 sprog, inklusive engelsk, kinesisk, japansk, koreansk, tysk, fransk, italiensk osv.
For at bruge det skal du bare uploade lydfilen fra webstedet. Transkriptionstekst er tilgængelig på sekunder til titalls minutter.
Du kan bruge det gratis, hvis du transskriberer det i op til 10 minutter, så prøv det en gang.
Email: mojiokoshi3.com@gmail.com
Transskription til lyd / video / billedtranskription. Det er en transskriptionstjeneste, som alle kan bruge gratis uden installation.
- Hvad er Mr. Transcription?
- Transskription af billeder, lyde og videoer med Mr. Transcription
- Gratis registrering
- Takstplan
- brugervejledning