AI-transkripsjon: Hvorfor sliter den med lydfiler? (Eksempler)

7. juni 2025

AI-transkripsjon: Hvorfor sliter den med lydfiler? (Eksempler) | AI-transkripsjonstjeneste - Mr. Transcription

Mojiokoshi-san er en AI-transkripsjonstjeneste som bruker kunstig intelligens til å transkribere lyd. AI-en benytter teknologier fra Google og AmiVoice (en japansk leverandør av stemmegjenkjenningssystemer).

AI-transkripsjon har både styrker og svakheter når det gjelder hvilke lydfiler den kan transkribere.

Denne artikkelen vil presentere eksempler på lydfiler som AI-transkripsjon sliter med, samt årsakene til dette.

Ved å kjenne til disse eksemplene og årsakene, kan du lage lydfiler som er enklere å transkribere med AI-transkripsjon. Ta gjerne dette til etterretning.

cat

Lydfiler som AI-transkripsjon sliter med

  1. Lyd som er svak, eller der mikrofonen er for langt unna og vanskelig å høre.
  2. Lyd med mye støy som overdøver talen.
  3. Lyd som er uklar på grunn av romklang.
  4. Lyd som inneholder musikk, for eksempel sangtekster.
  5. Lyd som ikke inneholder tale. 
  6. Lyd med sterk dialekt. 
  7. Lyd der flere språk er blandet.
  8. Lyd som er vanskelig å høre for et menneske. 

Slike lydfiler kan ikke transkriberes nøyaktig, og det anbefales derfor ikke å bruke Mojiokoshi-san til dem.   

Relatert artikkel >6 tips for nøyaktig AI-transkripsjon

Hvis du rapporterer en feil for en lydfil som AI-transkripsjon sliter med, vil den bli avvist, og du vil ikke få refundert brukt tid.

Spesielt mange feilrapporter skyldes problemer med selve filinnholdet. La oss se på et konkret eksempel.

Filen inneholder ikke stemme (det er kontinuerlig støy eller stillhet)

Hvis du laster opp en lydfil uten å sjekke innholdet, kan det hende at:

Opptaket mislyktes, og filen er "stille på grunn av mislykket opptak" eller "mikrofonen ble koblet fra under opptaket, slik at bare støy høres, og ingen tale er inkludert".

Bildet over viser resultatet av en transkripsjon av en fil som kun inneholdt støy. 

Mojiokoshi-san bruker AI for transkripsjon. AI-en vil prøve å transkribere så mye som mulig, selv i støyende deler.

Dette problemet oppstår spesielt ofte når du bruker PerfectVoice og filen har mer enn ett minutt med støy eller stillhet i begynnelsen.

Hvis transkripsjonsresultatet er uforståelig, for eksempel "aaaaaaa" eller "nnnnnnn", eller samme frase gjentas mange ganger, vennligst sjekk filinnholdet.

Du kan forhindre dette problemet ved å kutte bort støy eller stillhet i begynnelsen av filen.

Selv om du transkriberer en fil som beskrevet ovenfor og bruker opp tid, kan vi ikke refundere den brukte tiden.

1. Lyd som er svak, eller der mikrofonen er for langt unna og vanskelig å høre

dog

Når jeg sjekker lydfiler som har ført til feil, er dette det vanligste problemet.

er dette eksempelet.

Selv om transkripsjon er mulig, vil nøyaktigheten være lav. Vi anbefaler ikke AI-transkripsjon for lydfiler der talerens volum er lavt, eller der mikrofoninngangen er for langt unna og lyden ikke fanges opp skikkelig.

Eksempel: Opptak av en forelesning med mobiltelefon fra bakerst i forelesningssalen.

2. Lydfiler med kraftig støy som overdøver talen

Støy er en stor fiende for AI-transkripsjon!

cat

I lydfiler med mye støy blir talerens stemme ofte overdøvet, og det er ofte vanskelig å høre selv for et menneske.

Vindstøy er også en stor utfordring, selv om det ofte overses under opptak.

Hvis et menneske har vanskelig for å høre det, kan ikke en AI forventes å transkribere det nøyaktig.

Eksempel: Opptak i et støyende miljø som en travel kafé utendørs, eller med lyden av servise eller musikk (bakgrunnsmusikk).

Nær avstand mellom munn og mikrofon, noe som forårsaker vindstøy fra pusten.

 

3. Lydfiler der lyden er uklar på grunn av romklang

Romklang er ofte vanskelig å legge merke til når man lytter med egne ører.

I innspilt lyd kan romklang høres ut som en dempet lyd, eller stemmen kan virke fjern.

Spesielt i firkantede rom eller rom med lite møbler er romklang vanlig.

Eksempel: Opptak av samtaler mellom flere personer som sitter på forskjellige steder i et møterom med én IC-opptaker.

Presentasjon holdt i et møterom, men lyden er uklar på grunn av romklang.

 

4. Lydfiler som inneholder musikk, som sangtekster

dog

AI-transkripsjon kan ikke transkribere sanger.

Noen tenker på å laste ned sanger uten tekst fra YouTube og transkribere dem!

Men AI-transkripsjon er kun ment for å transkribere samtaler.

Den kan ikke transkribere sanger.

Eksempel: Laste ned en sang fra YouTube og transkribere den.

 

5. Lydfiler uten lyd

Lydfiler uten lyd kan ikke transkriberes.

cat

Selvfølgelig kan ikke noe uten lyd transkriberes.

Sannsynligvis prøvde du å transkribere uten å vite at mikrofoninngangen var på 0.

Før du prøver å transkribere, sjekk lydfilen manuelt for å bekrefte at "lyden er riktig registrert" før du prøver AI-transkripsjon.

Eksempel: Ikke klar over at mikrofoninngangen ikke fungerer

6. Sterke dialekter

dog

AI-transkripsjon er ikke god på dialekter.

Som navnet antyder, transkriberer "AI" med kunstig intelligens. AI er trent til å transkribere basert på standard språk. Derfor er den ikke god på dialekter.

Det er ikke umulig for AI å transkribere, men selv om opptaksmiljøet er bra, og talemåten er tydelig og langsom,

kan transkripsjonen bli ufullstendig eller bare en liten del av den.

Eksempel: Lydopptak for møtereferater fra et regionalt møte → talerens dialekt er sterk

Eksempel: Ved japanske dialekter

Selv lydopptak av en annonsør med god uttale, spilt inn i et godt opptaksmiljø som TV, vil dialekter ikke transkriberes godt.

 

7. Ting som er vanskelige for mennesker å høre

Det som er vanskelig for mennesker å høre, er enda vanskeligere for AI.

cat

Når man hører "AI", tenker man at det er veldig allsidig og kan gjøre en bedre jobb enn mennesker.

Men AI er fortsatt ikke på nivå med mennesker.

Når det kreves fleksibilitet, faller nøyaktigheten av AI-arbeidet drastisk.

Når det gjelder AI-transkripsjon, vil nøyaktigheten av transkripsjonen reduseres betydelig for ting som mennesker synes er "vanskelig å høre".

Når mennesker transkriberer, kan de, selv om det er litt vanskelig å høre, forutsi "det må være slik" basert på samtalens kontekst og flyt.

Men AI-transkripsjon kan bare transkribere "som det høres ut". Den kan ikke supplere eller forutsi som et menneske.

Hvordan oppnå svært nøyaktig transkripsjon med AI-transkripsjon?

dog
Men jeg transkriberte med AI, men det var skikkelig
og kan ikke transkriberes
Det er viktig å huske på noen punkter for å få nøyaktig transkripsjon med AI!
cat

For å oppnå nøyaktig AI-transkripsjon er det viktig å ta i bruk noen teknikker under opptaket.

Denne artikkelen presenterer de beste opptakstipsene for AI-transkripsjon.

6 tips for optimalt opptak for AI-transkripsjon

  1. Mikrofon av høy kvalitet
  2. Riktig mikrofonplassering
  3. Stille opptaksmiljø
  4. Tydelig stemme fra taleren
  5. Én person snakker om gangen
  6. Gjennomfør en opptakstest

For mer informasjon >6 tips for opptak for nøyaktig transkripsjon

Utnytt AI-transkripsjon og menneskelig transkripsjon på en smart måte

Sammenlignet med menneskelig transkripsjon er AI-transkripsjon betydelig billigere.

Spesielt blant AI-transkripsjonstjenester er "Mojiokoshi-san" ekstremt rimelig, sannsynligvis den billigste i bransjen.

AI-transkripsjonstjenesten Mojiokoshi-san er den billigste i bransjen

Men for lydfiler der AI-transkripsjon ikke fungerer optimalt, er det definitivt mer pålitelig å bestille menneskelig transkripsjon.

Men er det ikke dyrt å bestille transkripsjon fra en person?

Hvis du lurer på det, kan du lese denne artikkelen også.

Relatert artikkel >>Hva er markedsprisen for ekstern stemmetranskripsjon? [Tips for å bestille billig inkludert]

 

Som nevnt i denne artikkelen, har AI-transkripsjon sine styrker og svakheter.

For lydfiler som AI-transkripsjon er god på, bruk "AI-transkripsjon".

For lydfiler som AI-transkripsjon ikke er god på:

  • Prøv å transkribere med AI-transkripsjon
    → Hvis det ikke fungerer, bruk "menneskelig transkripsjon"

anbefales.

Siden AI-transkripsjon er kostnadseffektivt, kan du noen ganger få en vellykket transkripsjon selv for lydfiler som AI-transkripsjon kanskje ikke er så god på, med tanken "det skader ikke å prøve, og hvis det fungerer, er det en bonus".

Mojiokoshi-san, en AI-transkripsjonstjeneste, tilbyr gratis transkripsjon av de første 60 sekundene. Du kan sjekke nøyaktigheten av transkripsjonen. Prøv det gjerne!

■ AI-transkripsjonstjeneste "Mr. Transscription"

"Mr. Transcription" er et nettbasert transkripsjonsverktøy som kan brukes fra null startkostnad og 1000 yen per måned (* gratisversjon tilgjengelig).

  • Støtter mer enn 20 filformater som lyd, video og bilder
  • Kan brukes fra både PC og smarttelefon
  • Støtter tekniske termer som medisinsk behandling, IT og langtidspleie
  • Støtter oppretting av undertekstfiler og høyttalerseparasjon
  • Støtter transkripsjon på omtrent 100 språk, inkludert engelsk, kinesisk, japansk, koreansk, tysk, fransk, italiensk, etc.

For å bruke den, bare last opp lydfilen fra nettstedet. Transkripsjonstekst er tilgjengelig på sekunder til titalls minutter.
Du kan bruke den gratis hvis du transkriberer den i opptil 10 minutter, så prøv den en gang.

Det er "Mr. Transkripsjon" som enkelt kan transkribere fra lyd, video og bilder. Transkripsjon lar deg transkribere i opptil 10 minutter gratis. Du kan kopiere, laste ned, søke, slette osv. Den transkriberte teksten. Du kan også lage undertekstfiler, noe som er ideelt for transkripsjon av intervjuvideoer.
HP: mojiokoshi3.com
Email: mojiokoshi3.com@gmail.com
|
Relatert artikkel