Inluppen går ut på att göra en automatisk fonetisk utskrift av tal mha en HMM.
Data för träning och utvärdering finner ni tex här:
Elsie-data [(1)] eller [(2)].
(Uppsalaförfattaren Elsie Johansson läser dikter). Inget hindrar förstås att ni använder
egna dataset.
Uppgiften består i att: (1) Skriva ihop ett detaljerat förslag i punktform för hur ni tänker lösa uppgiften.
(2) gå igenom förslaget med mig för att se om ide'erna håller (3) implementera och köra koden i matlab (4)
redovisa en körning i labbet.
För att skaffa sig den känsla för problemet man bör ha innan man drar igång en större uppgift så rekommenderar
jag starkt att ni först kör igenom och exprimenterar med de demonstrationer om HMM som ni finns i "demoBox"
(The occasionally dishonest casino).
Följande toolbox kan underlätta förbehandling av ljuddata inför inluppen.
Den innehåller bl.a funktionen "mfcc" (vilket står för Mel Frequency Complex Cepstrum; orsaken till namnet är
en rel. lång historia) som är en standardförbehandlingsmetod inom taligenkänningen.
[Auditory toolbox (zip)]
Om ni väljer att använda egna ljuddata så kan Audiograbber (freeware) användas för att
spara ljuddata från cd-skiva till *.wav-format. [Audiograbber (exe-fil)].
Då Audiograbber är freeware så har den vissa inbyggda restriktioner. En är att man inte fritt kan välja
vilka spår som man ska spara. Detta bör inte vara något problem om cd-skivan innehåller många spår.
(Audiograbber behövs förstås inte om ni väljer att använda Elsie-data.)
Observera att ni bör byta namn på .wav-filerna så att filnamnen inte innehåller
mellanslag eftersom dessa kan orsaka problem för Matlab vid inläsningen.
Observera dessutom att CD-spår oftast är inspelade i stereo vilket ger en (N x 2)-matris som resultat när man
skriver S=wavread('filename.wav',N);. Vi behöver endast betrakta monoljud vilket vi enklast får genom
att summera komponenterna från respektive kanal. Ex S=sum(S')'; (sum(.) opererar längs kolumner)
I "annoteringslådan" [ (zip)] så hittar ni programvaran
Wavesurfer (freeware från KTH) som hjälper er att dels annotera egna ljudfiler för hand och
dels på ett relativt enkelt sätt redovisa resultat från körningarna i Matlab. Tillsammans med programmet
finns även en kort genomgång (FonemDescr.rtf) av det ni behöver känna till om programmet innan ni kör igång.
där finns även en lista på fonem med tillhörande beskrivning (FonemLista.rtf) samt ett antal
matlab-script som är användbara för konvertering mellan de olika dataformat som används i Wavesurfer och matlab.
Kod för träning av HMM etc hittar ni i anslutning till demoBox. Efter att vi har diskuterat era lösningsförslag
så kan vi gå igenom mer i detalj vilka algoritmer som finns tillgängliga.
Last modified: Tue Sep 28 11:15:01 W. Europe Daylight Time 2004