Automaattinen puheentunnistus

Äänitietojen keruuprosessin ymmärtäminen automaattista puheentunnistusta varten

Automaattiset puheentunnistusjärjestelmät ja virtuaaliset avustajat, kuten Siri, Alexa ja Cortana, ovat tulleet yleisiksi osaksi elämäämme. Riippuvuutemme heistä kasvaa huomattavasti, kun he tulevat älykkäämmiksi. Hyödynnämme näitä älykkäitä tekniikoita arkipäiväisten tehtävien suorittamisessa valojen sytyttämisestä puheluiden soittamiseen TV-kanavien vaihtamiseen.

Oletko kuitenkin koskaan miettinyt, kuinka nämä puheentunnistusjärjestelmät toimivat?

No, tämä blogi opettaa sinulle joistakin automaattisen puheentunnistuksen perusteista. Lisäksi tutkimme sen toimintaa ja sitä, kuinka toimivia virtuaalisia avustajia, kuten Siri, rakennetaan.

Mikä on automaattinen puheentunnistus?

Automaattinen puheentunnistus (ASR) on ohjelmisto, jonka avulla tietokonejärjestelmä voi muuntaa ihmisen puheen tekstiksi hyödyntäen useita tekoälyä ja koneoppimisalgoritmeja.

Annetun komennon muuntamisen ja analysoinnin jälkeen tietokone vastaa käyttäjälle sopivalla lähdöllä. ASR esiteltiin ensimmäisen kerran vuonna 1962, ja siitä lähtien se on jatkuvasti parantanut toimintaansa ja noussut valtavasti parrasvaloihin suosittujen sovellusten, kuten Alexan ja Sirin, ansiosta.

Tiesitkö, että automaattinen puheentunnistus tunnetaan myös puheesta tekstiksi -lukijana? Lue aiheesta lisää tästä blogista! 

Mikä on puheenkeruuprosessi ASR-mallien kouluttamiseksi?

Puheen keräysprosessi

Puheen keräämisen tavoitteena on kerätä useita näytetallenteita useilta alueilta, joita käytetään ASR-mallien syöttämiseen ja kouluttamiseen. ASR-järjestelmä tarjoaa korkeimman tehokkuuden, kun suuria puheen ja äänen tietojoukkoja kerätään ja toimitetaan sen järjestelmään.

Jotta kerätyt puhetietojoukot toimisivat saumattomasti, niiden on sisällettävä kaikki kohdedemografiset tiedot, kielet, aksentit ja murteet. Seuraava prosessi näyttää, kuinka koneoppimismallia koulutetaan useissa vaiheissa:

  • Aloita rakentamalla demografinen matriisi

    Kerää ensisijaisesti tietoja eri väestöryhmistä, kuten sijainnista, sukupuolista, kielestä, iästä ja aksenteista. Varmista myös, että sieppaat erilaisia ​​ympäristöääniä, kuten katumelua, odotushuoneen melua, julkisten toimistojen melua jne.

  • Kerää ja litteröi puhetiedot

    Seuraava askel on ihmisten ääni- ja puhenäytteiden kerääminen eri maantieteellisten paikkojen perusteella ASR-mallisi kouluttamiseksi. Se on tärkeä askel ja vaatii inhimillisiä asiantuntijoita suorittamaan pitkiä ja lyhyitä sanoja saadakseen lauseen aidon tuntuman ja toistamaan samat lauseet eri aksenteilla ja murteilla.

  • Luo erillinen testisarja

    Kun olet kerännyt litteroidun tekstin, seuraava vaihe on liittää se vastaavaan äänidataan. Segmentoi sitten tiedot edelleen ja sisällytä niistä yksi lauseke. Nyt segmentoiduista datapareista voit vetää satunnaisia ​​tietoja joukosta lisätestausta varten.

  • Harjoittele ASR-kielimalliasi

    Mitä enemmän tietoa tietojoukoissasi on, sitä paremmin tekoälyn kouluttama malli toimisi. Luo siksi useita muunnelmia aiemmin tallentamistasi tekstistä ja puheista. Muuta samat lauseet käyttämällä eri puhemerkintöjä.

  • Arvioi tulos ja lopuksi toista

    Lopuksi mittaa ASR-mallisi teho ja korjaa sen suorituskyky. Testaa mallia testisarjaa vastaan ​​sen tehokkuuden määrittämiseksi. Kytke ASR-mallisi sopivasti takaisinkytkentäsilmukaan halutun lähdön luomiseksi ja mahdollisten aukkojen korjaamiseksi.

[Lue myös: Kattava yleiskatsaus automaattiseen puheentunnistukseen]

Mitkä ovat puheentunnistuksen eri käyttötapaukset?

Puheentunnistustekniikka on nykyään erittäin yleistä monilla teollisuudenaloilla. Jotkut teollisuudenalat, jotka käyttävät tätä valtavaa teknologiaa, ovat seuraavat:

  • Elintarviketeollisuus Ruokateollisuus: Elintarvikejättiläiset, kuten Wendy's ja McDonald's, pyrkivät parantamaan asiakaskokemustaan ​​ASR:n avulla. Monissa myyntipisteissään he ovat ottaneet käyttöön täysin toimivia ASR-malleja tilausten vastaanottamiseen ja edelleen toimittamiseen ruoanlaittoosastolle asiakkaan tilauksen tekemiseksi.

     

  • Tietoliikenne Tietoliikenne: Vodafone on yksi maailman suurimmista televiestinnän tarjoajista. Se on suunnitellut asiakaspalvelu- ja puhelinvälityspalvelunsa hyödyntäen ASR-malleja, jotka opastavat sinua ratkaisemaan erilaisia ​​kyselyitä ja ohjaamaan puhelusi uudelleen asianomaisille osastoille.

     

  • Matkailu ja Kuljetus Matkailu ja kuljetus: Google Android Auto tai Apple CarPlay ovat yleistyneet. Useimmat ihmiset käyttävät niitä navigointijärjestelmien aktivoimiseen, viestien lähettämiseen tai musiikin soittolistojen vaihtamiseen. Teknologisen kehityksen myötä tällaiset järjestelmät ovat kuitenkin yhä hienostuneempia.
    BMW 3 -sarjassa lanseerattu BMW Intelligent Personal Assistant on paljon älykkäämpi kuin tavalliset ääniavustajat. Sen avulla kuljettajat voivat löytää autoon liittyviä tietoja ja käyttää autoa äänikomennoilla.
  • Media ja viihdeMedia ja viihde: Myös mediateollisuus hyödyntää ASR:ää monissa projekteissaan. Youtube on julkaissut tekoälypohjaisen avustajan, joka luo reaaliaikaisia ​​automaattisia tekstityksiä. Kun puhut ruudulla, avustaja tarjoaa tekstitykset, jotta video on suuremman joukon Youtube-käyttäjiä saatavilla.

 

[Lue myös: Mikä on puheen tekstiksi -tekniikka ja miten se toimii]

Kuinka Shaip voi auttaa?

Shaip on yksi johtavista tekoälykoulutuspalveluista, jolla on asiantuntemusta useilla tekoälyn ja ML:n osa-alueilla. He voivat auttaa sinua rakentamaan omia tietojoukkojasi, joita voidaan käyttää erilaisiin sovelluksiin ja projekteihin.

Jotkut Shaipin tarjoamista palveluista ovat:

  • Automaattinen puheentunnistus (ASR)
  • Kirjoitettu puhekokoelma
  • Transcreation
  • Spontaani puhekokoelma
  • Utterance Collection/ Herätyssanat,
  • Tekstistä puheeksi (TTS)

Voit hyödyntää näitä palveluita saadaksesi parhaat tulokset tekoälypohjaisille projekteillesi. Saat lisätietoja näistä palveluista ottamalla yhteyttä asiantuntijatiimiimme jo tänään!

Sosiaalinen osuus