Tapaustutkimus: Utterance Collection
Toimitettu yli 7 miljoonaa lausumaa monikielisten digitaalisten avustajien rakentamiseen 13 kielellä
Todellisen maailman ratkaisu
Tiedot, jotka ohjaavat maailmanlaajuisia keskusteluja
Utterance-koulutuksen tarve syntyy, koska kaikki asiakkaat eivät käytä täsmällisiä sanoja tai lauseita ollessaan vuorovaikutuksessa tai esittäessään kysymyksiä puheavustajilleen käsikirjoitetussa muodossa. Siksi tietyt puhesovellukset on koulutettava spontaanin puhedatan käyttöön. Esim. "Missä lähin sairaala sijaitsee?" "Find a hospital near me" tai "Onko sairaala lähellä?" kaikki viittaavat samaan hakutarkoitukseen, mutta ne on muotoiltu eri tavalla.
Ongelma
Toteuttaakseen asiakkaiden Digital Assistantin puhesuunnitelman maailmanlaajuisille kielille, tiimin oli hankittava suuria määriä koulutusdataa puheentunnistuksen tekoälymallia varten. Asiakkaan kriittiset vaatimukset olivat:
- Hanki suuria määriä harjoitusdataa (enintään 3–30 sekunnin pituisia yhden puhujan puhekehotteita) puheentunnistuspalveluita varten 13 maailmanlaajuisella kielellä
- Kullekin kielelle toimittaja luo tekstikehotteita puhujille äänitettäväksi (ellei
asiakastarvikkeet) ja litteroi tuloksena oleva ääni. - Tarjoa äänidataa ja tallennettujen lausumien transkriptio vastaavilla JSON-tiedostoilla
sisältää kaikkien tallenteiden metatiedot. - Varmista monipuolinen yhdistelmä puhujia iän, sukupuolen, koulutuksen ja murteen mukaan
- Varmista erilaisten tallennusympäristöjen monipuolinen yhdistelmä teknisten tietojen mukaisesti.
- Jokaisen äänitallenteen tulee olla vähintään 16 kHz, mutta mieluiten 44 kHz
”Arvioituaan monia toimittajia asiakas valitsi Shaipin, koska heillä oli asiantuntemus keskustelua edistävistä tekoälyprojekteista. Olimme vaikuttuneita Shaipin projektin toteuttamisosaamisesta, heidän asiantuntemuksestaan hankkia, litteroida ja toimittaa vaaditut lausunnot asiantuntevilta lingvisteiltä 13 kielellä tiukoissa aikatauluissa ja vaaditulla laadulla.
Ratkaisu
Keskustelevan tekoälyn syvällinen ymmärryksemme ansiosta auttoimme asiakasta keräämään, litteroimaan ja merkitsemään tietoja asiantuntijalingvistien ja annotaattorien kanssa kouluttamaan tekoälyllä toimivaa monikielistä puheenkäsittelyään.
Shaipin työhön sisältyi, mutta ei rajoittunut, suurten määrien ääniharjoitusdatan hankkiminen puheentunnistusta varten, äänitallenteiden litteroiminen useilla kielillä kaikilla tason 1 ja tason 2 kielikarttojemme kielillä ja vastaavien toimittaminen. JSON metatiedot sisältävät tiedostot. Shaip keräsi mittakaavassa 3–30 sekunnin mittaisia lausumia säilyttäen samalla halutun laatutason, joka vaaditaan ML-mallien kouluttamiseen monimutkaisiin projekteihin.
- Kerätty, litteroitu ja huomautettu ääni: 22,250 tuntia
- Tuetut kielet: 13 (tanska, korea, Saudi-Arabian arabia, hollanti, manner- ja taiwankiina, ranskalainen kanada, meksikolainen espanja, turkki, hindi, puola, japani, venäjä)
- Lausuntojen määrä: 7M +
- Aikajana: 7-8 kuukautta
Keräessämme äänipuheita taajuudella 16 kHz varmistimme terveellisen yhdistelmän puhujia iän, sukupuolen, koulutuksen ja murteiden mukaan erilaisissa tallennusympäristöissä.
Tulos
Asiantuntevien lingvistien korkealaatuiset puheäänitiedot antoivat asiakkaalle mahdollisuuden kouluttaa tarkasti monikielistä puheentunnistusmalliaan 13 Global Tier 1 & 2 -kielellä. Kultastandardin mukaisten koulutustietosarjojen avulla asiakas voi tarjota älykästä ja vankkaa digitaalista apua tulevien todellisten ongelmien ratkaisemiseksi.
Asiantuntemuksemme
Suositellut resurssit
Ostajan opas
Ostajan opas: Keskusteleva tekoäly
Chatbot, jonka kanssa keskustelit, toimii edistyneessä keskustelun tekoälyjärjestelmässä, joka on koulutettu, testattu ja rakennettu käyttäen tonnia puheentunnistustietojoukkoja.
Blogi
Keskustelutaidon tila 2021
Conversational AI 2021 -infografiikat puhuvat siitä, mikä on Conversational AI, sen evoluutiosta, tyypeistä, keskustelualan AI-markkinoista alueittain, käyttötapauksista, haasteista jne.
Blogi
3 Esteet keskustelutaidon kehittymiselle
Shaip on aloittamassa keskustelutaidon kehitystä asiakastyökaluna tarjoamalla tarvittavat kommentoidut äänitiedot yli 50 kielellä.
Kerro meille, kuinka voimme auttaa seuraavassa tekoälyaloitteessasi.