Keskusteleva tekoäly: Automaattinen puheentunnistus

Yli 8k äänituntia kerätty, 800 tuntia litteroitu monikielistä puhetekniikkaa varten

esittely

Intia tarvitsi alustan, joka keskittyy monikielisten tietojoukkojen ja tekoälypohjaisten kieliteknologiaratkaisujen luomiseen voidakseen tarjota digitaalisia palveluita intialaisilla kielillä. Tämän aloitteen käynnistämiseksi The Client teki yhteistyötä Shaipin kanssa intialaisen kielen keräämiseksi ja litteroimiseksi monikielisten puhemallien rakentamiseksi.

tilavuus

Kerätyt tunnit

Sivujen lukumäärä huomautettuna

10 +

Projektin kesto

< 1 kk

Haasteet

Auttaakseen asiakasta intialaisia kieliä koskevan Speech Technology -puhesuunnitelman laatimisessa tiimin täytyi hankkia, segmentoida ja litteroida suuria määriä koulutusdataa tekoälymallin rakentamiseksi. Asiakkaan kriittiset vaatimukset olivat:

Tiedonkeruu

Hanki 8000 tuntia harjoittelutietoja Intian syrjäisistä paikoista
Toimittaja kerää spontaaneja puheita ikäryhmiltä 20-70 vuotta
Varmista monipuolinen puhujayhdistelmä iän, sukupuolen, koulutuksen ja murteiden mukaan
Jokaisen äänitallenteen on oltava vähintään 16 kHz ja 16 bittiä/näyte.

Tiedonsiirto

Noudata merkkejä ja erikoissymboleja, oikeinkirjoitusta ja kielioppia, isoja kirjaimia, lyhenteitä, supistuksia, yksittäisiä puhuttuja kirjaimia, numeroita, välimerkkejä, akronyymejä ja alkukirjaimia, hajanaista puhetta, ymmärtämätöntä puhetta, ei-kohdekieliä, ei-puhea koskevia yksityiskohtaisia transkriptioohjeita.

Laadun tarkistus ja palaute

Kaikki tallenteet läpikäyvät laadunarvioinnin ja validoinnin, vain validoidut puhetallenteet toimitetaan

Ratkaisu

Keskustelevan tekoälyn syvällinen ymmärryksemme ansiosta auttoimme asiakasta keräämään ja litteroimaan äänidataa asiantuntijakeräilijöiden, lingvistien ja annotaattoreiden kanssa rakentamaan laajaa äänidataa Intian syrjäisistä osista.

Shaipin työhön sisältyi, mutta ei rajoittunut, suurten äänenopetusdatamäärien hankkiminen, tietojen transkriptio ja vastaavien metatiedot sisältävien JSON-tiedostojen toimittaminen [sekä kaiuttimille että kopioijille. Jokaisen puhujan metatiedot sisältävät anonymisoidun kaiuttimen tunnuksen, laitteen tiedot, demografiset tiedot, kuten sukupuolen, iän ja koulutuksen, sekä heidän PIN-koodinsa, sosioekonomisen asemansa, puhutut kielet ja tietueen heidän elämänsä kestosta. Jokaisen transkriptoijan tiedot sisältävät anonymisoidun Transcriber-tunnuksen, puhujien kaltaiset demografiset tiedot, heidän transkriptiokokemuksensa keston ja perusteellisen erittelyn kielistä, joita he voivat lukea, kirjoittaa ja puhua.

Shaip keräsi 8000 tuntia äänidataa / spontaania puhetta mittakaavassa ja litteroitua 800 tuntia säilyttäen samalla halutut laatutasot, joita tarvitaan puhetekniikan kouluttamiseen monimutkaisiin projekteihin. Jokaiselta osallistujalta otettiin selkeä suostumuslomake. Kerätty / Spontaani puhe perustui yliopiston toimittamiin kuviin. of 3500 kuvia, 1000 ovat yleisiä ja 2500 liittyvät aluekohtaiseen kulttuuriin, festivaaleihin jne. Kuvat kuvaavat erilaisia alueita, kuten rautatieasemat, markkinat, sää ja paljon muuta.

Tiedonkeruu

Osavaltio	piirit	Äänitunnit	Transcription (H)
Bihar	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzafﬀarpur, Jamui	2000	200
Uttarpradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
West Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Pohjois+Etelä Goa	100	10
Karnataka	Dakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Yhteensä		8000	800

Yleiset ohjeet

muodostuu

- Ääni taajuudella 16 kHz, 16 bittiä/näyte.
- Yksi kanava.
- Raaka ääni ilman transkoodausta.

Tyyli

- Spontaani puhe.
- Yliopiston toimittamiin kuviin perustuvat lauseet. 3500 kuvasta 1000 on yleisluonteisia ja 2500 liittyy aluekohtaiseen kulttuuriin, festivaaleihin jne. Kuvat kuvaavat erilaisia alueita, kuten juna-asemia, markkinoita, säätä ja paljon muuta.

Tallennuksen tausta

- Äänitetty hiljaisessa, kaiuttomassa ympäristössä.
- Ei älypuhelimen häiriöitä (värinää tai ilmoituksia) tallennuksen aikana.
- Ei vääristymiä, kuten leikkausta tai kaukokenttäefektejä.
- Puhelimen tärinää ei voida hyväksyä; ulkoinen tärinä on siedettävää, jos ääni on selkeä.

Kaiutinmäärittely

- Ikähaarukka 20-70 vuotta tasapuolisella sukupuolijakaumalla piiriä kohti.
- Vähintään 400 äidinkielenään puhuvaa kussakin piirissä.
- Puhujien tulee käyttää kotikieltään/murretta.
- Suostumuslomake pakollinen kaikille osallistujille.

Laaduntarkastus ja kriittinen laadunvarmistus

Laadunvarmistusprosessi asettaa etusijalle äänitallenteiden ja transkriptioiden laadunvarmistuksen. Äänistandardit keskittyvät tarkkoihin hiljaisuuksiin, segmenttien kestoon, yhden kaiuttimen selkeyteen ja yksityiskohtaisiin metatietoihin, mukaan lukien ikä ja sosioekonominen tila. Transkriptiokriteerit korostavat tunnisteen tarkkuutta, sanan todenperäisyyttä ja oikeita segmentin tietoja. Hyväksymisvertailu määrää, että jos yli 20 % äänierästä ei täytä näitä standardeja, se hylätään. Alle 20 %:n eroavaisuuksissa vaaditaan korvaavat tallenteet samanlaisilla profiileilla.

Tiedonsiirto

Transkriptioohjeissa korostetaan tarkkuutta ja sanallista transkriptiota vain silloin, kun sanat ovat selkeitä ja ymmärrettäviä; epäselvät sanat on merkitty [epäselväksi] tai [epäkuulumattomaksi] ongelman perusteella. Pitkän äänen lauserajat on merkitty , eikä kielioppivirheiden oikaisu tai korjaaminen ole sallittua. Kirjaimellinen transkriptio kattaa virheet, slangit ja toistot, mutta jättää pois väärät aloitukset, täyteäänet ja änkytykset. Tausta- ja etualan kohinat transkriptoidaan kuvaavilla tunnisteilla, kun taas erisnimet, otsikot ja numerot noudattavat erityisiä transkriptiosääntöjä. Kaiutintunnisteita käytetään jokaisessa lauseessa, ja epätäydelliset lauseet on merkitty.

Projektin työnkulku

Työnkulku kuvaa äänen transkriptioprosessia. Se alkaa perehdyttämisestä ja osallistujien koulutuksesta. He tallentavat ääntä sovelluksella, joka on ladattu laadunvarmistusalustalle. Tämän äänen laatu tarkistetaan ja segmentoidaan automaattisesti. Tekniikkatiimi valmistelee sitten segmentit transkriptiota varten. Manuaalisen transkription jälkeen on laadunvarmistusvaihe. Transkriptiot toimitetaan asiakkaalle, ja jos ne hyväksytään, toimitus katsotaan suoritetuksi. Jos ei, muutokset tehdään asiakaspalautteen perusteella.

Tulos

Asiantuntevien lingvistien korkealaatuisen äänidatan avulla asiakkaamme voi tarkasti kouluttaa ja rakentaa monikielisiä puheentunnistusmalleja useilla Intian kielillä eri murteilla sovitussa ajassa. Puheentunnistusmalleja voidaan käyttää:

Voita digitaalisen osallisuuden kielimuuri yhdistämällä kansalaiset aloitteisiin heidän omalla äidinkielellään.
Edistää digitaalista hallintoa
Katalyytti ekosysteemin muodostamiseksi palveluille ja tuotteille intialaisilla kielillä
Enemmän lokalisoitua digitaalista sisältöä yleisen edun mukaisilla aloilla, erityisesti hallinnossa ja politiikassa

Olemme hämmästyneitä Shaipin asiantuntemuksesta keskustelun tekoälyn alalla. Tehtävä käsitellä 8000 tuntia äänidataa ja 800 tuntia transkriptiota 80 eri alueella oli vähintäänkin monumentaalinen. Juuri Shaipin syvä ymmärrys tämän alueen monimutkaisista yksityiskohdista ja vivahteista teki niin haastavan projektin onnistuneen toteuttamisen mahdolliseksi. Heidän kykynsä hallita ja navigoida saumattomasti tämän valtavan tietomäärän monimutkaisuudessa varmistaen samalla huippuluokan laadun on todella kiitettävää.

Nopeuta keskusteluaiheisuutta
sovelluskehitys 100%

Keskusteleva tekoäly: Automaattinen puheentunnistus

Yli 8k äänituntia kerätty, 800 tuntia litteroitu monikielistä puhetekniikkaa varten

esittely

tilavuus

Haasteet

Tiedonkeruu

Tiedonsiirto

Laadun tarkistus ja palaute

Ratkaisu

Yleiset ohjeet

Laaduntarkastus ja kriittinen laadunvarmistus

Tiedonsiirto

Projektin työnkulku

Tulos

Tekoälyn tietopalvelut

Erikoisuus

Teollisuus

Tuotteemme

Yhtiö

Esittelymateriaalit

Ota yhteyttä

Kerro meille lisää sinusta!