NLP-tietojoukko ML:lle

15 parasta NLP-tietojoukkoa luonnollisen kielen käsittelymallien opettamiseen

Luonnollisen kielen käsittely on tärkeä osa koneoppimispanssaria. Se vaatii kuitenkin valtavia tietomääriä ja koulutusta, jotta malli toimisi hyvin. Yksi NLP:n merkittävistä ongelmista on koulutustietoaineistojen puute, jotka voisivat kattaa laajoja kiinnostavia alueita toimialueen sisällä.

Jos olet aloittamassa tällä laajalla alalla, tietojoukkojen luominen saattaa olla haastavaa ja käytännössä tarpeetonta. Varsinkin kun on laatua NLP käytettävissä olevat tietojoukot koneoppimismallien kouluttamiseen niiden tarkoituksen perusteella.

NLP-markkinoiden odotetaan kasvavan 11.7 prosentin CAGR:llä vuosina 2018 ja 2026 saavuttaakseen 28.6 miljardia dollaria. NLP:n ja koneoppimisen kasvavan kysynnän ansiosta on nyt mahdollista saada käsiisi laadukkaita tietojoukkoja, jotka palvelevat mielialan analysointia, arvosteluja, kysymys- ja vastausanalyysiä sekä puheanalyysitietosarjoja.

NLP-tietojoukot koneoppimista varten, joihin voit luottaa

Koska lukemattomia eri tarpeisiin keskittyviä tietojoukkoja julkaistaan ​​lähes päivittäin, voi olla haastavaa saada laadukkaita, luotettavia ja parhaita tietojoukkoja. Tässä olemme tehneet työstäsi helpompaa, sillä olemme esitelleet sinulle kuratoituja tietojoukkoja, jotka on eroteltu niiden tarjoamien luokkien perusteella.

general

Hewlett-Packard Labsissa luotu Spambase sisältää kokoelman käyttäjien roskapostiviestejä, joiden tavoitteena on kehittää henkilökohtainen roskapostisuodatin. Sillä on yli 4600 havaintoa sähköpostiviesteistä, joista lähes 1820 on roskapostia.

Enron-tietojoukossa on laaja kokoelma anonymisoituja "oikeita" sähköposteja, jotka ovat yleisön saatavilla koneoppimismallien kouluttamiseksi. Se sisältää yli puoli miljoonaa sähköpostia yli 150 käyttäjältä, pääasiassa Enronin ylimmältä johdolta. Tämä tietojoukko on saatavilla käytettäväksi sekä jäsennellyssä että strukturoimattomassa muodossa. Strukturoimattoman tiedon piristämiseksi sinun on sovellettava tietojenkäsittelytekniikoita.

  • Recommender Systems -tietojoukko (Linkki)

Recommender System -tietojoukko on valtava kokoelma erilaisia ​​tietojoukkoja, jotka sisältävät erilaisia ​​ominaisuuksia, kuten

  • Tuotearvioinnit
  • Tähtiarvostelut
  • Kunto seuranta
  • Kappaleen tiedot
  • Sosiaaliset verkostot
  • aikaleimat
  • Käyttäjän/kohteen vuorovaikutus
  • GPS -tiedot

Aistien analyysi

  • Elokuvien ja rahoituksen sanakirjat (Linkki)

Sentiment-analyysi
Dictionaries for Movies and Finance -tietojoukko tarjoaa verkkotunnuskohtaisia ​​sanakirjoja positiiviselle tai negatiiviselle napaudelle Finance-täytöissä ja elokuva-arvosteluissa. Nämä sanakirjat on otettu IMDb- ja US Form-8 -täytteistä.

Sentiment 140 sisältää yli 160,000 6 twiittiä erilaisilla hymiöillä, jotka on luokiteltu kuuteen eri kenttään: twiitin päivämäärä, napaisuus, teksti, käyttäjänimi, tunnus ja kysely. Tämän tietojoukon avulla voit löytää brändin, tuotteen tai jopa aiheen tunteen Twitter-toiminnan perusteella. Koska tämä tietojoukko luodaan automaattisesti, toisin kuin muut ihmisen kommentoidut twiitit, se luokittelee positiivisia ja negatiivisia tunteita sisältävät twiitit epäsuotuisiksi.

  • Multi-Domain Sentiment -tietojoukko (Linkki)

Tämä usean verkkotunnuksen mielipidetietojoukko on Amazonin eri tuotteiden arvostelujen arkisto. Joissakin tuoteryhmissä, kuten kirjoissa, arvosteluja on tuhansia, kun taas toisissa vain muutama sata. Lisäksi tähtiluokitukset sisältävät arvostelut voidaan muuntaa binääritunnisteiksi.

Keskustellaan AI -koulutustietovaatimuksestasi tänään.

teksti

WiKi QA Corpus on yksi laajimmista julkisesti saatavilla olevista aineistoista, joka on luotu auttamaan avoimen alueen kysymys- ja vastaustutkimusta. Se on koottu Bing-hakukoneen kyselylokeista, ja siinä on kysymys-vastaus-pareja. Siinä on yli 3000 kysymystä ja 1500 merkittyä vastauslausetta.

  • Oikeustapausraporttien tietojoukko (Linkki)

Legal Case Reports -tietojoukossa on kokoelma 4000 oikeustapausta, ja sitä voidaan käyttää automaattiseen tekstin yhteenvetoon ja lainausanalyysiin kouluttamiseen. Jokaista asiakirjaa, tunnuslauseita, lainausluokkia, lainauslauseita ja paljon muuta käytetään.

Jeopardy-tietojoukko on kokoelma yli 200,000 XNUMX kysymystä, jotka esiteltiin Reddit-käyttäjän kokoamassa suositussa tietokilpailussa. Jokainen datapiste luokitellaan sen esityspäivämäärän, jaksonumeron, arvon, kierroksen ja kysymyksen/vastauksen mukaan.

Ääni Puhe

Äänipuhe Tämä tietojoukko on täydellinen kaikille, jotka haluavat mennä englannin kielen ulkopuolelle. Tämä tietoaineisto sisältää kokoelman artikkeleita, jotka puhutaan hollanniksi, saksaksi ja englanniksi. Siinä on monenlaisia ​​aiheita ja kaiutinsarjoja, jotka kestävät satoja tunteja.

Vuoden 2000 HUB5-englanninkielisessä tietojoukossa on 40 englanninkielistä puhelinkeskustelukopiota. Tiedot toimittaa National Institute of Standards and Technology, ja sen pääpaino on keskustelupuheen tunnistamisessa ja puheen muuntamisessa tekstiksi.

LibriSpeech-tietojoukko on kokoelma lähes 1000 tuntia englanninkielistä puhetta, joka on otettu ja oikein aiheittain segmentoituna äänikirjojen lukuihin, joten se on täydellinen työkalu luonnollisen kielen käsittelyyn.

Arvostelut

Yelp-tietojoukossa on laaja kokoelma noin 8.5 miljoonaa arvostelua yli 160,000 200,000 yrityksestä, niiden arvosteluista ja käyttäjätiedoista. Arvioiden avulla voit kouluttaa mallejasi tunteiden analysointiin. Lisäksi tässä tietojoukossa on myös yli XNUMX XNUMX kuvaa kahdeksalta suurkaupunkialueelta.

IMDB-arvostelut ovat suosituimpia tietojoukkoja, jotka sisältävät näyttelijätietoja, luokituksia, kuvauksia ja tyylilajeja yli 50 tuhannelle elokuvalle. Tätä tietojoukkoa voidaan käyttää koneoppimismalliesi testaamiseen ja kouluttamiseen.

Amazonin arvostelu- ja luokitustietojoukko sisältää arvokkaan kokoelman metadataa ja Amazonin eri tuotteiden arvosteluja vuosilta 1996–2014 – noin 142.8 miljoonaa tietuetta. Metatiedot sisältävät hinnan, tuotteen kuvauksen, brändin, kategorian ja paljon muuta, kun taas arvosteluissa on tekstin laatu, tekstin hyödyllisyys, arvosanat ja paljon muuta.

Joten minkä tietojoukon olet valinnut kouluttaaksesi koneoppimismalliasi?

Kuten mennään, jätämme sinulle a pro-vinkki. 

Muista käydä läpi README-tiedosto ennen kuin valitset NLP-tietojoukon tarpeisiisi. Tietojoukko sisältää kaikki mahdollisesti tarvitsemasi tiedot, kuten tietojoukon sisällön, eri parametrit, joiden perusteella tiedot on luokiteltu, ja tietojoukon todennäköiset käyttötapaukset.

Rakentamistasi malleista riippumatta on jännittävä mahdollisuus integroida koneemme tiiviimmin ja olennaisemmin elämäämme. NLP:n avulla liiketoiminnan, elokuvien, puheentunnistuksen, rahoituksen ja muiden mahdollisuudet lisääntyvät moninkertaisesti. Jos etsit lisää tällaisia ​​tietojoukkoja Klikkaa tästä.

Sosiaalinen osuus

Saatat pitää myös