Avaa tietojoukot

Löydä avoimen lähdekoodin tietojoukkoja, joiden avulla voit kouluttaa ML -malleja

Avoimen lähdekoodin tietojoukot, joilla pääset alkuun AI/ML -malleilla

Tekoäly- ja ML-malliesi tulos on vain yhtä hyvä kuin tiedot, joita käytät sen kouluttamiseen - joten tietojen yhdistämiseen ja tietojen merkitsemiseen ja tunnistamiseen sovellettava tarkkuus on tärkeää!

Joten jos haluat aloittaa uuden tekoäly- / ML-aloitteen ja nyt ymmärrät nopeasti, että laadukkaiden harjoitustietojen löytäminen on yksi haastavimmista näkökohdista projektissasi, sillä korkealaatuiset aineistot ovat polttoaine, joka pitää tekoälyn / ML-moottori käy. Olemme koonneet luettelon avoimista aineistoista, jotka voivat vapaasti käyttää ja kouluttaa tulevaisuuden AI / ML-mallejasi.

ErikoistuminenTietotyyppiTietojoukon nimiTeollisuus / osastoMerkintä / käyttötapausKuvausLinkki
NLPtekstiAmazon ArviotVerkkokaupanAistien analyysiJoukko viimeisen 35 vuoden 18 miljoonan arvosteluita ja luokituksia pelkkänä tekstinä käyttäjän ja tuotetietojen kera.Linkki
NLPtekstiWikipedia-linkkitiedotgeneralYli 4 Mn. artikkelit, jotka sisältävät 1.9 miljardia sana, joka koostuu sanoista ja lauseista sekä kappaleista.Linkki
NLPtekstiStandford Sentiment TreebankViihdeAistien analyysiSentiment-huomautusten tietojoukko yli 10,000 kappaleelle Rotten Tomatoes -arvostelua HTML-tiedostomuodossaLinkki
NLPtekstiTwitter Yhdysvaltain lentoyhtiöiden mielipidelentoyhtiöAistien analyysi2015 Yhdysvaltain lentoyhtiöiden twiitit jakautuivat positiivisiksi, negatiivisiksi ja neutraaleiksi sävyiksiLinkki
CVKuva Merkityt kasvot luonnossageneralkasvojen tunnistusAineisto, joka sisältää yli 13,000 XNUMX rajata kasvoa ja kaksi erilaista kuvaa kasvojentunnistusharjoitteluun.Linkki
CVVideo, kuvaUMDFaces-tietojoukkogeneralkasvojen tunnistusKommentoitu tietojoukko, joka sisältää yli 367,000 8,000 kasvoa yli XNUMX aiheesta, joka sisältää pysäytys- ja videokuvia.Linkki
CVKuva ImagenetgeneralAineisto yli 14 Mn. kuvat eri tiedostomuodoissa, järjestetty WordNet-hierarkian mukaan.Linkki
CVKuva Googlen avoimet kuvatgeneral9 Mn. URL-osoitteet julkisten kuvien luokittelemiseksi yli 6,000 luokasta.Linkki
NLPtekstiMIMIC-kriittisen hoidon tietokantaTerveydenhuoltoLaskennallinen fysiologia-aineisto, joka sisältää tunnistamattomia tietoja 40,000 XNUMX kriittisen hoidon potilaalta. Aineisto sisältää tietoja, kuten väestötiedot, elintoiminnot, lääkkeet jne.Linkki
CVKuvaYhdysvaltain kansallinen matka- ja matkailutoimistomatkailuTarjoaa laajoja valokuvia matkailualalta luotettavilla tietokannoilla, jotka kattavat aiheita, kuten saapuvat ja lähtevät matkat sekä kansainväliset matkailutiedot.Linkki
NLPtekstiLiikenneministeriömatkailuMatkailutiedot, jotka sisältävät kansallispuistot, kuljettajarekisterit, sillat ja rautatietiedot jne.Linkki
NLPAudio-Flickr Audio Caption CorpusgeneralYli 40 8,000 äänitekstiä XNUMX valokuvasta, jotka on suunniteltu valvomatta puhekuvioita vartenLinkki
NLPAudio-Puhekomentojen tietojoukkogeneralPuheentunnistus, äänimerkintäYhden sekunnin pitkät lausunnot tuhansilta ihmisiltä perusääniliittymän rakentamiseksi.Linkki
NLPAudio-FSD (vapaa ääni)generalKokoelma päivittäisistä äänistä, jotka on kerätty avoimen lähdekoodin lisenssillä.Linkki
NLPAudio-Ympäristön äänitiedotgeneralYmpäristön ääni-aineistot, jotka sisältävät tapahtumataulukoiden ja akustisten kohtausten taulukoiden äänen.Linkki
NLPtekstiCOVID-19 avoimen tutkimuksen aineisto TerveydenhuoltoLääketieteellinen tekoälyTutkimusaineisto, joka koostuu 45,000 tieteellisestä artikkelista COVID-19: stä ja koronavirusperheiden viruksista.Linkki
CVKuvaWaymo Avaa tietojoukko AutomotiveWaymon julkaisemat monipuolisimmat itsenäiset ajo-tietojoukotLinkki
CVKuvaVisuaalinen genomi generalKuvan tekstitysVisuaalinen tietopohja, jossa on yksityiskohtaiset kuvat yli 100 XNUMX kuvastaLinkki
CVKuvaLabelme Julkinen Govt.Suuri joukko kommentoituja kuvia, joihin pääsee Labelme Matlabin kauttaLinkki
CVKuvaKäämi 100generalYli 100 erilaista kohdetta, jotka on valettu useista kulmista (ts. 360 astetta)Linkki
CVKuvaStanford Dogs -tietojoukkogeneralYli 20,500 120+ kuvaa luokiteltu XNUMX erilaisen koirarodun kuvasarjaanLinkki
CVKuvaSisätilojen tunnistusgeneralKohtauksen tunnistusErityinen tietojoukko, joka koostuu 15620 kuvasta 67 sisätilaluokasta, kohtausten tunnistamismallien rakentamiseksiLinkki
CVKuvaVisualQAgeneralAineisto, joka sisältää avoimia kysymyksiä 265,016 XNUMX valokuvasta, jotka edellyttävät näkemyksen ymmärtämistä ja kielen ymmärtämistä vastaamiseksi.Linkki
NLPtekstiUsean toimialueen mielipiteen analyysiaineistoVerkkokaupanAistien analyysiAineisto, joka sisältää Amazonin tuotearvioitaLinkki
NLPtekstiIMDB arvostelutViihdeAistien analyysiAineisto, joka sisältää 25000 elokuvakatselmusta mielipiteiden analysointia vartenLinkki
NLPtekstiTunnelma140generalAistien analyysiAineisto, joka sisältää 160,000 XNUMX twiittiä ja valmiiksi poistetut hymiöt tarkkuuden lisäämiseksiLinkki
NLPtekstiBloggerin korpusgeneralAvainlauseanalyysiAineisto, joka sisältää 681,288 200 blogger-viestiä blogger.com-sivustolta.Linkki
NLPtekstiVaarageneralChatbot-koulutusYli 200,000 XNUMX kysymystä sisältävä tietojoukko, jota voidaan käyttää koneoppimismallien kouluttamiseen älykkääseen automaattiseen vastaamiseenLinkki
NLPtekstiSMS Spam Collection englanniksiTelecomRoskapostin tunnistusRoskapostiviestitiedosto, joka koostuu 5,574 englanninkielisestä tekstiviestistäLinkki
NLPtekstiYelp-arvostelutgeneralAistien analyysiYelpin julkaisema aineisto, jossa on yli 5 miljoonan arvostelunLinkki
NLPtekstiUCI: n SpambaseyritysRoskapostin tunnistusSuuri joukko roskapostiviestejä, hyödyllinen roskapostin suodattamiseen.Linkki
CVVideo, kuvaBerkeley DeepDrive BDD100kAutomotiveAutonomiset ajoneuvotYksi suurimmista itse ajavien tekoälyjen aineistoista, joka sisältää 1,100 tunnin ajokokemuksen yli 100,000 XNUMX videossa New Yorkin ja San Franciscon alueiden eri päiviltä.Linkki
CVVideoBaidu ApollomaisematAutomotiveAutonomiset ajoneuvot,, semanttinen etiketti, kaistamerkintäLaaja kuva-aineisto, joka kuvaa 26 erillistä semanttista kohdetta, kuten ajoneuvot, pyöräilijät, ihmiset, talot, katuvalot jne.Linkki
CVVideoPilkku.aiAutomotiveAutonomiset ajoneuvot 7 tunnin moottoritien ajo-tietojoukko, joka sisältää tiedot auton nopeudesta, kiihtyvyydestä, ohjauskulmasta ja GPS-koordinaateistaLinkki
CVVideo, kuvaKaupunkikuvan tietojoukkoAutomotiveSemanttinen etiketti autonomiselle ajoneuvolleTietojoukko, jossa on 5,000 pikselitason merkintää sekä suurempi 20,000 50 heikosti merkitty kehysjoukko stereovideosekvensseinä, jotka on tallennettu XNUMX eri kaupungistaLinkki
CVKuvaKUL Belgian liikennemerkkitiedotAutomotiveAutonomiset ajoneuvotYli 10000+ liikennemerkintämerkintää Flanderin alueelta fyysisesti erillisten liikennemerkkien perusteella eri puolilta Belgiaa.Linkki
CVKuvaLISA: Älykkäiden ja turvallisten autojen laboratorio, UC San Diego DatasetsAutomotiveAutonomiset ajoneuvotRikas tietojoukko, joka sisältää liikennemerkit, ajoneuvojen havaitsemisen, liikennevalot ja liikeradat.Linkki
CVKuvaCIFAR-10generalObjektien tunnistaminenAineisto sisältää 50,000 10,000 kuvaa ja 60,000 32 testikuvaa (eli 32 10 XNUMX × XNUMX värikuvaa XNUMX luokassa) esineiden tunnistamista varten.Linkki
CVKuvaMuoti MNISTMuotiKuva-aineisto, joka koostuu 60,000 10,000 esimerkistä ja testisarja 28 esimerkistä 28 × 10 harmaasävykuvassa, yhdistettynä XNUMX luokan tunnisteeseen.Linkki
CVKuvaIMDB-Wiki-tietojoukkoViihdekasvojen tunnistusSuuri joukko kasvokuvia, joissa on etikettejä, kuten sukupuoli ja ikä. 523,051 460,723 kasvokuvasta 20,284 62,328 kuvaa saadaan XNUMX XNUMX julkkiselta IMDB: ltä ja XNUMX XNUMX Wikipediasta.Linkki
CVVideoKinetiikka-700generalKunkin toimintaluokan korkealaatuinen aineisto koostuu 650,000 700 videoleikkeestä, ja se käsittää 600 ihmisen toimintaluokkaa ja vähintään 10 videoleikettä. Tässä jokainen leike kestää noin XNUMX sekuntia.Linkki
CVKuvaMS CocogeneralKohteen tunnistus, segmentointiTietojoukko sisältää 328 kt kuvaa, ja siinä on yhteensä 2.5 Mn esiintymää ja 91 objektikuvaa laajamittaisten objektien havaitsemiseen, segmentointiin ja tietojen tekstitykseen liittyvien ML-mallien kouluttamiseksi.Linkki
CVKuvaMPII Human Pose -tietojoukkogeneralNoin 25 40 valokuvaa, jotka sisältävät yli 410 XNUMX yksilöä, joilla on annotoidut kehonivelet, sisältyvät tietojoukkoon, jota käytetään kuvaamaan ihmisen asennon estimointia. Kaiken kaikkiaan aineisto kattaa XNUMX ihmisen toimintaa ja jokainen kuva on varustettu toimintotarralla.Linkki
CVKuvaAvaa KuvatgeneralKohteen sijainnin merkinnätKuva-aineisto, jossa on noin 9 Mn kuvaa ja joihin on liitetty kuvatason tarrat, objektin rajoituslaatikot, esineiden segmentointi jne. Aineisto koostuu myös 16 Mn: stä. rajoittavat laatikot 600 objektiluokalle 1.9 Mn kuvissa.Linkki
CVVideoApollo Open Platform, valmistaja Baidu Inc, KiinaAutomotiveRajakotelo, LiDARRikas autonomisen ajo-tietojoukko, joka antaa kehittäjille tarvittavat tiedot itsenäisessä ajon aikana nopeuttaakseen innovatiivisen iteraation tehokkuutta.Linkki
CVVideo, kuvaArgo, Argo, USAAutomotiveRajoituslaatikko, optinen virtaus, käyttäytymistarra, semanttinen tarra, kaistamerkintäItse ajava tietojoukko, joka koostuu teräväpiirtokartoista, joissa on geometriset ja semanttiset metatiedot eli kaistojen keskiviivat, kaistan suunta ja ajettava alue. Tietojoukkoa käytetään ML-mallien kouluttamiseen, tarkempien havaitsemisalgoritmien tekemiseen, mikä auttaa itse ajavia ajoneuvoja liikkumaan turvallisesti.Linkki
CVVideoBosch North America Research, Boschin pienet liikennevalotAutomotiveRajakoteloTietojoukko, joka koostuu 13427 kamerakuvasta 1280 * 720 -resoluutiolla visioon perustuvan liikennevalojen havaitsemisjärjestelmän rakentamiseksi. Tietojoukossa on yli 24000 merkinnällä varustettua liikennevaloa.Linkki
CVVideoBrain4Cars, kirjoittanut Cornell Univ., YhdysvallatAutomotiveKäyttäytymismerkkiTietojoukko, joka koostuu joukosta matkustamon antureita (kamerat, kosketusanturit, älylaitteet jne.) Hyödyllisten tilastojen keräämiseksi kuljettajan valppaudesta. Algoritmeillamme voidaan havaita unelias tai hajamielinen kuljettaja ja lisätä tarvittavia hälytyksiä suojauksen parantamiseksi.Linkki
CVVideoCaltech Pedestrian (2009), Kalifornian Inst. Tech., Los Angeles, USAAutomotiveRajakoteloTietojoukko koostuu 10 tunnista 640x480 30Hz: n videokuvaa, joka on otettu kaupunkiympäristössä normaalista liikenteestä kulkevasta autosta. Noin 250,000 137 kehystä (noin 350,000 minuutin pituisissa segmenteissä), joissa oli yhteensä 2300 XNUMX rajalaatikkoa ja XNUMX tiettyä jalankulkijaa, merkittiin.Linkki
CVKuvaCULane, Kiinan univ. Hong Kong, Peking, KiinaAutomotiveKaistamerkintäComputer Vision -tietojoukko liikennekaistojen havaitsemisesta, koostuu 55 tunnin videoista, joista 133,235 88880 (9675 harjoitusjoukko, 34680 vahvistussarja ja XNUMX testisarja) kehystä otettiin. Se kerätään kameroilla, jotka on asennettu kuuteen eri ajoneuvoon, joita eri kuljettajat ajavat Pekingissä.Linkki
CVVideoDAVIS, kirjoittanut Univ. Zürich, ETH ¨ Zürich, Saksa, SveitsiAutomotiveAjoneuvon ajo-opetuksen tietokokonaisuus, joka käyttää DAVIS event + -kamerakameraa. Autotietoja, kuten ohjausta, kaasua, GPS: ää jne. Käytetään arvioimaan autosovellusten kehys- ja tapahtumadatan sulautumista.Linkki
CVVideoDBNet, Shanghai Jiao Tong Univ., Xiamen Univ., KiinaAutomotivePistepilvi, LiDARTosielämän 1000 km: n ajotiedot, jotka sisältävät kohdistetun videon, pistepilven, GPS: n ja kuljettajan käyttäytymisen ajo-käyttäytymisen perusteelliseen tutkimiseen.Linkki
CVVideoDr (silmä) ve, kirjoittanut Univ. Modena ja Reggio Emilia, Modena, ItaliaAutomotiveKäyttäytymismerkkiAineisto, joka sisältää 74 5 minuutin jaksoa videosekvenssiä, jotka on merkitty yli 500,000 XNUMX kehykseen. Tietojoukko koostuu maantieteellisistä sijainneista, ajonopeudesta, kurssista ja myös kuljettajien katseiden kiinnityksistä ja niiden ajallisesta integraatiosta, joka tarjoaa tehtäväkohtaisia ​​karttoja.Linkki
CVVideoETH-jalankulkija (2009), kirjoittanut ETH Zürich, Zürich, SveitsigeneralRajakoteloTietojoukko, jossa on 74 videosekvenssiä, joista kukin on 5 minuuttia, annotoitu yli 500,000 XNUMX kehyksessä. Tietojoukko tarjoaa maantieteelliset sijainnit, ajonopeuden, suunnan ja myös merkitsee kuljettajien katseen kiinnitykset ja niiden ajallisen integroinnin, mukaan lukien tehtäväkohtaiset kartat.Linkki
CVVideoFord (2009), kirjoittanut Univ. Michigan, Michigan, YhdysvallatAutomotiveRajakotelo, LiDARTietojoukko, jonka on laatinut automatisoitu maakulkuneuvo, joka on aseistettu Velodyne 3D-lidar -skannerilla, kahdella eteenpäin suuntautuvalla Rieg-lidarilla, teknisellä ja kuluttaja-inertiaalisella mittausyksiköllä (IMU) sekä Point Grey Ladybug3 -suuntakamerajärjestelmällä.Linkki
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, SaksageneralTietojoukko, joka sisältää useita miljoonia kehyksiä otetuista videotilanteista, jotka sisältävät laajan valikoiman erilaisia ​​sääolosuhteita, useita kerroksia liikettä ja syvyyttä tilanteita kaupungissa ja maaseudulla jne.Linkki
CVVideoJAAD, Yorkin yliopisto, Ukraina, KanadaAutomotiveRajoituslaatikko, käyttäytymistarra"JAAD on tietoaineisto, jolla tutkitaan yhteistä huomiota autonomisen ajon yhteydessä. Painopiste on jalankulkijoiden ja kuljettajien käyttäytymisessä ylityspisteessä ja niihin vaikuttaviin tekijöihin. Tätä tarkoitusta varten JAAD-tietojoukko tarjoaa runsaasti kommentoidun kokoelman 346 lyhyttä videota leikkeet (5–10 sekuntia), jotka on otettu yli 240 tunnin ajomateriaalista useista paikoista Pohjois-Amerikassa ja Itä-Euroopassa. Kaikille jalankulkijoille käytetään okkluusiotunnisteita sisältäviä rajakoteloita, jotka tekevät tästä tietojoukosta sopivan jalankulkijoiden havaitsemiseen. joka on vuorovaikutuksessa kuljettajan kanssa tai vaatii kuljettajan huomiota. Jokaiselle videolle on useita tunnisteita (sää, sijainnit jne.) ja aikaleimattuja käyttäytymistarroja (esim. pysähtynyt, kävely, katselu jne.). Lisäksi luettelo jokaiselle jalankulkijalle (esim. ikä, sukupuoli, liikesuunta jne.) sekä luettelo näkyvistä liikennetilanteen elementeistä (esim. stop-merkki, liikennemerkki jne.) kussakin kehyksessä. "Linkki
CVVideoKAIST Urban, kirjoittanut KAIST, Etelä-KoreageneralLiDARTiedonkeruu sisältää lukuisia sijaintiantureita LiDAR-tiedoille ja stereokuvia, jotka kohdistuvat hyvin monimutkaiseen kaupunkialueeseen (esim. Metropolialueet, monimutkaiset rakennukset ja asuinalueet).Linkki
CVKuvaLISA-liikennemerkki, kirjoittanut Univ. Kaliforniassa, San Diegossa, YhdysvalloissaAutomotiveRajakoteloJoukko tietojoukkoa, joka sisältää videoita ja huomautettuja kehyksiä, jotka sisältävät Yhdysvaltain liikennemerkkejä. Se julkaistaan ​​kahdessa vaiheessa, joista toisessa on vain kuvat ja toisessa sekä kuvia että videoita.Linkki
CVKuvaMapillary Vistas, kirjoittanut Mapillary AB, GlobalAutomotiveSemanttinen etikettiKatutason valokuvausaineisto katukuvien tulkitsemiseksi ympäri maailmaa pikselitarkoilla ja ilmentymäkohtaisilla ihmisen merkinnöillä.Linkki
CVVideo, kuvaSemantic KITTI, Bonnin yliopisto, Karlsruhe, SaksaAutomotiveRajoituslaatikko, semanttinen etiketti, kaistamerkintäTietojoukko, joka sisältää semanttisen merkinnän kaikille Odometry Benchmark -sekvensseille. Aineisto merkitsee erityyppisiä liikkuvia ja liikkumattomia liikennetyyppejä: mukaan lukien autot, polkupyörät, polkupyörät, jalankulkijat ja pyöräilijät, mikä sallii kohtauksen kohteiden tutkimisen.Linkki
CVVideoStanford Track, Stanford Univ., YhdysvallatAutomotiveKohteen tunnistus / luokitus LiDAR, GPS, kooditAineisto, joka sisältää 14,000 64 leimattua objektiraitaa, kuten Velodyne HDL-2E S3 LIDAR on havainnut luonnollisissa katukuvissa, ja jota voidaan käyttää koneoppimismallien kouluttamiseen XNUMXD-objektien tunnistamista varten.Linkki
CVVideoStixel, edustaja Daimler AG, SaksaAutomotiveStixelTietojoukko, joka koostuu 12 stereotien sekvenssistä, joihin on merkitty vapaan tilan (pikselit) perustiedot ja ajoneuvotiedot (nopeus, kallistuskulma ja aikaleima) sekä kameran geometria.Linkki
CVVideo, kuvaBoxy-tietojoukko, kirjoittanut Bosch, YhdysvallatAutomotiveRajakotelon / ajoneuvon tunnistusAjoneuvojen tunnistustietojoukko, joka sisältää 2 miljoonaa merkintää sisältävää ajoneuvoa moottoriteillä tapahtuvien itseajoavien autojen objektien tunnistamisstrategioiden kouluttamiseen ja analysointiin.Linkki
CVVideoTME-moottoritie, Tšekin tekninen yksikkö, Pohjois-ItaliaAutomotiveRajakoteloAineisto 28 leikkeestä, yhteensä 27 minuuttia, haarautui yli 30,000 XNUMX ajoneuvon huomautuskehykseen. Huomautus tuotettiin puoliautomaattisesti käyttämällä laserskannerin tietoja. Tämä tiedonkeruu sisältää vaihtelevia liikenneskenaarioita, kaistojen lukumäärän, tien kaarevuuden ja valaistuksen, joka kattaa suuren osan täydellisen hankinnan ehdoista.Linkki
CVVideoValvomaton lamama, kirjoittanut Bosch, YhdysvallatAutomotiveKaistamerkintä, LiDARValvomaton Llamas-tietojoukko merkittiin luomalla teräväpiirtoiset automaattikartat, mukaan lukien Lidar-pohjaiset kaistamerkit. Autonominen ajoneuvo voidaan kohdistaa näihin karttoihin ja kaistamerkinnät projisoidaan kameran kehykseen. 3D-projektio on optimoitu minimoimalla jo havaittujen ja ennustettujen kuvamerkkien välinen ero.Linkki
NLPAudio-Facebook AI Monikielinen LibriSpeech (MLS)generalÄänihuomautus / puheentunnistusFacebook AI Multilingual LibriSpeech (MLS) on laajamittainen avoimen lähdekoodin tietojoukko, joka on suunniteltu edistämään automaattisen puheentunnistuksen (ASR) tutkimusta. MLS tarjoaa yli 50,000 tuntia ääntä kahdeksalla kielellä: englanti, saksa, hollanti, ranska, espanja, italia, portugali ja puola. Linkki