Avaa tietojoukot
Löydä avoimen lähdekoodin tietojoukkoja, joiden avulla voit kouluttaa ML -malleja
Avoimen lähdekoodin tietojoukot, joilla pääset alkuun AI/ML -malleilla
Tekoäly- ja ML-malliesi tulos on vain yhtä hyvä kuin tiedot, joita käytät sen kouluttamiseen - joten tietojen yhdistämiseen ja tietojen merkitsemiseen ja tunnistamiseen sovellettava tarkkuus on tärkeää!
Joten jos haluat aloittaa uuden tekoäly- / ML-aloitteen ja nyt ymmärrät nopeasti, että laadukkaiden harjoitustietojen löytäminen on yksi haastavimmista näkökohdista projektissasi, sillä korkealaatuiset aineistot ovat polttoaine, joka pitää tekoälyn / ML-moottori käy. Olemme koonneet luettelon avoimista aineistoista, jotka voivat vapaasti käyttää ja kouluttaa tulevaisuuden AI / ML-mallejasi.
Erikoistuminen | Tietotyyppi | Tietojoukon nimi | Teollisuus / osasto | Merkintä / käyttötapaus | Kuvaus | Linkki |
---|---|---|---|---|---|---|
NLP | teksti | Amazon Arviot | Verkkokaupan | Aistien analyysi | Joukko viimeisen 35 vuoden 18 miljoonan arvosteluita ja luokituksia pelkkänä tekstinä käyttäjän ja tuotetietojen kera. | Linkki |
NLP | teksti | Wikipedia-linkkitiedot | general | Yli 4 Mn. artikkelit, jotka sisältävät 1.9 miljardia sana, joka koostuu sanoista ja lauseista sekä kappaleista. | Linkki | |
NLP | teksti | Standford Sentiment Treebank | Viihde | Aistien analyysi | Sentiment-huomautusten tietojoukko yli 10,000 kappaleelle Rotten Tomatoes -arvostelua HTML-tiedostomuodossa | Linkki |
NLP | teksti | Twitter Yhdysvaltain lentoyhtiöiden mielipide | lentoyhtiö | Aistien analyysi | 2015 Yhdysvaltain lentoyhtiöiden twiitit jakautuivat positiivisiksi, negatiivisiksi ja neutraaleiksi sävyiksi | Linkki |
CV | Kuva | Merkityt kasvot luonnossa | general | kasvojen tunnistus | Aineisto, joka sisältää yli 13,000 XNUMX rajata kasvoa ja kaksi erilaista kuvaa kasvojentunnistusharjoitteluun. | Linkki |
CV | Video, kuva | UMDFaces-tietojoukko | general | kasvojen tunnistus | Kommentoitu tietojoukko, joka sisältää yli 367,000 8,000 kasvoa yli XNUMX aiheesta, joka sisältää pysäytys- ja videokuvia. | Linkki |
CV | Kuva | Imagenet | general | Aineisto yli 14 Mn. kuvat eri tiedostomuodoissa, järjestetty WordNet-hierarkian mukaan. | Linkki | |
CV | Kuva | Googlen avoimet kuvat | general | 9 Mn. URL-osoitteet julkisten kuvien luokittelemiseksi yli 6,000 luokasta. | Linkki | |
NLP | teksti | MIMIC-kriittisen hoidon tietokanta | Terveydenhuolto | Laskennallinen fysiologia-aineisto, joka sisältää tunnistamattomia tietoja 40,000 XNUMX kriittisen hoidon potilaalta. Aineisto sisältää tietoja, kuten väestötiedot, elintoiminnot, lääkkeet jne. | Linkki | |
CV | Kuva | Yhdysvaltain kansallinen matka- ja matkailutoimisto | matkailu | Tarjoaa laajoja valokuvia matkailualalta luotettavilla tietokannoilla, jotka kattavat aiheita, kuten saapuvat ja lähtevät matkat sekä kansainväliset matkailutiedot. | Linkki | |
NLP | teksti | Liikenneministeriö | matkailu | Matkailutiedot, jotka sisältävät kansallispuistot, kuljettajarekisterit, sillat ja rautatietiedot jne. | Linkki | |
NLP | Audio- | Flickr Audio Caption Corpus | general | Yli 40 8,000 äänitekstiä XNUMX valokuvasta, jotka on suunniteltu valvomatta puhekuvioita varten | Linkki | |
NLP | Audio- | Puhekomentojen tietojoukko | general | Puheentunnistus, äänimerkintä | Yhden sekunnin pitkät lausunnot tuhansilta ihmisiltä perusääniliittymän rakentamiseksi. | Linkki |
NLP | Audio- | Ympäristön äänitiedot | general | Ympäristön ääni-aineistot, jotka sisältävät tapahtumataulukoiden ja akustisten kohtausten taulukoiden äänen. | Linkki | |
NLP | teksti | COVID-19 avoimen tutkimuksen aineisto | Terveydenhuolto | Lääketieteellinen tekoäly | Tutkimusaineisto, joka koostuu 45,000 tieteellisestä artikkelista COVID-19: stä ja koronavirusperheiden viruksista. | Linkki |
CV | Kuva | Waymo Avaa tietojoukko | Automotive | Waymon julkaisemat monipuolisimmat itsenäiset ajo-tietojoukot | Linkki | |
CV | Kuva | Visuaalinen genomi | general | Kuvan tekstitys | Visuaalinen tietopohja, jossa on yksityiskohtaiset kuvat yli 100 XNUMX kuvasta | Linkki |
CV | Kuva | Labelme | Julkinen Govt. | Suuri joukko kommentoituja kuvia, joihin pääsee Labelme Matlabin kautta | Linkki | |
CV | Kuva | Käämi 100 | general | Yli 100 erilaista kohdetta, jotka on valettu useista kulmista (ts. 360 astetta) | Linkki | |
CV | Kuva | Stanford Dogs -tietojoukko | general | Yli 20,500 120+ kuvaa luokiteltu XNUMX erilaisen koirarodun kuvasarjaan | Linkki | |
CV | Kuva | Sisätilojen tunnistus | general | Kohtauksen tunnistus | Erityinen tietojoukko, joka koostuu 15620 kuvasta 67 sisätilaluokasta, kohtausten tunnistamismallien rakentamiseksi | Linkki |
CV | Kuva | VisualQA | general | Aineisto, joka sisältää avoimia kysymyksiä 265,016 XNUMX valokuvasta, jotka edellyttävät näkemyksen ymmärtämistä ja kielen ymmärtämistä vastaamiseksi. | Linkki | |
NLP | teksti | Usean toimialueen mielipiteen analyysiaineisto | Verkkokaupan | Aistien analyysi | Aineisto, joka sisältää Amazonin tuotearvioita | Linkki |
NLP | teksti | IMDB arvostelut | Viihde | Aistien analyysi | Aineisto, joka sisältää 25000 elokuvakatselmusta mielipiteiden analysointia varten | Linkki |
NLP | teksti | Tunnelma140 | general | Aistien analyysi | Aineisto, joka sisältää 160,000 XNUMX twiittiä ja valmiiksi poistetut hymiöt tarkkuuden lisäämiseksi | Linkki |
NLP | teksti | Bloggerin korpus | general | Avainlauseanalyysi | Aineisto, joka sisältää 681,288 200 blogger-viestiä blogger.com-sivustolta. | Linkki |
NLP | teksti | Vaara | general | Chatbot-koulutus | Yli 200,000 XNUMX kysymystä sisältävä tietojoukko, jota voidaan käyttää koneoppimismallien kouluttamiseen älykkääseen automaattiseen vastaamiseen | Linkki |
NLP | teksti | SMS Spam Collection englanniksi | Telecom | Roskapostin tunnistus | Roskapostiviestitiedosto, joka koostuu 5,574 englanninkielisestä tekstiviestistä | Linkki |
NLP | teksti | Yelp-arvostelut | general | Aistien analyysi | Yelpin julkaisema aineisto, jossa on yli 5 miljoonan arvostelun | Linkki |
NLP | teksti | UCI: n Spambase | yritys | Roskapostin tunnistus | Suuri joukko roskapostiviestejä, hyödyllinen roskapostin suodattamiseen. | Linkki |
CV | Video, kuva | Berkeley DeepDrive BDD100k | Automotive | Autonomiset ajoneuvot | Yksi suurimmista itse ajavien tekoälyjen aineistoista, joka sisältää 1,100 tunnin ajokokemuksen yli 100,000 XNUMX videossa New Yorkin ja San Franciscon alueiden eri päiviltä. | Linkki |
CV | Video | Pilkku.ai | Automotive | Autonomiset ajoneuvot | 7 tunnin moottoritien ajo-tietojoukko, joka sisältää tiedot auton nopeudesta, kiihtyvyydestä, ohjauskulmasta ja GPS-koordinaateista | Linkki |
CV | Video, kuva | Kaupunkikuvan tietojoukko | Automotive | Semanttinen etiketti autonomiselle ajoneuvolle | Tietojoukko, jossa on 5,000 pikselitason merkintää sekä suurempi 20,000 50 heikosti merkitty kehysjoukko stereovideosekvensseinä, jotka on tallennettu XNUMX eri kaupungista | Linkki |
CV | Kuva | KUL Belgian liikennemerkkitiedot | Automotive | Autonomiset ajoneuvot | Yli 10000+ liikennemerkintämerkintää Flanderin alueelta fyysisesti erillisten liikennemerkkien perusteella eri puolilta Belgiaa. | Linkki |
CV | Kuva | LISA: Älykkäiden ja turvallisten autojen laboratorio, UC San Diego Datasets | Automotive | Autonomiset ajoneuvot | Rikas tietojoukko, joka sisältää liikennemerkit, ajoneuvojen havaitsemisen, liikennevalot ja liikeradat. | Linkki |
CV | Kuva | CIFAR-10 | general | Objektien tunnistaminen | Aineisto sisältää 50,000 10,000 kuvaa ja 60,000 32 testikuvaa (eli 32 10 XNUMX × XNUMX värikuvaa XNUMX luokassa) esineiden tunnistamista varten. | Linkki |
CV | Kuva | Muoti MNIST | Muoti | Kuva-aineisto, joka koostuu 60,000 10,000 esimerkistä ja testisarja 28 esimerkistä 28 × 10 harmaasävykuvassa, yhdistettynä XNUMX luokan tunnisteeseen. | Linkki | |
CV | Kuva | IMDB-Wiki-tietojoukko | Viihde | kasvojen tunnistus | Suuri joukko kasvokuvia, joissa on etikettejä, kuten sukupuoli ja ikä. 523,051 460,723 kasvokuvasta 20,284 62,328 kuvaa saadaan XNUMX XNUMX julkkiselta IMDB: ltä ja XNUMX XNUMX Wikipediasta. | Linkki |
CV | Video | Kinetiikka-700 | general | Kunkin toimintaluokan korkealaatuinen aineisto koostuu 650,000 700 videoleikkeestä, ja se käsittää 600 ihmisen toimintaluokkaa ja vähintään 10 videoleikettä. Tässä jokainen leike kestää noin XNUMX sekuntia. | Linkki | |
CV | Kuva | MS Coco | general | Kohteen tunnistus, segmentointi | Tietojoukko sisältää 328 kt kuvaa, ja siinä on yhteensä 2.5 Mn esiintymää ja 91 objektikuvaa laajamittaisten objektien havaitsemiseen, segmentointiin ja tietojen tekstitykseen liittyvien ML-mallien kouluttamiseksi. | Linkki |
CV | Kuva | MPII Human Pose -tietojoukko | general | Noin 25 40 valokuvaa, jotka sisältävät yli 410 XNUMX yksilöä, joilla on annotoidut kehonivelet, sisältyvät tietojoukkoon, jota käytetään kuvaamaan ihmisen asennon estimointia. Kaiken kaikkiaan aineisto kattaa XNUMX ihmisen toimintaa ja jokainen kuva on varustettu toimintotarralla. | Linkki | |
CV | Kuva | Avaa Kuvat | general | Kohteen sijainnin merkinnät | Kuva-aineisto, jossa on noin 9 Mn kuvaa ja joihin on liitetty kuvatason tarrat, objektin rajoituslaatikot, esineiden segmentointi jne. Aineisto koostuu myös 16 Mn: stä. rajoittavat laatikot 600 objektiluokalle 1.9 Mn kuvissa. | Linkki |
CV | Video | Apollo Open Platform, valmistaja Baidu Inc, Kiina | Automotive | Rajakotelo, LiDAR | Rikas autonomisen ajo-tietojoukko, joka antaa kehittäjille tarvittavat tiedot itsenäisessä ajon aikana nopeuttaakseen innovatiivisen iteraation tehokkuutta. | Linkki |
CV | Video, kuva | Argo, Argo, USA | Automotive | Rajoituslaatikko, optinen virtaus, käyttäytymistarra, semanttinen tarra, kaistamerkintä | Itse ajava tietojoukko, joka koostuu teräväpiirtokartoista, joissa on geometriset ja semanttiset metatiedot eli kaistojen keskiviivat, kaistan suunta ja ajettava alue. Tietojoukkoa käytetään ML-mallien kouluttamiseen, tarkempien havaitsemisalgoritmien tekemiseen, mikä auttaa itse ajavia ajoneuvoja liikkumaan turvallisesti. | Linkki |
CV | Video | Bosch North America Research, Boschin pienet liikennevalot | Automotive | Rajakotelo | Tietojoukko, joka koostuu 13427 kamerakuvasta 1280 * 720 -resoluutiolla visioon perustuvan liikennevalojen havaitsemisjärjestelmän rakentamiseksi. Tietojoukossa on yli 24000 merkinnällä varustettua liikennevaloa. | Linkki |
CV | Video | Brain4Cars, kirjoittanut Cornell Univ., Yhdysvallat | Automotive | Käyttäytymismerkki | Tietojoukko, joka koostuu joukosta matkustamon antureita (kamerat, kosketusanturit, älylaitteet jne.) Hyödyllisten tilastojen keräämiseksi kuljettajan valppaudesta. Algoritmeillamme voidaan havaita unelias tai hajamielinen kuljettaja ja lisätä tarvittavia hälytyksiä suojauksen parantamiseksi. | Linkki |
CV | Kuva | CULane, Kiinan univ. Hong Kong, Peking, Kiina | Automotive | Kaistamerkintä | Computer Vision -tietojoukko liikennekaistojen havaitsemisesta, koostuu 55 tunnin videoista, joista 133,235 88880 (9675 harjoitusjoukko, 34680 vahvistussarja ja XNUMX testisarja) kehystä otettiin. Se kerätään kameroilla, jotka on asennettu kuuteen eri ajoneuvoon, joita eri kuljettajat ajavat Pekingissä. | Linkki |
CV | Video | DAVIS, kirjoittanut Univ. Zürich, ETH ¨ Zürich, Saksa, Sveitsi | Automotive | Ajoneuvon ajo-opetuksen tietokokonaisuus, joka käyttää DAVIS event + -kamerakameraa. Autotietoja, kuten ohjausta, kaasua, GPS: ää jne. Käytetään arvioimaan autosovellusten kehys- ja tapahtumadatan sulautumista. | Linkki | |
CV | Video | DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., Kiina | Automotive | Pistepilvi, LiDAR | Tosielämän 1000 km: n ajotiedot, jotka sisältävät kohdistetun videon, pistepilven, GPS: n ja kuljettajan käyttäytymisen ajo-käyttäytymisen perusteelliseen tutkimiseen. | Linkki |
CV | Video | Dr (silmä) ve, kirjoittanut Univ. Modena ja Reggio Emilia, Modena, Italia | Automotive | Käyttäytymismerkki | Aineisto, joka sisältää 74 5 minuutin jaksoa videosekvenssiä, jotka on merkitty yli 500,000 XNUMX kehykseen. Tietojoukko koostuu maantieteellisistä sijainneista, ajonopeudesta, kurssista ja myös kuljettajien katseiden kiinnityksistä ja niiden ajallisesta integraatiosta, joka tarjoaa tehtäväkohtaisia karttoja. | Linkki |
CV | Video | ETH-jalankulkija (2009), kirjoittanut ETH Zürich, Zürich, Sveitsi | general | Rajakotelo | Tietojoukko, jossa on 74 videosekvenssiä, joista kukin on 5 minuuttia, annotoitu yli 500,000 XNUMX kehyksessä. Tietojoukko tarjoaa maantieteelliset sijainnit, ajonopeuden, suunnan ja myös merkitsee kuljettajien katseen kiinnitykset ja niiden ajallisen integroinnin, mukaan lukien tehtäväkohtaiset kartat. | Linkki |
CV | Video | Ford (2009), kirjoittanut Univ. Michigan, Michigan, Yhdysvallat | Automotive | Rajakotelo, LiDAR | Tietojoukko, jonka on laatinut automatisoitu maakulkuneuvo, joka on aseistettu Velodyne 3D-lidar -skannerilla, kahdella eteenpäin suuntautuvalla Rieg-lidarilla, teknisellä ja kuluttaja-inertiaalisella mittausyksiköllä (IMU) sekä Point Grey Ladybug3 -suuntakamerajärjestelmällä. | Linkki |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Saksa | general | Tietojoukko, joka sisältää useita miljoonia kehyksiä otetuista videotilanteista, jotka sisältävät laajan valikoiman erilaisia sääolosuhteita, useita kerroksia liikettä ja syvyyttä tilanteita kaupungissa ja maaseudulla jne. | Linkki | |
CV | Video | JAAD, Yorkin yliopisto, Ukraina, Kanada | Automotive | Rajoituslaatikko, käyttäytymistarra | "JAAD on tietoaineisto, jolla tutkitaan yhteistä huomiota autonomisen ajon yhteydessä. Painopiste on jalankulkijoiden ja kuljettajien käyttäytymisessä ylityspisteessä ja niihin vaikuttaviin tekijöihin. Tätä tarkoitusta varten JAAD-tietojoukko tarjoaa runsaasti kommentoidun kokoelman 346 lyhyttä videota leikkeet (5–10 sekuntia), jotka on otettu yli 240 tunnin ajomateriaalista useista paikoista Pohjois-Amerikassa ja Itä-Euroopassa. Kaikille jalankulkijoille käytetään okkluusiotunnisteita sisältäviä rajakoteloita, jotka tekevät tästä tietojoukosta sopivan jalankulkijoiden havaitsemiseen. joka on vuorovaikutuksessa kuljettajan kanssa tai vaatii kuljettajan huomiota. Jokaiselle videolle on useita tunnisteita (sää, sijainnit jne.) ja aikaleimattuja käyttäytymistarroja (esim. pysähtynyt, kävely, katselu jne.). Lisäksi luettelo jokaiselle jalankulkijalle (esim. ikä, sukupuoli, liikesuunta jne.) sekä luettelo näkyvistä liikennetilanteen elementeistä (esim. stop-merkki, liikennemerkki jne.) kussakin kehyksessä. " | Linkki |
CV | Video | KAIST Urban, kirjoittanut KAIST, Etelä-Korea | general | LiDAR | Tiedonkeruu sisältää lukuisia sijaintiantureita LiDAR-tiedoille ja stereokuvia, jotka kohdistuvat hyvin monimutkaiseen kaupunkialueeseen (esim. Metropolialueet, monimutkaiset rakennukset ja asuinalueet). | Linkki |
CV | Kuva | LISA-liikennemerkki, kirjoittanut Univ. Kaliforniassa, San Diegossa, Yhdysvalloissa | Automotive | Rajakotelo | Joukko tietojoukkoa, joka sisältää videoita ja huomautettuja kehyksiä, jotka sisältävät Yhdysvaltain liikennemerkkejä. Se julkaistaan kahdessa vaiheessa, joista toisessa on vain kuvat ja toisessa sekä kuvia että videoita. | Linkki |
CV | Kuva | Mapillary Vistas, kirjoittanut Mapillary AB, Global | Automotive | Semanttinen etiketti | Katutason valokuvausaineisto katukuvien tulkitsemiseksi ympäri maailmaa pikselitarkoilla ja ilmentymäkohtaisilla ihmisen merkinnöillä. | Linkki |
CV | Video, kuva | Semantic KITTI, Bonnin yliopisto, Karlsruhe, Saksa | Automotive | Rajoituslaatikko, semanttinen etiketti, kaistamerkintä | Tietojoukko, joka sisältää semanttisen merkinnän kaikille Odometry Benchmark -sekvensseille. Aineisto merkitsee erityyppisiä liikkuvia ja liikkumattomia liikennetyyppejä: mukaan lukien autot, polkupyörät, polkupyörät, jalankulkijat ja pyöräilijät, mikä sallii kohtauksen kohteiden tutkimisen. | Linkki |
CV | Video | Stanford Track, Stanford Univ., Yhdysvallat | Automotive | Kohteen tunnistus / luokitus LiDAR, GPS, koodit | Aineisto, joka sisältää 14,000 64 leimattua objektiraitaa, kuten Velodyne HDL-2E S3 LIDAR on havainnut luonnollisissa katukuvissa, ja jota voidaan käyttää koneoppimismallien kouluttamiseen XNUMXD-objektien tunnistamista varten. | Linkki |
CV | Video, kuva | Boxy-tietojoukko, kirjoittanut Bosch, Yhdysvallat | Automotive | Rajakotelon / ajoneuvon tunnistus | Ajoneuvojen tunnistustietojoukko, joka sisältää 2 miljoonaa merkintää sisältävää ajoneuvoa moottoriteillä tapahtuvien itseajoavien autojen objektien tunnistamisstrategioiden kouluttamiseen ja analysointiin. | Linkki |
CV | Video | TME-moottoritie, Tšekin tekninen yksikkö, Pohjois-Italia | Automotive | Rajakotelo | Aineisto 28 leikkeestä, yhteensä 27 minuuttia, haarautui yli 30,000 XNUMX ajoneuvon huomautuskehykseen. Huomautus tuotettiin puoliautomaattisesti käyttämällä laserskannerin tietoja. Tämä tiedonkeruu sisältää vaihtelevia liikenneskenaarioita, kaistojen lukumäärän, tien kaarevuuden ja valaistuksen, joka kattaa suuren osan täydellisen hankinnan ehdoista. | Linkki |
CV | Video | Valvomaton lamama, kirjoittanut Bosch, Yhdysvallat | Automotive | Kaistamerkintä, LiDAR | Valvomaton Llamas-tietojoukko merkittiin luomalla teräväpiirtoiset automaattikartat, mukaan lukien Lidar-pohjaiset kaistamerkit. Autonominen ajoneuvo voidaan kohdistaa näihin karttoihin ja kaistamerkinnät projisoidaan kameran kehykseen. 3D-projektio on optimoitu minimoimalla jo havaittujen ja ennustettujen kuvamerkkien välinen ero. | Linkki |
NLP | Audio- | Facebook AI Monikielinen LibriSpeech (MLS) | general | Äänihuomautus / puheentunnistus | Facebook AI Multilingual LibriSpeech (MLS) on laajamittainen avoimen lähdekoodin tietojoukko, joka on suunniteltu edistämään automaattisen puheentunnistuksen (ASR) tutkimusta. MLS tarjoaa yli 50,000 tuntia ääntä kahdeksalla kielellä: englanti, saksa, hollanti, ranska, espanja, italia, portugali ja puola. | Linkki |