Détection automatique de la langue d’un site internet

Cet outil analyse la langue utilisée sur une page web. Il se sert des dernières approches du traitement automatique de la langue naturelle pour ce faire.

  

Captcha



Cet outil peut être notamment utilisé pour proposer de la publicité en ligne contextuelle ou pour faire de l’aggrégation de blogs en fonction de leur langue. Il peut bien sûr être adapté à vos besoins pour correspondre à votre cahier des charges.

Veuillez noter que plus le nombre de langues à différencier est réduit, meilleurs sont les résultats de cet outil.

Pour toute question au sujet de ce produit, veuillez utiliser le formulaire de contact.

Les 220 langues actuellement supportées sont :

  1. abkhaze, aceh, achuar shiwiar, afrikaans, aguaruna, akha, aimara, albanais, allemand, amahuaca, amarakaeri, amuesha-yanesha, arabe, arabela, arapaho, arménien, asháninka, ashéninka pajonal, asturien
  2. basque, bemba, berbère (tamazight), bhojpuri, bichelamar, biélorusse (alphabets latin et cyrillique), bora, breton, brithenig, bugis, bulgare
  3. cakchiquel, candoshi-shapra, caquinte, cashibo-cacataibo, catalan, cebuano, chamorro, chayahuita, chichewa, chickasaw, chinantec (Chiltepec et Ojitlán), chin falam, chinois (mandarin), chokwe, chuukese, cornique, croate
  4. danois, dinka padang, divehi
  5. écossais, édo, espagnol, espéranto, estonien
  6. féroïen, fidjien, finnois, frioulan, frison et frison oriental
  7. galicien, gallois, garifuna, glosa, grec, guarani, gujarâtî
  8. hani, haoussa, hawaiien, hébreu, hiligaynon, hindi, hmong (Qiandong Miao du nord, du sud, et hmong njua), hongrois, huastèque de San Luís Potosí, huitoto murui
  9. ibibio, ido, igbo, ilokano, indonésien, interlingua, inuktitut, islandais, italien,
  10. japonais, javanais, jola-fogny, judéo-espagnol
  11. kachoube, kanuri yerwa, kaonde, kimbundu, klingon, konjo, kurde
  12. lamnso, letton, limbourgeois, lingala, lituanien, lojban, lozi, luba-kasai, luganda, luvale, luxembourgeois
  13. macédonien, madurais, makonde, malais, malayalam, malgache, maltais, mam, maori, mapudungun, marâthî, marshallais, matsés, maya yucatèque, micmac, minangkabau, miskito, mixtèque Metlatónoc, montagnais,
  14. nahuatl, ndonga, népalais, néerlandais, nomatsiguenga, norvégien (Bokmål et Nynorsk), novial, nyamwezi, nyemba
  15. oromo, ossète, otomi, ourdou, ouzbek (alphabet latin)
  16. páez, paluan, pampangan, perse, picard, pipil, pohnpei, polonais, portugais, provençal,
  17. q’eqchi’, quenya
  18. romanche, romani (Balkans et Vlax), roumain, rundi, runyankole, russe
  19. same (du nord, du sud et same suédois de Lule), sango, serbe (cyrillique et alphabet latin de Gaj), sharanahua, shipibo, sindarin, sindhi (alphabet arabe), slovaque, slovène, soninké, sorabe, sotho (du nord et du sud), suédois, sukuma, sundanais, swahili, swati
  20. tagalog, tahitien, tamoul, tarasque, tchèque, tedim, tétoum, thaï, tiv, toba, tojolabal, tok pisin, tongien, tswana, tzotzil (Chamula), turc
  21. ukrainien, umbundu, urarina
  22. vietnamien, volapük
  23. wallon, waray, wayuu, wolof
  24. xhosa
  25. yagua, yao, yapese, yiddish, yoruba
  26. zapotèque (Miahuatlán et Güilá), zhuang du nord, zoulou