Plateforme ISTEX : plus de 50 langues différentes !

Classé dans : API, ISTEX-DATA | 0

Chers utilisatrices et utilisateurs,

Cloud 1A ce niveau d’ingestion des corpus, deux tiers des codes langues de la plateforme ISTEX sont identifiés, soit plus de 10 millions de documents. Le corpus contient une cinquantaine de langues clairement identifiées par leur code langue fourni dans les métadonnées éditeurs. Un certain nombre de codes langues sont erronés ou non renseignés.

La langue la plus représentée avec près de 9 millions de documents est l’anglais. L’allemand se détache suivi du français, du latin, de l’espagnol et de l‘italien. Il contient donc des langues vivantes et des langues mortes telles que le grec ancien, le latin et des langues ‘en danger’.

En effet, ce corpus contient quelques documents dans des langues telles que l’araméen qui est un groupe de langues afro-asiatiques. L’alphabet araméen a été largement adopté par les autres langues et est l’ancêtre des alphabets hébreu et arabe. Les langues araméennes sont considérées comme langues en voie de disparition.

La famille linguistique indo-européenne est représentée par le persan. Nous avons quelques documents dans cette langue, principalement parlée en Iran.

L’Amérique du Nord est également représentée avec les langues amérindiennes qui sont des langues indigènes d’Amérique, parlées par les différents peuples amérindiens depuis l’Alaska et le Groenland jusqu’à la Terre de Feu. Les langues amérindiennes ne forment pas une famille de langues unique, mais comprennent de nombreuses familles de tailles très variables, ainsi que des langues isolées. Beaucoup de langues amérindiennes sont aujourd’hui menacées de disparition.