Ressources linguistiques et système de traduction en malais indonésien (bahasa indonesia) de PAN Localization

Les systèmes de traduction automatique ont le potentiel d'offrir du contenu en ligne accessible en diverses langues locales asiatiques. Toutefois, la technologie utilisée pour concevoir ces systèmes - la méthode statistique - n'a pas fait l'objet d'essais suffisants pour les langues asiatiques. La méthode statistique nécessite la " formation " d'une grande quantité de textes dans la langue de départ et la traduction phrase par phrase dans la langue d'arrivée. Le système " apprend " à aligner des parties de texte et à les placer dans un nouveau texte en s'appuyant sur le corpus de textes en parallèle. La subvention permettra à une équipe de chercheurs indonésiens d'élaborer une banque de textes en parallèle totalisant 100 000 mots à partir d'un corpus de base en anglais, le PENN Treebank, distribué par le Linguistic Data Consortium de l'Université de la Pennsylvanie. En plus de permettre la création d'un prototype de système de traduction automatique de l'anglais vers le malais indonésien (bahasa indonesia), le projet devrait contribuer aux travaux menés sur la traduction automatique vers les langues asiatiques et permettre de constituer une expertise dont pourra bénéficier le réseau PAN Localization (PAN L10n).

Projet nᵒ

105009

État du projet

Terminé

Date de début

Monday, March 31, 2008

Date butoir

Wednesday, February 3, 2010

Durée

20 mois

Agent(e) responsable du CRDI

Ng Lee Hoon, Maria

Financement total

CAD$ 55,400

Pays

Asie, Extrême-Orient, Indonésie

Chargé(e) de projet

Sarmad Hussain

Institution

National University of Computer and Emerging Sciences

Pays d' institution

Pakistan

Site internet

http://www.nu.edu.pk