La recherche par langue sur Twitter

, par Valéry-Xavier Lentz

Depuis combien de temps cette fonction est-elle là ? Je ne l’observe qu’aujourd’hui en tombant par hasard sur cette page de résultat. Twitter propose désormais un filtre de langue dans les résultats de recherche sur http://search.twitter.com/ Cette fonctionnalités n’est toutefois pas présente dans les résultats de http://www.twitter.com

Le filtre de langues sur search.twitter.com, Oct 2009

Il se présente dans la colonne de droite sous la forme d’un menu déroulant proposant 19 langues. Le nom de chaque langue est affiché en anglais suivi du nom dans la langue et l’alphabet d’origine, entre parenthèses. Je m’étonnais de voir ce double affichage mais compte tenu des usages de Tweeter comme outil de veille ceci a du sens : ainsi on peut consulter les messages en farsi pour se faire une idée de l’activité des internautes iraniens sans pour autant savoir distinguer le farsi de l’arabe dans un menu de langue...

search.twitter.com filtre 19 langues, Oct 2009

19 langues seulement : en effet il semble que la détection de la langue d’un Tweet de fasse non pas sur la base d’une déclaration de sn auteur - il n’existe pas d’interface pour le préciser, mais sur une détection automatique, sans doute dès la création du Tweet car ceux ci se voient attribués une class "fr" ou "en" selon qu’ils sont en français ou en anglais. Il faut donc un mécanisme de détection qui n’est pas semble-t-il disponible dans plus de langues.

Regrettons au passage que puisque Twitter ajoute une class, il n’en profite pas pour ajouter un attribut lang sur le span.

Ce mécanisme de détection automatique (plutôt qu’une déclaration utilisateur) limite donc le nombre de langues disponibles pour le filtre mais génère également des erreurs. En effet, 140 charactères, dont souvent des tags et des URL, ne donne guère de mots pour procéder à une analyse fine du texte d’autant plus qu’il est parfois en style télégraphique. Ceci est un problème à la fois pour le filtre de langue et pour la traduction automatique également proposée.

Voici par exemple deux Tweets sur #parisweb qui seraient rédigés en islandais... ou pas.

L’islandais à #pariweb, Oct 2009

Une fonctionnalité donc imparfaite mais tout simplement indispensable pour un service comme Twitter.

Notons au passage que Twitter a annoncé le 8 octobre la localisation de l’interface du site [en] en allemand, espagnol, français et italien en plus de l’anglais et du japonais.

Pour aller plus loin :

  • En attendant le Poisson de Babel : la présentation de Stéphanie Booth à Paris Web 2007 abordait le multilinguisme sur le web et comportait quelques écrans sur un Twitter jusqu’ici indifférent.