Agrupamento E Distribuição Dos Números Telefônicos No Português Brasileiro (Pb): Uma Contribuiçao Ao Aprimoramento Do Google Tradutor
In:
Submitted By musiliyu Words 3134 Pages 13
Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao aprimoramento do Google tradutor
Resumo: O estudo está preocupado com a estratégia de agrupamento numérico na enunciação dos números telefônicos no português brasileiro (PB). O propósito é disponibilizar informações para o aprimoramento do Google tradutor. Para isso, números telefônicos extraídos de uma lista telefônica local foram lidos naturalmente por falantes nativos do PB. Uma análise segmental foi realizada mediante a utilização do software Praat (Boersma and Weenink 2013, versão 10.3). Os resultados das análises mostraram um padrão de agrupamento numérico na enunciação dos números telefônicos e tal modelo poderia ser base informacional ao aprimoramento do sistema de síntese de voz do Google tradutor em relação ao números telefônicos.
Palavras-chave: agrupamento, número telefônico, Google tradutor
Abstract: This paper is concerned with the numerical grouping strategy in spoken telephone numbers in Brazilian Portuguese, in order to make available information that could improve the Google translator. To that aim, telephone numbers were extracted from a local phone book and spoken spontaneously by native speakers of Brazilian Portuguese. A segmental analysis was done with the use of Praat (Boersma & Weenink 2013, version 10.3). Results of the analysis show a grouping strategy pattern in the spoken telephone numbers and such model could serve as information in improving the speech synthesis system of Google translator in relation to telephone numbers.
Keywords: grouping, telephone numbers, Google translator
Introdução A motivação do estudo O avanço da tecnologia da fala tornou frequente o uso de sistema automatizado de reconhecimento e de síntese de fala no nosso cotidiano. Isto é observado em diversos âmbitos de aplicações tais como: informações bancárias, tradução online, consultas a listas telefônicas, serviços de auxílio a deficientes visuais, dentre outras.
Em muitos casos, entretanto, o desempenho desses sistemas tem sido considerado sofrível, ora por não processarem corretamente a fala espontânea (no caso de sistemas de reconhecimento de fala, por exemplo o AUDIMUS[2]), ora por não apresentarem, em sua produção, características de ritmo e entonação próximas às da fala natural (no caso dos sistemas de síntese de fala, por exemplo o DIXI[3]). O Google tradutor que oferece um serviço de tradução online grátis, por exemplo, possui um TTS (do inglês Text-To-Speech ou conversor to texto para fala) que não faz uma leitura adequada de números telefônicos no português brasileiro (doravante PB).
Isso se deve em parte ao fato de tais sistemas serem, na maioria das vezes, baseados em dados impressionísticos (ou muito antigos) e não em dados de fala natural e espontânea.
Avanços nessa área foram obtidos em decorrência da descrição da enunciação de números naturais nas mais diversas línguas, tais como o alemão (Baumann & Trouvain 2001), o japonês (Amino & Osanai 2011) e o francês (Bartkova & Jouvet 1999). O propósito de tais estudos foi propor um modelo apropriado de produção dos números telefônicos que poderão servir de informações ao aperfeiçoamento de sistemas automatizados de reconhecimento e de síntese de voz em aplicações referentes aos números telefônicos.
Porquanto não houvesse para o PB estudo que descreva, de forma sistemática e abrangente, a estratégia de produção de números telefônicos em estruturas pré-estabelecidas, isto é propósito do presente estudo. Os resultados das análises poderão servir de informações ao aprimoramento do sistema TTS do Google tradutor em aplicação conectada aos números telefônicos no PB.
Os objetivos desse estudo O objetivo do estudo é realizar uma análise segmental para investigar a estratégia padrão de agrupamento e de distribuição sonora aplicada aos números telefônicos de comprimento diferente no PB.
Metodologia
A caracterização dos participantes Os participantes que produziram os dados deste estudo foram estudantes (uma metade do segundo grau e outra do terceiro grau) nativos do PB, todos do estado de Pernambuco. O grupo foi formado de oitenta e cinco pessoas (quarenta e oito mulheres e trinta e sete homens) selecionadas aleatoriamente.
A caracterização do Corpus O corpus deste estudo como apresentado no Quadro 1, consiste de um total de 30 números telefônicos. Todos os números são reais e foram extraídos da lista telefônica LISTEL, para as cidades de Recife, Olinda e Jaboatão dos Guararapes, no estado de Pernambuco.
Os números foram escolhidos aleatoriamente, de forma a abranger (a) os números convencionais e de telefone celular com oito dígitos, (b) os números de serviços especiais com três dígitos e (c) os números de ligação gratuita, com onze dígitos.
No intuito de testar uma possível relação entre a apresentação gráfica dos números e a maneira como eles são enunciados, os números convencionais de oito dígitos foram apresentados de três maneiras diferentes, (i) divididos em dois grupos de quatro dígitos (NNNN NNNN), (ii) divididos em um grupo de quatro e dois grupos de dois dígitos (NNNN NN NN) e (iii) sem qualquer tipo de divisão (NNNNNNNN). Os catálogos telefônicos trazem números com esses três tipos de disposição, embora a do tipo (i) seja a mais frequente.
No Brasil os números telefônicos são regulados pela ANATEL (Agência Nacional de Telecomunicações), no Plano Nacional de Numeração. E no plano atual, o Número de Assinante deverá ter o comprimento de oito dígitos, obedecendo o formato [NNNN + NNNN]. Embora, na região de DDD (discagem direta a distância) 11, tal como em São Paulo, os telefones móveis deverão ter o comprimento de 9 (nove) dígitos, obedecendo o formato [9NNNN + NNNN].
A coleta dos dados Na coleta de dados, os números de telefone pré-selecionados foram apresentados um após outro, aleatoriamente, em slideshow, com intervalos regulares de sete segundos. O processo dividiu-se em duas etapas para cada participante:
(1) Na primeira etapa:
O participante leu a breve instrução a seguir e fez um ensaio:
“Você irá ver a seguir uma série de números telefônicos. O que se pede é que leia em voz alta os números apresentados da forma como costuma dizê-los. Os números serão apresentados um após outro automaticamente. Vocês terá tempo suficiente para lê-los. Inicialmente, você vai fazer um ensaio rápido, para se familiarizar com a tarefa. Não há uma forma correta de se dizer números telefônicos. Mais uma vez: o que se pede apenas é que você leia, naturalmente, os números da maneira que habitualmente o faz. Depois do teste, a tarefa em si terá inicio. Cera de 30 números serão apresentados Pede-se também que você procure manter uma distancia constante do microfone. Se tiver alguma dúvida, não hesite em perguntar. Obrigado por sua participação.”
O objetivo da instrução foi também deixar para os participantes cientes de que eles não estavam sendo testados no processo da coleta de dados, possibilitando assim que sua fala fosse o mais espontânea possível. Depois a leitura da instrução, um rápido ensaio, contendo um total de seis números telefônicos representativos (9619 94 53; 32514251; 104; 08007011566; 3228 6924; 8803 91 48) foi realizado.
(2) E na segunda etapa:
Logo depois o ensaio, o slideshow composto dos 30 números foi apresentado aos participantes e a gravação foi imediatamente feita. A gravação foi realizada em um equipamento de minidisc Sony, modelo MZ-R700, com um microfone digital Sony, modelo ECM-MS907, localizado a 15 centímetros da boca dos participantes. A Figura 1 ilustra um exemplo do slideshow apresentado:
[pic]
Figura 1: Um exemplo do slideshow apresentado aos participantes.
Os números telefônicos foram segmentados dos enunciados produzidos pelos participantes e arquivados em formato .wav mediante a utilização do software Praat (Boersma and Weenink 2013, versão 10.3), tal como ilustrado na Figura 2. O Praat é uma ferramenta para a análise da voz, desenvolvida em 1992 por Paul Boersma e David Weenink, do Institute of Phonetic Sciences, da Universidade de Amsterdam, e pode ser baixado livremente na internet (www.praat.org).
[pic]
Figura 2: Janelas do Praat ilustrando o sinal acústico do Enunciado_01 do participante mulher_01 e da enunciação do número telefônico 9948 09 93
Alguns poucos participantes omitiram um ou dois números no processo da leitura, no entanto. Portanto, para alguns participantes, só temos dados de 28 ou 29 enunciados de números em vez de 30.
Também, para as análises desse estudo, não foram utilizados todos os dados produzidos pelos participantes. Alguns deles erraram na leitura de alguns números telefônicos. Esses dados foram considerados erros e foram descartados da análise. No entanto o número de dados errados é pouco significativo.
A análise segmental dos dados Cada trecho de enunciado de número telefônico de formato .wav foi jogado no Praat e transcrito ortograficamente. Em seguida, o trecho sonoro é segmentado em agrupamentos representados pelo dígito 1 (unário), 2 (binário), 3 (ternário) ou 4 (quaternário), e em distribuições sonoras representadas pela letra U (unidade), D (dezena), C (centena) ou M (milhar). A Figura 3 exemplifica a segmentação e transcrição de um número telefônico tal como enunciado por um participante.
[pic]
Figura 3: Janela do Praat contendo a transcrição e a segmentação do número telefônico 08007704418 tal como enunciado pelo participante homem_69.
Resultados e discussão A estratégia de agrupamento dos números de oito dígitos:
Quadro 1: Resultados da estratégia de agrupamento dos números de oito dígitos.
Como se pode observar na Quadro 1, a preferência do agrupamento dos números telefônicos de oito dígitos em sua maioria é no tipo “2-2-2-2” (NN NN NN NN), isto é, um conjunto de quatro agrupamentos binários (85% dos casos). Outro agrupamento relativamente significativo é o do tipo “1-3-2-2” (N NNN NN NN) (11% dos casos) isso provavelmente pode ser explicado pelo fato de que antes de 1996, os números telefônicos de sete dígitos eram agrupados em “3-2-2” (NNN NN NN). E a partir desse ano, a companhia telefônica local inseriu um dígito (o dígito 3) na frente de todos os números. Os agrupamentos irregulares, como os do tipo “1-1-2-2-2” (N N NN NN NN), “3-2-3” (NNN NN NNN) e “1-2-2-3” (N NN NN NNN), apareceram raramente e, em sua grande parte, parecem constituir erro.
Na Quadro 2, a disposição gráfica dos números de oito dígitos não parece exercer nenhuma influência na maneira como eles são agrupados pelos participantes. As ocorrências do agrupamento “2-2-2-2” (NN NN NN NN) eram de 85% dos casos de disposição gráfica NNNN NNNN, 80% para NNNNNNNN e 81% dos casos para a disposição gráfica NNNN NN NN.
|Números de dígitos |8 dígitos |
|Disposição gráfica |NNNNNNNN |NNNN NNNN |NNNN NN NN |
|Total |360 |326 |749 |
|% de agrupamento 2-2-2-2 (NN NN NN NN) |80% |85% |81% |
Quadro 2: Resultados da estratégia do agrupamento com os números de disposição gráfica NNNN NNNN, NNNNNNNN e NNNN NN NN.
Quadro 3: Resultados da estratégia de agrupamento dos números de três dígitos.
Como se pode observar na Quadro 3, a preferência do agrupamento dos números de 3 dígitos em sua totalidade é no tipo “3” (NNN), isto é, um agrupamento ternário.
Quadro 4: Resultados da estratégia de agrupamento dos números de onze dígitos.
Como se pode observar na Quadro 4, com os números de onze dígitos, o agrupamento é majoritariamente feito em “4-3-2-2” (NNNN NNN NN NN), isso é um conjunto de um agrupamento quaternário, seguido de um agrupamento ternário e dois agrupamentos binários (98% dos casos).
A distribuição sonora dos números de oito dígitos:
Na enunciação dos números telefônicos, os agrupamentos foram distribuídos em unidade (U), em dezena (D), em centena (C) ou em milhar (M). O Quadro 5 e o Gráfico 1 apresentam os resultados da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” que é o mais comum.
[pic]
Gráfico 1: Representação gráfica da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” (NN NN NN NN).
Quadro 5: Resultados da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” (NN NN NN NN).
Como se pode observar na Quadro 5 e no Gráfico 1, a preferência de distribuição sonora dos números de oito dígitos de agrupamento “2-2-2-2” (NN NN NN NN) em sua maioria é no tipo “UU-UU-UU-UU” que é uma distribuição sonora em unidade (48% dos casos) em detrimento de dezenas, centenas e milhares.
Outras distribuições sonoras relativamente significativas são as do tipo “D-D-D-D” (9%), “UU-UU-D-UU” (9%) e “UU-UU-D-D” (9%).
A distribuição sonora dos números de três dígitos:
O Quadro 6 e o Gráfico 2 apresentam os resultados da distribuição sonora dos números telefônicos de três dígitos de agrupamentos ternário “3” (NNN) que é o mais comum.
[pic]
Gráfico 2: Representação gráfica da distribuição sonora dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN).
Quadro 6: Resultados da distribuição sonora dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN)
Quadro 6 e o Gráfico 2 mostram os resultados da distribuição sonora na enunciação dos números em unidade (U) e em centena (C) dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN). A preferência da distribuição sonora em sua maioria é no tipo “C” que é uma distribuição sonora em centena (66% dos casos) em detrimento da distribuição sonora em unidade (34% dos casos).
A distribuição sonora dos números de onze dígitos:
O Quadro 7 e o Gráfico 3 apresentam os resultados da distribuição das unidades sonoras na enunciação dos números em unidade (U), em centena (C) e em dezena (D) dos números telefônicos de onze dígitos do conjunto de agrupamento “4-3-2-2” (NNNN NNN NN NN).
[pic]
Gráfico 3: Representação gráfica da distribuição sonora dos números telefônicos de onze dígitos de conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN).
Quadro 7: Resultados da distribuição sonora dos números telefônicos de onze dígitos de conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN).
Como se pode observar no Quadro 7 e Gráfico 3, a preferência da distribuição sonora dos números de onze dígitos de agrupamento “4-3-2-2” (NNNN NNN NN NN) em sua maioria é no tipo “UC-UUU-UU-UU” que é um agrupamento quaternário de distribuição em unidade e centena, seguido de um agrupamento ternário de distribuição sonora em unidade e de dois agrupamentos binários de distribuição sonora em unidade (19% dos casos). Outras distribuições relativamente significativas são as do tipo “UC-C-D-D” (17%), “UC-UUU-D-D” (9%), “UU-UU-D-D” (16%) e “UC-C-D-UU” (13%).
Conclusões
Os resultados deste trabalho permitiram identificar um padrão de agrupamento e de distribuição sonora aplicado aos números telefônicos no português brasileiro.
As análises mostraram que, geralmente, na enunciação dos números telefônicos de três dígitos, o agrupamento dos dígitos é ternário “3” e é enunciado em centena “C”. Por exemplo, a preferência na enunciação do número telefônico “190” é “cento e noventa”.
Na enunciação dos números telefônicos de 8 dígitos, o agrupamento dos dígitos é um conjunto de quatro agrupamentos binários “2-2-2-2” que é enunciado em unidade “UU-UU-UU-UU”. Por exemplo, o número telefônico “3424 2767” é enunciado de preferência tal como “três quatro”-“dois quatro”-“dois sete”-“seis sete”.
Com os números telefônicos de onze dígitos, de preferência, a estratégia de agrupamento é um conjunto de um agrupamento quaternário, um agrupamento ternário e dois agrupamentos binários “4-3-2-2” que é enunciado em unidade e em centena “UC-UUU-UU-UU”. Por exemplo, o número telefônico “08002812112” é enunciado preferencialmente da seguinte forma, “zero oitocentos”-“dois oito um”-“dois um”-“um dois”.
Os resultados poderão contribuir ao aprimoramento do sistema automatizado de síntese de fala do Google tradutor em aplicação conetada aos números telefônicos no PB. A Figura 4 mostra que a performance do Google tradutor é sofrível em relação a síntese da enunciação dos números telefônicos no PB. O número telefônico “3424 2767” é enunciado pelo Google tradutor tal como “três mil quatrocentos vinte quatro”-“dois mil setecentos sessenta sete”. Isto é uma estratégia de agrupamento e enunciação de dígitos que não apresenta caraterísticas próximas às da fala natural no PB tal como observado no presente estudo.
[pic]
Figura 4: janela do Google tradutor com a enunciação sintetizada do número telefônico 3424 2767.
Referências bibliográficas
Amino, K and Osanai, T. Realisation of the prosodic structure of spoken telephone numbers by native and non-native speakers of japanese. In proceeding of: THE 17TH INTERNATIONAL CONGRESS OF PHONETIC SCIENCES (ICPhS XVII). Honk kong, China, August 17-21, 2011.
Bartkova, K. and Jouvet, D. Selective prosodic post-processing for improving recognition of French telephone numbers. In Proceedings of: THE 6TH EUROSPEECH. Budapest, Hungary, 1999.
Baumann, S. and Trouvain, J. On the prosody of German telephone numbers. In Proceedings of: THE 7TH CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY. Aalborg, Denmark, 2001. P. 557-560.
Boersma, P. and Weenink, D. Praat: doing phonetics by computer. Versão 10.3. Disponível em:< http://www.praat.org/>. Acesso em: 11 fev. 2013
-----------------------
[1] Oyedeji Musiliyu, Mestrando
Universidade Federal de Alagoas (UFAL)
Programa de Pós-Graduação em Letras e Linguística bodeses@yahoo.fr [2] AUDIMUS.MEDIA / AUDIMUS.SERVER: Sistema automático de reconhecimento de fala usado na transcrição para texto das palavras proferidas por um ou vários oradores, utilizado em sistemas de legendagem para televisão e rádio, atas de reuniões, tribunais, congressos, …
[3] DIXI.SERVER / FACE.SERVER : Sistema de síntese de fala realiza a leitura de qualquer texto em formato electrónico, podendo ser usado com uma personagem virtual com movimentos faciais sincronizados com a fala em aplicações web, sistemas aumentativos, …