1. Introdução
"A Linguística Computacional"




Cada vez mais máquinas estão sendo programadas para responder a comandos de usuários em sua própria língua. Computadores atendendo a comando de voz,editores de texto lendo em voz alta textos grandes inteiros,atendimento virtual em qualquer operadora de telefone,traduções automáticas em duas ou mais línguas e tudo isso está presente em nossas vidas que às vezes se passam despercebida, pois o computador está cada vez mais interativo na sociedade tornando comum e dependente a sua utilização. É possível pensar em escrever algo nos tempos de hoje sem computador?
O tratamento computacional das linguagens humanas é uma área de estudo que envolve tanto linguístas como informatas, tornando assim uma área multidisciplinar que é a Linguística Computacional, mas existe uma relação existente entre suas subáreas que é o (PLN) Processamento de Língua Natural e a Linguística de Corpus, e isto é importante ressaltar que essa relação nem sempre é nítida, porque há muitos trabalhos que envolvem as duas áreas e que são independentes; OTHERO,(2005,p23).







_____________________________
1 OTHERO,(2005,p23): "Lingüística Computacional, teoria & prática, São Paulo, Parábola Editorial, 2005.


2. O que é Linguística Computacional?

É a área que é responsável pelo tratamento computacional da linguagem e das línguas naturais, mais conhecida como Linguística Computacional.
De acordo com VIEIRA& LIMA(2001:1), a Linguística Computacional pode ser entendida como, "a área de conhecimento que explora as relações entre lingüística e informática, tornando assim possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural".
A Linguística Computacional envolve diferentes áreas de pesquisas, que compõe a Linguística Teórica e aplicada, como o exemplo, a Sintaxe, a Semântica, a Fonética e Fonologia, a Pragmática, a Análise do Discurso, etc, tornando o objetivo desta disciplina que é processar e produzir as línguas naturais, OTHERO,(2005,p22).
Segundo OTHERO,(2005,p23), "a Lingüística Computacional pode ser dividida em duas subáreas distintas: a Linguística de Corpus e o Processamento de Linguagem Natural (PLN).
Quando surgiu a Inteligência Artificial a Linguística Computacional se converteu em um ramo da IA¹, tratando com o nível de entendimento humano e o PLN, que conforme OTHERO, (2005,p25), preocupa-se diretamente com o estudo da linguagem voltado para a construção de softwares e sistemas computacionais específicos,como tradutores automáticos, chatterbots, parsers, reconhecedores automáticos de voz, geradores automáticos de resumos, etc.
A Linguística de Corpus segundo e BERBER SARDINHA, (2000) "preocupa-se com o trabalho a partir de corpora eletrônicos, que contenham amostras de linguagem natural. Essas amostras podem ser de diferentes fontes. Por isso, podemos encontrar os mais variados bancos de corpora eletrônicos: há corpora de linguagem falada, corpora de linguagem escrita literária, corpora com textos de jornal, corpora compostos exclusivamente por falas de crianças em estágio de desenvolvimento lingüístico etc".
______________________________
1:IA: Inteligência Artificial: é uma área de pesquisa da ciência da computação e Engenharia da Computação, dedicada a buscar métodos ou dispositivos computacionais que possuam ou simulem a capacidade racional de resolver problemas, pensar ou, de forma ampla, ser inteligente.

"Os trabalhos envolvendo corpora linguísticos normalmente estão voltados para o estudo de determinados fenômenos lingüísticos, e a sua ocorrência em grandes amostras de uma determinada língua (ou de uma variedade, dialeto ou modalidade dela)", BERBER SARDINHA, (2004, p28).
Porém muitas vezes a Linguística de Corpus não está relacionada a aplicação ou ao desenvolvimento computacional como softwares que envolvam processamento da língua; e sim o elemento central da conceituação em que a Linguística de Corpus é baseada na visão probabilística e empirista da linguagem, BERBER SARDINHA, (2004,p30).
As subáreas portanto mesmo fazendo parte do contexto Linguístico Computacional são independentes entre si; no entanto ainda existem intercâmbios de trabalhos entre elas.


3. O que é PLN?



Processamento de Língua Natural (PLN) ou (Natural Language Processing), é uma subárea da Inteligência Artificial e da Linguística Computacional que estuda os problemas da geração e compreensão automática das línguas humanas, ALUÍSIO,S.M,(1999,p22).
A área da PLN é sempre voltada aos estudos de linguagem computacional e natural, são os softwares linguísticos computacionais, como exemplo dos corretores ortográficos e gramaticais, tradutores automáticos, sistemas de buscas, etc. De acordo com VIEIRA ,(2002: 20), compete à PLN a:

.











No carácter histórico os primeiros trabalhos envolvidos em PLN começaram aos anos de 1950, fazendo que esse ramo da Linguística Computacional fosse relativamente novo em relação á Ciência Linguística. O grande impulso e esforços que motivaram aos desenvolvimentos de PLN foi os tradutores automáticos, nas décadas de 1950 e 1960, que hoje está intimamente ligada aos conceitos de Linguística Computacional.
De acordo com Grisham¹ (1992: 1), "o potencial [dos computadores] para o processamento de linguagem natural foi reconhecido bem cedo no desenvolvimento de computadores, e trabalhos em Lingüística Computacional ? basicamente para tradução automática ? começaram na década de 1950 em diversos centros de pesquisa. O rápido crescimento na área, no entanto, aconteceu principalmente a partir do final dos anos 1970."
Como vimos anteriormente a Linguística Computacional é uma área preocupada com o tratamento computacional da linguagem e das línguas naturais, neste escopo está a PLN, que visa o processamento da língua.










______________________________
Grisham (1992) e Russel, S. and Norvig, P. (1995) Artificial Intelligence. New Jersey: Prentice-Hall.
Trecho original: "The potential for natural language processing was recognized quite early in the development of computers, and work in computational linguistics ? primarily for machine translation ? began in the 1950s at a number of research centers. The rapid growth in the field, however, has taken place mostly since the late 1970s".
4. A linguística de Corpus.


Linguística de corpus (ou córpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística, BERBER SARIDNHA, (2004,p28).
O léxico é o mais importante para a Linguistica de corpus, onde nasceram os dicionários de inglês atuais, que hoje são produzidos com base de corpus; por exemplo o COBUILD¹ é um dos maiores bancos de dados da língua inglesa já criados para produzir dicionários, gramáticas e livros didáticos para o ensino do inglês.
A importância do corpus é relevante para se observar uma determinada língua, pois sua atividade é de estudos empíricos e probabilísticos, diferente da PLN, que se contrapõe a uma visão racionalista e introspectiva da linguagem, BERBER SARDINHA, (2004, p30).
A linguística de corpus surgiu com a necessidade que, estudiosos da língua se sentiram em se apoiar de usos reais da língua , para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a Linguística de Corpus está intimamente ligada ao uso do computador, visto que os corpora/córpora (plural de corpus) são eletrônicos. "Assim, a linguística de corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos, com o auxílio de ferramentas eletrônicas." BERBER SARDINHA, (2004).
4.1 Os critérios de Compilação.


Há uma quantidade enorme de trabalhos que se encaixam na Linguística de Corpus, mas deve se observar alguns critérios que se baseiam numa compilação do Corpus coletado:

O exemplo do corpus, que deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou da qual se deseja estudar.
As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus, e que serve para uma observação e interpretação de dados, fornecendo novas perspectivas para uma análise linguística.
______________________________
1: Corpora,/córpora (plural de corpus) são eletrônicos
2.Cobuild, um acrônimo para Collins Birmingham University International Language Database, é um centro de pesquisa britânico criado naUniversidade de Birmingham em 1980 e financiado pela Collins Publishers.


As ferramentas computacionais mais comuns são:
Programas para listar palavras - fazem a contagem das palavras em um corpus;
Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
Etiquetadores - fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica ou discursiva. BERBER SARDINHA, (2004,p16).


4.2 A tipologia de Corpus.



Segundo BERBER SARDINHA, (2004, p20), a nomenclatura empregada na Linguística de Corpus para definir o conteúdo e o propósito dos corpora é muito extensa,então os tipos principais podem ser apresentados por :


O modo pode ser falado ou escrito, o tempo pode ser diacrônico ou sincrônico, contemporâneo ou histórico ou que represente a um período passado. A seleção é de amostragem que são textos de variedades textuais e que podem ser planejado para ser uma amostra finita da linguagem.
O monitor, que é uma composição reciclada serve para refletir o estado atual de uma língua; a seleção pode ser, dinâmico, estático ou equilibrado, que são distribuídos em quantidades semelhantes, o conteúdo que pode ser especializado, regional ou dialetal, que são os textos provenientes de uma ou mais variedades sociolinguísticas específicas, que podem também ser multilíngue.

Na autoria podem ser de aprendiz, de que não sejam nativo, ou nativo, que é de língua nativa.
A disposição interna que podem ser paralelos ou alinhados.
Concluindo temos a finalidade que pode ser de estudo de referência, de treinamento ou teste, que permitem o desenvolvimento de aplicações e ferramentas de análises.


4.3 A definição de Corpus.

Segundo BERBER SARDINHA, (2000, p17), a definição mais completa de um conjunto de corpus está na sua origem, onde também os dados devem ser autênticos, e o propósito deste corpus, que deve ser um objeto de estudo linguístico.
A composição que é o conteúdo criteriosamente escolhido. A formatação terá também ser legível por computador.
Temos a representatividade de uma língua ou variedade, e finalmente a extensão.
No entanto nem todo dado coletado em língua natural pode ser chamado de Corpus; pois temos o exemplo do arquivo que é um depósito de texto sem organização prévia, a biblioteca eletrônica que forma uma coleção que segue alguns criterios de seleção, o Corpus que é uma parte da biblioteca eletrônica, construida apartir de um desenho explicito,com objetivos especificos, o subcorpus que é uma parte de um corpus que pode ser fixada ou mutável(dinâmica, isto é, flexível durante a análise).

Sendo isso um problema com essa definição a respeito do que é um Corpus a melhor forma de definir Segundo SINCLAIR, J. McH.(1995,p99-112)¹ é ; "[Corpus é] um corpo de linguagem natural (autêntica) que pode ser usado com base para pesquisa linguística".

Em fim percebemos que a Linguistica de Corpus não está relacionada a produção de aplicativos computacionais ou para o processamento da língua e sim ferramentas voltadas à análises do corpus e interpretação de dados da língua alvo, mas esta metodologia que compõe à Linguística Computacional ainda compartilha em vários trabalhos de PLN, porém permanecem independentes.


_____________________________
1: SINCLAIR, J. McH. "From theory to practice". In: LEECH, G.; MYERS, G.; THOMAS J. Spoken english on computer: transcriptions, mark-up and application. Londres,Longman, 1995. P99-112.

5. Conclusão.



Hoje é uma tendência muito forte na área dos estudos linguísticos,que é o tratamento computacional da linguagem e das línguas naturais,conhecida como Linguística Computacional, e que divide-se em subáreas como a PLN e a Linguística de Corpus.
A PLN, que forma um leque de opções no campo teórico e prático do processamento da língua ou a Linguística de Corpus que trabalha no corpus coletado exaustivamente em grande quantidade para fins empíricos e acadêmicos.
É de suma importância os estudos aplicados aos conceitos computacionais linguísticos, tanto para os interessados em entender o processamento da língua como para os lingüistas, ou cientistas da computação que pretendem aprimorar os conhecimentos, ou, estudante de Letras que desejam aprofundar seus conhecimentos nas Teorias Linguísticas.

Mas é importante ressaltar que embora a PLN seja uma metodologia aplicada Linguística Computacional ela ainda compartilha em vários temas com a Linguística de Corpus, porém hoje essas duas áreas se mantêm independentes; porém mantendo essa relação que têm em comum que é o processamento da língua e o corpus coletado como que seria o processamento de língua natural, sem um corpora autêntico e confiável?
Eis a necessidade de se aplicar as duas áreas do conhecimento.

No Brasil, a Linguística Computacional está em estágio inicial, onde a pesquisa em corpus, por exemplo, se dá em universidades e estão quase sempre voltadas ao PLN.
Com isso a Linguística de Corpus, e a PLN ganharam campo; tanto para fins comerciais ou acadêmicos, BERBER SARDINHA, (2004, p6).

Portanto é de relevância e clareza essa relação existente entre PLN e Linguística de Corpus, e não poderíamos de incorporar esta complementação, segundo, BIDERMAN, (1978:78),
"O domínio, porém, que logo se tornou a vedete do PLN foi a "Linguística de Corpus".
Os linguístas constataram a importância de consultar um corpus para testar hipóteses ou fornecer evidências na pesquisa linguística. Por isso, pouco a pouco, começou a febre da construção de imensos corpora das mais diversas línguas modernas e antigas. Para os lexicógrafos, sobretudo, foi uma revolução."
Enfim é uma verdadeira revolução nas áreas relacionadas à linguagem humana, e a mola propulsora dessa revolução é a tecnologia; em especifico o computador.
É importante se colocar diante de uma quantidade de exemplos e informações a respeito da língua sem ser exaustivo, como a Linguística Computacional que questiona paradigmas estabelecidos e consegue traçar novos caminhos para estudiosos da língua e profissionais envolvidos com a tecnologia.
Não é preciso obter-se de um pré-requisito ou ir mais longe a respeito de computador, e sim uma boa compreensão do que é a língua como um todo, e logo estará bem mais informado e instruído do que era antes, e perceber que a Linguística Computacional está mais presente no dia a dia do que nos meios acadêmicos.




















4.Referências bibliográficas.


ALUÍSIO, S.M.: Processamento de Linguagem Natural. Notas de Aula da disciplina de
Introdução à Inteligência Artificial. ICMC-USP, 1999.
BIDERMAN,Maria Tereza C, Teoria linguística,1978 primeira edição.
BERBER SARDINHA,Tony Linguística de Corpus -(8520416764)
VIEIRA , R. e LIMA, V. L. S. (2001) Lingüística computacional: princípios e aplicações.
In: IX Escola de Informática da SBC-Sul. Luciana Nedel (Ed.) Passo Fundo,
Maringá, São José. SBC-Sul.
OTHERO, G. de A. (2002) Lingüística Computacional: uma nova área de pesquisa para os
estudantes de Letras. Entrelinhas, ano 2, n. 5. São Leopoldo: UNISINOS.
_____, & MENUZZI, Sérgio de Moura. Lingüística
computacional: teoria e prática. São Paulo, Parábola Editorial, 2005, 128 p. ISBN: 85-
88456-39-X
_____,. A GRAMÁTICA DA FRASE EM PORTUGUÊS
Algumas reflexões para a formalização da estrutura frasal em português.
_____,. Teoria X-Barra - Gabriel de Ávila Othero.
_____,. Lingüística Computacional - princípios e aplicações.









5. Glossário.




Corpora: corpora/córpora (plural de corpus) são eletrônicos. Assim, a linguística de corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas.


Chatterbot:(ou chatbot) é um programa de computador que tenta simular um ser humano na conversação com as pessoas. O objetivo é responder as perguntas de tal forma que as pessoas tenham a impressão de estar conversando com outra pessoa e não com um programa de computador.

Ciência Linguística: Linguística é a ciência que estuda a linguagem verbal humana. Como toda a ciência, ela baseia-se em observações conduzidas através de métodos, com fundamentação em uma teoria.

Gerador automático de resumos: Em Linguística Computacional é Um Gerador Automático de Sumários, ferramenta, ou software instalado no computador.

Linguística Aplicada: Linguística aplicada é um campo interdisciplinar de estudo que identifica, investiga e oferece soluções para problemas relacionados com a linguagem da vida real. Alguns dos campos acadêmicos relacionados à lingüística aplicada são educação, linguística, psicologia, antropologia e sociologia.informática,história,geografia.

Parsing Sintático: Em ciência da computação e linguística, análise sintática (também conhecida pelo termo em inglês parsing) é o processo de analisar uma sequência de entrada (lida de um arquivo de computador ou do teclado, por exemplo) para determinar sua estrutura gramatical de uma determinada gramática.


PB:Português Brasileiro.


Rede semântica: é uma forma de representação do conhecimento definida como um grafo direcionado no qual os vértices representam conceitos, e as arestas representam relações semânticas entre os conceitos. Elas são consideradas uma forma comum de um dicionário legível por uma máquina.

Reconhecimento automático de Voz: Tecnologias de reconhecimento da fala permitem que computadores equipados com microfones interpretem a fala humana, por exemplo, para transcrição ou como método de comando por voz.
Tais sistemas podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras). IBM Via Voice.


Sintetizador de voz: é o processo de produção artificial de voz humana. Um sistema informático utilizado para este propósito é denominado sintetizador de voz, e pode ser implementado em software ou hardware.

Sistemas de Buscas: Um sistema de busca ou (Search Engine) são conjuntos de meios que tem como finalidade analisar, indexar, armazenar, pesquisar a web e disponibilizar os resultados da busca de uma informação solicitada. Compõem-se de redes de computadores interconectados, bases de dados, ferramentas de busca, algoritmos, etc.
São encontrados em tipos diversos, com base de dados própria, comandos, capacidade e métodos diferentes..


Tradução automática: é o processo automático de tradução de um idioma original para outro através do computador.

























12