o estado da arte - parte 1

49
O estado da arte (Revisão) Teste de língua e avaliação (Part 1) J. Charles Alderson and Jayanti Banerjee, Universidade de Lancaster, Reino Unido Introdução Este é o terceiro de uma série de artigos de revisão sobre o Estado da Arte, abordando testes de língua nesta revista, tendo sido o primeiro escrito por Alan Davies em 1978 e o segundo por Peter Skehan em 1988/1989. Skehan observou que o teste revelou uma explosão de, pesquisas e publicações nos dez anos desde o primeiro artigo de revisão, e vários comentaristas fizeram observações semelhantes. Podemos apenas concordar, e para corroborar quantitativamente remeteríamos o leitor a Alderson (1991) e a “Language Testing Association International (ILTA). Bibliografia 1990-1999 (Banerjee et al., 1999). Na última bibliografia, existem 866 entradas, divididas em 15 seções, a partir de Testes Ouvindo Ética e Padrões. O campo tornou- se tão grande e tão ativo, que é praticamente impossível fazer justiça a ele, mesmo em uma revisão “multi-part” como esta sobre o Estado da Arte, e ele está mudando tão rapidamente que qualquer previsão de tendências é susceptível de ser ultrapassada antes de ser impressa. Nesta revisão, portanto, nós não só tentamos evitar algo além de previsões bastante brandas, mas também reconhecemos a parcialidade de nossa escolha de tópicos e tendências, assim, necessariamente, como nossa seleção de publicações. Nós tentamos representar o campo de forma justa, mas tendemos a concentrar-nos em artigos, em vez de livros, com o fundamento de que estes são mais propensos a refletir o estado da arte do que os livros, que são mais extensos. Também nos referimos a outros comentários similares publicados nos últimos 10 anos ou mais, onde os julgamos relevantes. Nós geralmente começamos nossa análise com artigos impressos em 1988 ou perto dessa época, a data da última revisão, cientes de que já faz 13 anos agora, mas também conscientes da necessidade de cobrir o período desde a última grande revisão neste jornal. No entanto, também incluímos, onde sentimos que era adequado, artigos publicados um pouco antes. Esta revisão é dividida em duas partes, cada uma delas com extensão aproximadamente igual. A bibliografia para obras citadas em cada parte está publicada na parte a que diz respeito, em vez de uma bibliografia completa no final. Portanto, os leitores que pretendam ter uma completa bibliografia terão que juntar as partes. A justificativa para a organização desta revisão é que queríamos começar com uma preocupação relativamente nova sobre testes de linguagem, pelo menos tanto quanto a publicação de pesquisa empírica

Upload: paulo-goliath

Post on 20-Oct-2015

17 views

Category:

Documents


0 download

TRANSCRIPT

O estado da arte (Reviso)Teste de lngua e avaliao (Part 1)J. Charles Alderson and Jayanti Banerjee, Universidade de Lancaster, Reino Unido

IntroduoEste o terceiro de uma srie de artigos de reviso sobre o Estado da Arte, abordando testes de lngua nesta revista, tendo sido o primeiro escrito por Alan Davies em 1978 e o segundo por Peter Skehan em 1988/1989. Skehan observou que o teste revelou uma exploso de, pesquisas e publicaes nos dez anos desde o primeiro artigo de reviso, e vrios comentaristas fizeram observaes semelhantes. Podemos apenas concordar, e para corroborar quantitativamente remeteramos o leitor a Alderson (1991) e a Language Testing Association International (ILTA). Bibliografia 1990-1999 (Banerjee et al., 1999). Na ltima bibliografia, existem 866 entradas, divididas em 15 sees, a partir de Testes Ouvindo tica e Padres. O campo tornou-se to grande e to ativo, que praticamente impossvel fazer justia a ele, mesmo em uma reviso multi-part como esta sobre o Estado da Arte, e ele est mudando to rapidamente que qualquer previso de tendncias susceptvel de ser ultrapassada antes de ser impressa.Nesta reviso, portanto, ns no s tentamos evitar algo alm de previses bastante brandas, mas tambm reconhecemos a parcialidade de nossa escolha de tpicos e tendncias, assim, necessariamente, como nossa seleo de publicaes. Ns tentamos representar o campo de forma justa, mas tendemos a concentrar-nos em artigos, em vez de livros, com o fundamento de que estes so mais propensos a refletir o estado da arte do que os livros, que so mais extensos. Tambm nos referimos a outros comentrios similares publicados nos ltimos 10 anos ou mais, onde os julgamos relevantes. Ns geralmente comeamos nossa anlise com artigos impressos em 1988 ou perto dessa poca, a data da ltima reviso, cientes de que j faz 13 anos agora, mas tambm conscientes da necessidade de cobrir o perodo desde a ltima grande reviso neste jornal. No entanto, tambm inclumos, onde sentimos que era adequado, artigos publicados um pouco antes.Esta reviso dividida em duas partes, cada uma delas com extenso aproximadamente igual. A bibliografia para obras citadas em cada parte est publicada na parte a que diz respeito, em vez de uma bibliografia completa no final. Portanto, os leitores que pretendam ter uma completa bibliografia tero que juntar as partes.A justificativa para a organizao desta reviso que queramos comear com uma preocupao relativamente nova sobre testes de linguagem, pelo menos tanto quanto a publicao de pesquisa emprica se preocupa, antes de passar para mais preocupaes tradicionais constantes e terminar com aspectos do teste muitas vezes no abordados em revises internacionais, e problemas remanescentes. Assim, comeamos com um relato de pesquisa sobre efeito retroativo, o que em seguida nos leva tica, poltica e s normas. Em seguida, examinamos as tendncias em testes a nvel nacional, seguidas de testes para fins especficos. Depois ns levantamos trabalhos sobre testes baseados em computador antes de passar a olhar para a autoavaliao e para a avaliao alternativa. Finalmente, nesta primeira parte, examinamos uma rea relativamente nova: a avaliao de jovens alunos.Na segunda parte, abordamos novas preocupaes sobre a teoria de validade do teste, que defende a incluso de consequncias do teste no que hoje geralmente citado como uma teoria unificada da validade de constructo. Depois disso, lidamos com questes de validao de teste e desenvolvimento de testes, e examinamos com algum detalhe pesquisa mais tradicional sobre a natureza dos constructos (leitura, escuta, habilidades gramaticais, etc) que sustentam os testes. Finalmente discutimos uma srie de controvrsias remanescentes e quebra-cabeas a que chamamos, segundo McNamara (1995), Caixas de Pandora.Estamos muito gratos a muitos colegas por sua contribuio em nos ajudar a elaborar esta anlise, mas em particular gostaramos de agradecer a ajuda, os conselhos e o apoio do Grupo de Pesquisa em Testes de Lngua, de Lancaster, acima de tudo a Dianne Wall e Caroline Clapham, por seus comentrios inestimveis e perspicazes. Todas as falhas que permanecem so inteiramente de nossa responsabilidade.

Efeito Retroativo

O termo efeito retroativo refere-se ao impacto que os testes tm sobre o ensino e a aprendizagem. Tal impacto normalmente visto como sendo negativo: os testes so usados para forar os professores a fazerem coisas que no necessariamente querem fazer. No entanto, alguns tm argumentado que os testes tambm so potencialmente alavancas de mudana no ensino de idiomas: com o argumento de que, se um teste ruim tem impacto negativo, um bom teste deveria ou poderia ter efeito retroativo positivo (Alderson, 1986b; Pearson, 1988).Curiosamente, Skehan, na ltima anlise sobre o Estado da Arte em Teste de Lngua (Skehan, 1988,1989), faz apenas breve referncia ao efeito retroativo, e mesmo assim, apenas s afirmaes de que a linguagem comunicativa do teste e os critrios adotados no teste provavelmente levam a um efeito retroativo melhor sem evidncia citada. A investigao sobre efeito retroativo nem sinalizada como um provvel desenvolvimento futuro importante dentro do campo de teste de linguagem. Aqueles que preveem as tendncias futuras o fazem por sua conta e risco!Nas sries da Anlise Anual de Lingustica Aplicada, da mesma forma, a nica referncia substancial a efeito retroativo por McNamara (1998), em um captulo intitulado: "Polticae consideraes sociais na avaliao de linguagem '.Mesmo o captulo intitulado "A evoluo da linguagemtestar "por Douglas (1995) no faz referncia retroativo. Dada a importncia atribuda a consequentevalidade e questes de conseqncias noliteratura avaliao geral, especialmente desde que opopularizao da viso Messickian de um allencompassingvalidade de construto (ver Parte II), este notvel, e mostra o quanto o campo temmudou nos ltimos seis ou sete anos. No entanto, umarecente reviso da teoria da validade (Chapelle, 1999)faz alguma referncia ao retroativo em construovalidade, refletindo o aumento do interesse no tema.Embora a noo de que os testes tm impacto sobreensino e aprendizagem tem uma longa histria , houvesurpreendentemente pouca evidncia emprica para suportar talnoes at recentemente. Alderson e Wall (1993) foramentre os primeiros a problematizar a noo de testeretroativo no ensino de idiomas , e para pedirinvestigao sobre o impacto dos testes. Eles listam um nmeroof'Washback hipteses " em uma tentativa de desenvolver umagenda de pesquisa. Uma retroativo hiptese , porexemplo , que os testes tm washback em queos professores ensinam ( a agenda de contedo) , enquanto que um em separadohiptese retroativo pode postular que os testes tambmter impacto na forma como os professores ensinam ( a metodologiaagenda ) . Alderson e Wall tambm a hiptese de quehigh-stakes testes - testes com consequncias importantes- Teria mais impacto do que low-stakes tests.Theyexortar os pesquisadores a alargar o mbito da suainqurito , para incluir no apenas a medio atitudee as contas dos professores de retroativo , mas tambm classsroomobservao. Eles argumentam que o estudo da retroativobeneficiariam de uma melhor compreenso domotivao dos alunos e da natureza da inovao na educao , uma vez que a noo de que testa automaticamenteter um impacto sobre o currculo e na aprendizagemtem sido defendida atheoretically . Na sequncia a partir desta sugesto, Wall (1996) analisa os principais conceitos no campo da inovao educacional e espetculos como eles podem ser relevantes para a compreenso da se e como os testes tm retroativo. Lynch e Davidson (1994) descrevem uma abordagem para criterionreferenced controlo que implica praticando professores na traduo dos objetivos curriculares em especificaes de teste. Eles afirmam que essa abordagem pode fornecer um ligao entre o currculo, a experincia de professores e testes e pode, portanto, presume-se, melhorar a impacto de testes no ensino.Recentemente, um nmero de estudos empricos washbackforam realizados (ver, por exemplo, Khaniyah ,, 1990a , 1990b ; Shohamy , 1993; Shohamy et al , 1996;Wall & Alderson , 1993; Watanabe , 1996; Cheng,1997) em uma variedade de configuraes. H um consenso geralentre os que testes de high-stakes , de fato,impacto sobre o contedo do ensino e da naturezados materiais de ensino . No entanto, a evidncia de queelas impactam na forma como os professores ensinam muito escassoe mais complicado. Wall e Alderson (1993)no encontrou nenhuma evidncia de qualquer mudana nos professores 'metodologias antes e depois da introduo de umestilo novo exame em Ingls em abandono escolarSri Lanka. Alderson e Hamp - Lyons (1996 ) mostramque os professores podem realmente mudar a forma como eles ensinamquando se ensina no sentido de um ensaio (neste caso , oTOEFL - Teste de Ingls como Lngua Estrangeira ), maseles mostram tambm que a natureza da alterao e ametodologia adotada varia de professor para professor ,uma concluso apoiada por descobertas de 1996 Watanabe .Alderson e Hamp - Lyons argumentam que no o suficiente para descrever se e como os professores podemadaptar seu ensino e do contedo de seu ensinode acordo com o teste. Eles acreditam que importanteexplicar por que os professores fazem o que fazem, se quisermosentender o efeito retroativo . Alderson (1998 ) sugereque os pesquisadores testam deve explorar a literaturana cognio professor e professor pensando ementender melhor o que motiva o comportamento dos professores.Cheng (1997) mostra que os professores s adaptar a suametodologia lentamente , com relutncia e com dificuldade,e sugere que isso pode estar relacionado com as limitaes deprofessores e ensino do sistema educativoem geral . Shohamy et al . (1996 ) mostram que a naturezade retroativo varia de acordo com fatores como aestado da lngua a ser testado , e os usos doteste . Em suma , o fenmeno da retroativo lentavindo a ser reconhecido como um assunto complexo , influenciadopor muitos outros do que simplesmente a existncia factoresde um teste ou a natureza desse teste. No entanto ,Ainda no h grandes estudos foram efectuados para oefeito de preparao para o teste de desempenho do teste , que notvel , dada a prevalncia , para high-stakestestes , pelo menos , de cursos de preparao para o teste .Hahn et al. (1989) conduziram um estudo em pequena escala dos efeitos no incio estudantes de alemose eles foram ou no classificados em sua via oraldesempenho nos primeiros seis meses de instruo.Embora nenhum efeito sobre o desenvolvimento de proficincia oralforam encontrados, as atitudes dos dois grupos eram diferentes:aqueles que tinham sido classificados considerado oexperincia estressante e improdutivo, enquanto que ogrupo que no tinha sido classificado gostaria de tersido classificado. Moeller e Reschke (1993) tambm encontraramnenhum efeito da pontuao formal da sala de auladesempenho na proficincia dos alunos ou conquista.Mais estudos so necessrios pontos de vista dos alunos detestes e preparao para o teste.

H, de fato notavelmente poucos estudos sobre oimpacto de testes sobre a motivao ou de motivao empreparao para o teste ou o desempenho no teste . Uma exceo recente Watanabe (2001 ) . Watanabe chama de seu estudo umaexerccio de gerao de hipteses , reconhecendo quea relao entre motivao e preparao para o teste susceptvel de ser complexo . ele entrevistouEstudantes universitrios japoneses sobre a sua preparao para o testeprticas. Ele descobriu que as atitudes para testar a preparaovariada e que o impacto estava longe de ser uniforme,embora esses exames que os alunos pensavammais importante para a sua carreira universitria futurosgeralmente teve mais impacto do que os percebidos como menoscrtico . Assim , se um exame por uma universidadeque foi a primeira escolha do estudante continha gramtica -tarefas de traduo , os alunos relataram queteve exerccios de gramtica - traduo estudados , enquanto que seum exame semelhante foi oferecido por uma universidadequal foi a sua segunda escolha, eles eram muito menossusceptveis de estudar exerccios de traduo . Curiosamente , os alunosestudado , em particular, aquelas partes do exameque perceberam a ser mais difcil, e maisexigente. Por outro lado essas sees percebidoser fcil teve menos impacto sobre sua preparao para o testeprticas : muito menos estudantes relataram a preparao parasees de exames fceis ou no discriminatrio . No entanto ,aqueles alunos que perceberam uma seo de exame a sermuito difcil no se preocupou se preparando para isso .Watanabe conclui que washback causada pelainterao entre o teste eo tomador de teste em umforma complexa , e ele enfatiza que o que vierser o mais importante no a dificuldade objectiva deo teste, mas a percepo de dificuldade dos alunos.Recados ( 2000) fornece uma viso geral muito til eactualizao de estudos sobre o impacto dos testes no ensino,a partir do campo de instruo geral, bem como na linguagemeducao. Ela resume os resultados da investigaoque mostram que o design de teste apenas um dos factoresafetando retroativo , e listas como fatores que influenciam anatureza do teste retroativo :capacidade professor, professor entendimento do teste eoabord-lo foi baseada , condies de sala de aula , falta de recursos,prticas de gesto dentro da escola ... o estatuto do sujeitodentro dos mecanismos de currculo , de feedback entre oescolas ea agncia de testes , o estilo de professor, empenho evontade de inovar , fundo de professores, o social geral e contexto poltico , o tempo decorrido desde que o teste foiintroduzidos, bem como o papel dos editores na concepo de materiais eformao de professores ( 2000: 502) .Em outras palavras , o teste washback est longe de sersimplesmente uma questo tcnica do design e formato , eprecisa ser entendido dentro de um muito mais amploquadro . Muro sugere que esse quadroSeria til que vm de estudos e teorias demudana educacional e de inovao , e ela resumeos resultados mais importantes destas reas .Ela desenvolve uma estrutura derivada de Henrichsen(1989 ) , e devido ao trabalho algoHughes (1993 ) e Bailey (1996 ) , e as mostrascomo esse quadro pode ser aplicado para a compreensomelhor as causas ea natureza do retroativo .Ela faz uma srie de recomendaes sobre opassos que os desenvolvedores de teste pode tomar no futuro emPara avaliar o grau de risco envolvido naa tentativa de trazer a mudana por meio de testes .Estes incluem a avaliao da viabilidade do examereforma , estudando as condies " antecedentes " -o que cada vez mais referido como um " estudo de base '( Weir & Roberts , 1994 , Fekete et al , 1999) , envolvendoprofessores em todas as fases de desenvolvimento do teste , assegurandoa participao de outras partes interessadas , incluindodecisores polticos e instituies-chave , garantindo clarezae aceitao de especificaes de teste , e claroexemplificao de testes , tarefas e critrios de pontuao ;pilotagem completo de testes antes da implementao ; regularesmonitoramento e avaliao no s da realizao do testemas tambm de salas de aula , e uma compreensoque a mudana leva tempo. Inovando atravs de testes no uma soluo rpida se for para ser benfico. " Os decisores polticose projetistas de teste no deve esperar significativaimpacto para ocorrer imediatamente ou na forma quepretende . Eles devem estar cientes de que os testes por conta prpriano ter um efeito positivo se os materiais eprticas em que se baseiam no tm sido eficazes .Eles podem , no entanto , ter um impacto negativo e a situaodeve ser monitorizada continuamente para permitirinterveno precoce se ele toma um rumo indesejvel "( 2000:507 ) .Consideraes semelhantes complexidade potencialdo impacto dos testes no ensino e aprendizagemtambm deve informar investigao sobre o retroativo detestes existentes . evidente que este um campo rico para posteriorinvestigao. Marcos conceituais mais sofisticadas,que esto a desenvolver -se lentamente , luz daos resultados da investigao e estudos relacionados em inovao ,pensamento teoria da motivao e professor, provvel queproporcionar uma melhor compreenso das razesretroativo e uma explicao de como os testes podem serdesenvolvido para contribuir para a engenharia de desejvelalterar .tica nos testes de linguagemEnquanto Alderson (1997) e outros tm argumentado quetesters tm sido muito preocupado com questes de justia (conforme expresso no seu interesse em curso novalidade e confiabilidade ) , e que luta por justia um aspecto do comportamento tico , outros se separarama questo da tica de validade , como uma parte essencialda profissionalizao da avaliao lingustica como uma disciplina( Davies , 1997) . Messick (1994) argumenta que todateste envolve fazer juzos de valor e, portanto,testes de lngua est aberto a uma discusso crticacujos valores esto sendo representados e servido ;este , por sua vez leva a uma reflexo sobre a conduta tica .Messick (1994 , 1996) redefiniu o escopode validade para incluir o que ele chama conseqentesvalidade - as conseqncias da interpretao pontuao no testee usar. Hamp - Lyons (1997) argumenta que anoo de retroativo muito estreita e deve seralargado para abranger "impacto" , definido como o efeito detestes em toda a sociedade , e no apenas sobre os indivduos ou sobredo sistema educacional. No presente , ela est expressando umpreocupao que tem crescido nos ltimos anos, com aquestes ticas e polticas relacionadas que cercamutilizao de teste.Ambos McNamara (1998) e Hamp - Lyons (1998)levantamento da literatura emergente sobre o tema da tica ,e destacar a necessidade para o desenvolvimento depadres de teste de idioma ( veja abaixo). tanto comentriosobre um projecto de Cdigo de Prticas patrocinado pelaLanguage Testing Association International ( ILTA ,1997) , mas onde Hamp - Lyons v -lo como um possvelcaminho a seguir , McNamara mais crtica do que elechama seu conservadorismo , e esse reconhecimento inadequadada fora dos debates atuais sobre otica de testes linguagem. Davies (1997 ) argumenta que ,desde os testes muitas vezes tm um prescritiva ou normativapapel, as suas consequncias sociais so potencialmente de grande alcance .Ele defende uma moralidade profissionalentre os testadores de linguagem, tanto para proteger a profisso demembros, e para proteger os indivduos dautilizao indevida e abusiva de testes. No entanto, ele tambm argumentaque o argumento moral no deve ser levado muito aagora, para que no se levar paralisia profissional, ou cnicomanipulao de cdigos de prtica.Spolsky (1997 ) aponta que os testes e examessempre foram usados como instrumentos de sociaispoltica e controle, com a funo de gate -keepingde testes muitas vezes justificar sua existncia. Shohamy( 1997a) afirma que os testes de linguagem que contmcontedo ou empregar mtodos que no so justas para todosteste-compradores no so ticos , e discute formas dereduzindo vrias fontes de injustia . ela tambmargumenta que a utilizao de testes que exercem o controle emanipular as partes interessadas , em vez de fornecer informaesem nveis de proficincia tambm so antiticos , eela defende a lngua of'critical desenvolvimentotestando ' ( Shohamy , 1997b ) . Ela insta testadores para exercciovigilncia para garantir que os testes que eles desenvolvem sojusta e democrtica , no entanto, que podem ser definidos.Lynch (1997) tambm defende uma abordagem ticatestes de linguagem e Rea - Dickins (1997) afirma quetendo plenamente em conta os pontos de vista e os interesses dos vrios grupos de interessados pode democratizar o testeprocesso , promover a equidade e, portanto, melhorar umabordagem tica .Um nmero de estudos de casos foram apresentadosrecentemente que ilustram o uso e abuso detestes de linguagem . Hawthorne (1997 ) descreve doisexemplos do mau uso de testes de linguagem : o uso deo teste de acesso para regular o fluxo de migrantes emAustrlia , eo teste de etapa , supostamente concebido para jogarum papel central na determinao dos requerentes de asilo "status residencial . Testes de lngua indito loretem muitos outros exemplos , tais como o uso indevido doComponente de Formao Geral da InternacionalTeste de Ingls Language Testing System (IELTS) comcandidatos imigrao para a Nova Zelndia , eouso do teste TOEFL e outros testes de proficincia paramedir o desempenho e crescimento na instruoprogramas ( Alderson, 2001a) . de se esperar quea nova preocupao com a conduta tica ir resultar emmais contas de tais abusos .Norton e Starfield (1997 ) afirmam que , com base naum estudo de caso na frica do Sul , que uma conduta antiticaevidente quando acadmico dos alunos de segunda lnguaescrita implicitamente avaliadas por razes lingusticasenquanto ostensivamente a ser avaliado para os examinandos "compreenso de um assunto acadmico . eles argumentamque os critrios de avaliao devem ser explicitadose pblico se testadores devem se comportar eticamente . mais velho(1997) investiga vis teste , argumentando que a estatsticaprocedimentos utilizados para detectar a polarizao , como DIF( Funcionamento diferencial do item ) no so neutros desdeeles no questionam se o critrio utilizado parafazer comparaes entre os grupos justo e livre de valores .No entanto, em seu prprio estudo conclui que o quepode parecer ser polarizao pode ser realmente construir relevantevarincia , na medida em que indica diferenas reais naa capacidade de ser medido . Um estudo semelhante foiChen e Henning (1985) , que comparou internacionaldesempenho dos alunos na UCLA( Universidade da Califrnia, Los Angeles) Ingls comoSegunda Lngua Teste de Nivelamento e descobriuque um certo nmero de pontos favorecer osOs alunos de lngua espanhola e contra Chinesespeakingalunos. Os autores argumentam , porm, queesse "vis" relevante para a construo desde o espanhol muito mais perto de Ingls tipologicamente e, portanto,tendenciosa em favor de falantes de espanhol , que seriaespera-se encontrar muitos aspectos do Ingls tantomais fcil de aprender do que os falantes de chins faria.Refletindo essa preocupao com a utilizao de teste tico ,Cumming (1995) analisa o uso em quatro canadenseconfiguraes de instrumentos de avaliao para monitorar alunos 'realizaes ou a eficcia dos programas ,e conclui que este um mau uso de taisinstrumentos, que devem ser utilizados principalmente para a colocao deestudantes Onto programas. Cumming (1994 )pergunta se o uso de instrumentos de avaliao lnguapara os imigrantes para o Canad facilita o seu sucessoparticipao na sociedade canadense.Ele argumenta que tal critrio deve ser utilizado para avaliar seprticas de avaliao so capazes de superar institucionalou barreiras sistmicas que os imigrantes podem encontrar ,para dar conta da qualidade do uso da linguagem que podeser fundamental para aspectos especficos da vida canadense ,e para alertar populaes maioritrias e instrumentospara melhor acomodar as populaes minoritrias .No contexto acadmico , Pugsley (1988) problematizaa avaliao da necessidade de internacionalalunos para pr e em -sesses formao lingustica luz dos resultados dos testes . As decises sobre se umaluno deve receber o benefcio de idioma adicionalinstruo so freqentemente feitas no ltimominuto, e luz das demandas conflitantes sobreo aluno e em finanas. A formao em lnguas podeser vtima de financiamento reduzido, e muitos acadmicosminimizar a importncia da linguagem nadesempenho acadmico . Muitas vezes , professores e alunosperceber problemas de linguagem relacionada dos alunos de maneira diferente,ea questo da relevncia ou influnciado resultado do teste ento aumentada .Em outra investigao da interpretao pontuaoe utilizao , Natal (1990 ) analisa o desempenho deassistentes de ensino internacionais, que tentam prevercom base no TOEFL e Graduate RecordPontuaes exames Programa se os sujeitosdeve ter recebido recomendaes positivas ou negativasestar ensinando assistentes. Os alunos querecomendaes negativas recebidas , de fato, terpontuaes mais baixas em ambos os testes do que aqueles com positivorecomendaes , mas a relao entresubseqente ponto de classe mdia ( GPA ) e positivaapenas recomendaes realizadas durante o primeiro ano degraduar estudo , no depois. As implicaes para atomada de decises sobre a concesso de estgios de ensinoso discutidas , e no so bvias ticoimplicaes sobre o perodo de tempo em uma pontuao de testedeve ser considerado vlido.Ambos os estudos de caso mostram a dificuldade na interpretaoteste de idioma resultados, e da complexidade doquestes que cercam as decises de manuteno de porto. eles tambmenfatizar que deve haver um limite para o informaespode-se eticamente esperar um teste de lngua para entregar,e quais as decises que os resultados do teste pode, eventualmente, informar.Em parte como resultado deste aumento no interesse emtica eo papel dos testes na sociedade, McNamara( 1998:313 ) prev no futuro:1 . uma conscincia renovada ... da natureza socialmente construda dedesempenho do teste e interpretao resultado do teste ;2 . uma tomada de conscincia das questes levantadas para o teste no contexto deIngls como lngua internacional ;3 . uma reconsiderao do impacto social da tecnologia noentrega de exames ;4 . uma considerao explcita de questes de justia em todas as fases deo ciclo de testes da linguagem e5 . uma agenda ampliada para a pesquisa sobre a justia que acompanhadesenvolvimento de testes .Ele conclui que estamos propensos a ver ' um alargamentoda gama de questes envolvidas na pesquisa de testes lngua , aproveitando , no mnimo, as seguintes disciplinase campos : filosofia , especialmente tica eaepistemologia da cincia social; teoria crtica , a polticaanlise , avaliao de programas e teoria da inovao '(op. loc ) .A Linguagem Associao Internacional Testing( ILTA ) desenvolveu recentemente um Cdigo de tica(ao invs de finalizar o projecto de Cdigo de Prticasreferido acima) , que " um conjunto de princpios quebaseia-se em filosofia moral e se esfora para orientarboa conduta profissional ... Todos os cdigos profissionaisdevem informar conscincia profissional e julgamentoIdioma ... testers so independentes moralagentes e eles so moralmente o direito de se recusar a participarem procedimentos que violem pessoalconvico moral. Testadores Idioma aceitar empregoposies onde eles prevem que pode ser chamadode ser envolvida em situaes em desacordo com os seuscrenas tm a responsabilidade de informar o seu empregadorou empregador com este fato. Empregadorese seus colegas tm a responsabilidade de assegurar queesses testadores de linguagem no so discriminadosem seu local de trabalho . " [ http://www.surrey.ac.uk/ELI/ltrfile / ltrframe.html ]Estes so , de fato belas palavras eo tom morale inteno deste Cdigo claro: os testadores devem seguirprticas ticas e tm a responsabilidade moral defaz-lo. Se este Cdigo de tica ser aceitvelnos diversos ambientes em que a linguagemtestadores de trabalho em todo o mundo continua a ser visto .Alguns podem at ver isso como a imposio deValores culturais ou mesmo polticos ocidentais .polticaOs testes so freqentemente usados como instrumentos de educacionalpoltica , e eles podem ser muito poderosos - comoatestada por Shohamy ( 2001a) . Inevitavelmente , por conseguinte ,testes - especialmente high-stakes testes - um polticoatividade , e as recentes publicaes em lngua testescomearam a abordar a relao entre os testese poltica, ea poltica de testes , talvez , em veztardiamente, dada a tradio em avaliao educacionalem geral .Brindley ( 1998,2001 ) descreve o uso poltico daavaliao por razes de accountabilty pblica baseada em teste,frequentemente no contexto de estruturas nacionais ,normas ou benchmarking. No entanto, ele ressaltaque as preocupaes polticas , em vez de profissionais sogeralmente por trs de tais iniciativas , e muitas vezes esto em conflitocom o desejo de avaliao formativa para serintimamente relacionado com o processo de aprendizagem. Ele se dirige a umnmero de polticas, bem como tcnica e prticaproblemas na utilizao da avaliao baseada em resultados parafins de prestao de contas , e defende a necessidade deaumento da consulta entre polticos e profissionaise para a investigao sobre a qualidade de associadoinstrumentos.A poltica pode ser definida como ao, ou atividades, para alcanar o poder ou para usar o poder, e como crenas sobregovernamentais , atitudes ao poder, e ao uso depoder. Mas isso no precisa ser apenas no macro- polticonvel de governo nacional ou local. nacionalpoltica educacional muitas vezes envolve inovaes em testes, a fim de influenciar o currculo , ou na ordempara abrir ou restringir o acesso educao e emprego - e at mesmo , como vimos nos casosda Austrlia e Nova Zelndia, para influenciar de imigraooportunidades . Mas a poltica tambm pode operar emnveis mais baixos , e podem ser uma influncia muito importanteno desenvolvimento de testes e implantao. A poltica pode servisto como mtodos , tticas, intriga, manobra ,dentro das instituies que no so eles prprios polticos,mas comercial, financeira e educacional.De fato, Alderson (1999 ) argumenta que a poltica com um"p" minsculo inclui no apenas poltica institucional , mastambm poltica pessoal : a motivao dos atoresa si mesmos e suas agendas. E a poltica pessoaispode influenciar tanto o desenvolvimento e teste de uso de teste.A experincia mostra que , na maioria das instituies , testedesenvolvimento um assunto complexo , onde indivduoe motivos institucionais interagem e se entrelaam .No entanto, a literatura de testes lngua tem praticamentenunca abordou esses assuntos , at muito recentemente.A literatura , quando se trata de desenvolvimento de testesem todos os assuntos , o que no , muitas vezes, d aimpresso de que o teste basicamente uma questo tcnica,preocupados com o desenvolvimento de adequadaespecificaes, a criao e reviso de adequadatarefas de teste e critrios de pontuao , bem como a anlise deresultados de pilotagem . Mas por trs dessa fachada umacomplexa interao de personalidades, de institucionalagendas , e da intriga . Embora a macro -polticanvel de teste certamente importante , tambmprecisa entender agendas individuais , preconceitose motivaes. No entanto , este um aspecto da lnguatestes que raramente v a luz do dia, eque faz parte do folclore do teste de linguagem.Explorando esses assuntos difcil por causa dasensibilidades envolvidos , e que difcil de publicar qualquerconta de motivaes individuais para propor ouresistir ao uso de teste e uso indevido. No entanto, isso notorn-lo o menos importante. Alderson ( 2001a) temo ttulo : " O teste importante demais para ser deixada aostesters ' , e ele argumenta que os testadores de linguagem precisater em conta as diferentes perspectivas de vriosstakeholders: no apenas os professores de sala de aula , que so todosmuitas vezes deixado de fora de considerao no desenvolvimento de teste,mas tambm decisores polticos e os polticosde modo mais geral . Apesar de existirem praticamenteno existem estudos nesta rea no presente ( sendo exceesAlderson et al , 2000a , Alderson , 1999 , 2001b , eShohamy , 2001) , de se esperar que a prximadcada ver essas questes discutidas muito maisabertamente em testes de linguagem, j que a poltica , a tica eajustia so bastante intimamente relacionados. Shohamy ( 2001b)descreve e discute o abuso potencial de testes comoinstrumentos de poder por agncias autoritrios , e defende testes mais democrtico e responsvelprtica.Como um exemplo da influncia da poltica , instrutivo considerar Alderson ( 2001b) . Na Hungriatraduo ainda usado como uma tcnica de teste emo atual exames abandono escolar , e nos testesadministrado pelo Estado Lngua EstrangeiraExaminations Board ( SFLEB ) , uma quase- comercialpreocupao . Os professores de lnguas h muito expressasua preocupao com o uso continuado de um mtodo de testeque tem validade incerto ( isto no tenha sido estabelecidoa data na Hungria ) , em que a marcao detradues considerada subjetiva e altamente varivel ,onde no existem critrios ou tabelas de marcao, eonde o efeito retroativo considerada negativa( Fekete et al , 1999) . Novos exames de abandono escolarso devidos a ser introduzido em 2005 , eointeno no usar a traduo como um mtodo de teste emfuturo. No entanto, muitas pessoas, incluindo professores,e tambm funcionrios do Ministrio , tm resistido a uma tal proposta,e recentemente foi declarado que oPrprio Ministro tomar a deciso sobre esta matria.No entanto, o ministro no um especialista em linguagem , sabenada sobre o teste de linguagem, e no , portanto,tecnicamente competente para julgar . Muitos suspeitam queo SFLEB , que pretende manter a traduo, fazendo lobby junto ao ministro a insistir que a traduo sejaretido como um mtodo de ensaio . Alm disso, muitos suspeitamque o SFLEB teme que os exames de lngua estrangeira,o que necessariamente no utilizam a traduo como ummtodo de teste, pode assumir o mercado teste de lnguana Hungria, se a traduo no mais necessria( por lei) como uma tcnica de teste . Alderson ( 2001b)sugere que a traduo pode estar a ser usado como umarma na causa do protecionismo comercial.Padres em testesUma rea de crescente preocupao em testar os conhecimentos lingusticostem sido o de padres . A palavra " normas " temvrios significados na literatura , como o Grupo de Trabalho sobreNormas Language Testing criado pelo ILTA descoberto( http://www.surrey.ac.uk/ELI/ilta/tfts_report.pdf ) .Um significado comum usado pelos entrevistados para aLevantamento ILTA era a de procedimentos para garantirqualidade, padres a serem defendidos ou cumpridos, como em"cdigos de prtica ' . Um segundo significado que foi de' nveis de proficincia ' - ' o que voc tem padrochegou ? " Um terceiro significado relacionado, a que constaem ' teste padronizado ' a frase, que tipicamentesignifica um teste cujo nvel de dificuldade conhecida , o quefoi adequadamente pilotados e analisados, os resultadosdas quais podem ser comparados com os de um normingpopulao : testes padronizados so tipicamente normreferencedtestes . Nos ' normas ' ltimo contexto equivalente a 'normas' .Nos ltimos anos , o teste lngua tem procuradoestabelecer padres no primeiro sentido ( cdigos de boas prticas )e investigar se os testes so desenvolvidos seguindo procedimentos profissionais. Groot(1990) argumenta que a padronizao de procedimentospara a construo de testes e validao fundamental para ocomparabilidade e permutabilidade dos resultados dos testesem diferentes contextos de ensino diferentes. Alderson eBuck (1993 ) e Alderson et ai . (1995 ) descrevemprocedimentos amplamente aceitos para o desenvolvimento e testerelatrio sobre uma pesquisa com a prtica da British EFLexaminar placas. Os resultados mostraram que a corrente( no incio de 1990 ), a prtica estava querendo . prticae procedimentos entre as placas variava muito , aindainformao (no publicado) estava disponvel, que poderiaatestaram a qualidade dos exames. exameplacas pareceu no se sentem obrigados a seguir ouna verdade, para entender os procedimentos aceitos , nemeles parecem ser responsveis perante o pblico para oqualidade dos testes que eles produziram . Fulcher eBamford (1996 ) argumentam que o teste corpos nos EUAconduzir e relatar estudos de confiabilidade e validadeem parte por causa de uma exigncia legal para garantir quetodos os testes satisfazer standards.They tcnica concluem queBancas examinadoras britnicos devem estar sujeitos a semelhantepresses de litgio , alegando que a suatestes no so fiveis , invlida ou tendenciosa. No Alemocontexto, Kieweg (1999) faz um apelo para comumpadres de examinar EFL , alegando que, dentroescolas h litde ou nenhuma discusso apropriadamtodos de ensaio ou de procedimentos para garantir aqualidade dos testes de linguagem .Possivelmente como resultado de tais presses e publicaes ,as coisas parecem estar mudando na Europa, umaexemplo disso a publicao do ALTE(Associao de testes na Europa) Cdigo dePrtica , que visa garantir um trabalho de qualidade emdesenvolvimento de testes em toda a Europa . " A fim deestabelecer nveis comuns de proficincia , os testes devem sercomparveis em termos de qualidade, bem como nvel , enormas comuns necessitam , portanto, de ser aplicado asua produo " ( ALTE , 1998). At o momento, nenhum mecanismoexiste para monitorar se essas normasna verdade, esto sendo aplicadas , mas a mera existncia detal Cdigo de Conduta um passo em frente no estabelecimento dea responsabilizao pblica dos desenvolvedores de teste.Exemplos de como tais normas so aplicadas na prticaso, infelizmente, raro, ser uma exceoAlderson et al . (2000a ), que apresenta uma conta deo desenvolvimento de novos exames de abandono escolarna Hungria.Trabalhar em padres no terceiro sentido , ou seja,"normas" para as populaes de teste diferentes , foi menos comumentepublicada na ltima dcada . Baker (1988 ) discuteos problemas e os procedimentos de produo de testenormas para populaes escolares bilnges , desafiandoa priori o procedimento usual de classificar populaesem lngua materna e segunda lngua grupos .Empregando uma srie de medidas estatsticas, Davidson(1994 ) examina a appropriacy da utilizao de umteste padronizado nacionalmente normado em Ingls nativoalto-falantes, quando usado com os alunos que no falam Ingls . Embora ele conclui que um tal uso dao teste pode ser defensvel estatisticamente , adicionalmedidas , no entanto, pode ser necessrio para uma populaodiferente do grupo norming .Os of'standards significado " como" nveis de proficincia "ou " nveis certificados por concurso pblico " tem sidoum problema por um tempo considervel , mas tem recebidonovo impulso , tanto com os recentes desenvolvimentos emEuropa Central e com a publicao doConselho de Quadro Europeu Comum da Europa(Conselho da Europa , 2001). Trabalhar na dcada de 1980 porOeste e Carroll , levou ao desenvolvimento doIngls Falando da Unio Quadro ( Carroll &Oeste, 1989) , mas este no foi amplamente aceita,provavelmente por causa de rivalidades comerciais noBritnico EFL examinando indstria. Milanovic (1995 )relatrios sobre o trabalho para o estabelecimento de comumnveis de proficincia por ALTE , que desenvolveusuas prprias definies de cinco nveis de proficincia ,baseia-se uma inspeco e comparao doexames de seus membros. Este teve maisaceitabilidade , possivelmente porque foi desenvolvida pelacooperando entidades examinadoras , ao invs deorganismos concorrentes . No entanto , um tal quadro denveis ainda no visto por muitos como sendo neutra : ela ,afinal de contas, associado com o principal comercial europeuprestadores de teste de idioma. O Conselho deQuadro Europeu Comum da Europa , noPor outro lado , no s visto como independente de qualquerpossvel interesse , ele tambm tem um longo pedigree,originrio mais de 25 anos no desenvolvimento deo nvel de Threshold ( van Ek, 1977) , e, portanto, amplaaceitabilidade em toda a Europa garantida. Alm disso ,as escalas de vrios aspectos da proficincia na lnguaque esto associados com o quadrotm sido amplamente pesquisados e validados poro Language Portfolio Projeto suo (North &Schneider , 1998) .de Jong (1992) previu que as normas internacionaispara testes de linguagem e procedimentos de avaliao ,e normas internacionalmente interpretveis de proficinciaseria desenvolvido , com o efeito de quetestes de lngua internacionalmente comparveis seriaestabelecida . No sculo 21 , que a previso tornando realidade. agora claro que a comumQuadro Europeu vai se tornar cada vez maisinfluente por causa da crescente necessidade internacionalreconhecimento de certificados na Europa , a fimpara garantir a mobilidade educacional e de emprego.Qualificaes nacionais de linguagem, sejam eles fornecidos pelaEstado ou por organizaes quase- privadas , atualmentevariam em seus padres - os padres de qualidade enormas como a comparabilidade internacional de levels.Yetcertificados tornou-se uma econmico , bem como umimperativo educacional , especialmente aps a BolonhaDeclarao de 1999 ( http://europa.eu.int/comm/educao / socrates / erasmus / bologna.pdf ) , eadisponibilidade de um quadro transparente, independentecomo o quadro europeu comum crucial para a tentativa de estabelecer uma escala comum de refernciae comparao . Alm disso, o quadro no apenas um conjunto de escalas , tambm um compndio do que sabe sobre a aprendizagem de lnguas , o uso da linguagem eproficincia na lngua . Como um guia essencial para programaconstruo , bem como para o desenvolvimento de testesespecificaes e critrios de avaliao, que obrigado a serutilizado para a produo de design de materiais e livros didticos , comobem como na formao de professores . O quadro tambm o ponto de ancoragem para o Europeu de LnguasCarteira, e para os novos testes de diagnstico como DIALANG( ver abaixo ) .O quadro particularmente relevante para pasesna Europa Oriental e Central , onde muitos educacionalsistemas esto actualmente a rever os seus procedimentos de avaliao .A inteno que os exames reformadasdeve ter reconhecimento internacional ,ao contrrio dos exames de abandono escolar em curso. Calibraros novos testes contra o quadro essencial, eno h atualmente uma grande quantidade de atividade no desenvolvimentode testes de desempenho de abandono escolar noregio ( para uma conta de tal desenvolvimento, verAlderson et ah , 2000a) . Estamos confiantes de que vamosouvir muito mais sobre o Europeu ComumQuadro , nos prximos anos , e ser cada vez maistornar-se um ponto de referncia para a linguagemexames em toda a Europa e alm.exames nacionaisO desenvolvimento de testes de idioma nacional continuaa ser o foco de muitas publicaes , emboramuitos so ou simplesmente descries de desenvolvimento de testesou discusses de controvrsias , em vez derelatrios sobre pesquisas feitas em conexo com o testedesenvolvimento .No contexto do Reino Unido , Neil (1989 ) discutedeve ser includo em um sistema de avaliao para estrangeirosidiomas no sistema secundrio Reino Unido, mas os relatriosnenhuma pesquisa . Roy (1988) afirma que as tarefas de escritapara as lnguas modernas deve ser mais relevante, taskbasede autntico , mas critica a nfase nacarta escrita, e defende outras formas de escrita ,como pargrafo escrito. Mais uma vez , nenhuma pesquisa relatado.Pgina ( 1993) discute o valor ea validade dater perguntas do teste e rubricas no alvolinguagem e afirma que a autenticidade de taistarefas est em dvida. Ele argumenta que o uso da metalngua em questes torna -se mais difcilprovar o currculo de forma adequada , e afirma que amais comunicativo e autntico das tarefas emexames se tornam, mais Ingls (a melngua ) tem de ser utilizado no papel de exame ema fim de salvaguardar a validade ea autenticidadeda tarefa . Nenhuma pesquisa emprica sobre estaproblema relatado. Richards e Chambers (1996) eChambers e Richards (1992) examinar a confiabilidadee validade das avaliaes de professores em produo oraltarefas no GCSE abandono escolar (Certificado Geral de Educao Secundria ) exame francs ,e encontrar problemas particularmente na classificaocritera , que eles possuem deve ser baseada em um princpiomodelo de proficincia de lngua e de ser informadopor uma anlise do desenvolvimento comunicativo.Hurman (1990 ) semelhante crtico do imprecisaespecificaes dos objetivos, tarefas e os critrios paraavaliar a capacidade de falar em francs a nvel GCSE .Barnes e Pomfrett (1998 ) constataram que os professores precisamformao , a fim de estar em conformidade com as boas prticas emavaliar alemo para alunos no Key Stage 3 (14 anos).Buckby (1999 ) relata uma comparao emprica deexames recentes e mais antigas GCSE , para determinarse padres de realizao esto caindo, econclui que, embora a evidncia de que os padresna verdade, esto a ser mantida , existe uma necessidade parauma gama de diferentes tipos de perguntas , a fim de permitircandidatos para demonstrar as suas competncias .Barnes et al . (1999) consideram a recente introduodo uso de dicionrios bilnges em exames escolares,reaes positivas dos professores do relatrio a esteinovao , mas a chamada de mais pesquisas sobre o usoeo impacto dos dicionrios no desempenho dos alunos emexames .Pesquisa semelhante nos Pases Baixos ( Jansen &Peer, 1999) relata um estudo do recentemente introduzidouso de dicionrios nos exames de lngua estrangeira holandesese mostra que o uso do dicionrio no temqualquer efeito significativo sobre os resultados dos testes . No entanto ,alunos so muito positivas sobre ser permitido usardicionrios , alegando que reduz a ansiedade eaumenta sua compreenso do texto . Tambm noHolanda , Welling - Slootmaekers (1999) descrevea introduo de uma srie de perguntas abertasem exames nacionais de capacidade de leitura emlnguas estrangeiras , argumentando que estes iro melhorara avaliao da capacidade de linguagem ( as perguntasdevem ser respondidas em holands , e no a estrangeira alvolngua ) , van Elmpt e Loonen (1998) perguntaa suposio de que responder perguntas do teste nolngua-alvo uma desvantagem , ea pesquisa relatrio quemostra os resultados para ser semelhantes , independentemente decandidatos responderam s perguntas de compreenso emHolands ( lngua materna ) ou em Ingls ( o alvolngua ) . No entanto, Bhgel e Leijn (1999) relatriopesquisa que apresentaram baixa confiabilidade entre emmarcao estes novos tipos de itens e que eles chamam demelhorou a prtica de avaliao .Guillon (1997 ) avalia a avaliao de Inglsnas escolas secundrias francesas , critica o tempo necessrioatravs de uma avaliao baseada em teste e da qualidade tcnicados testes , e faz sugestes para melhorprofiling pupila. Mundzeck (1993 ) critica semelhantemuitas das provas objetivas em uso na Alemanha paraavaliao oficial da escola de lnguas modernas ,argumentando que eles no refletem a comunicativaaproximar a linguagem exigida pelo programa . elerecomenda que as tarefas mais abertas ser usado ,e que os professores sejam treinados para o uso confivel de critrios vlidos para a marcao subjetiva , em vez de suaprtica atual de apenas contando os erros na produo.Kieweg (1992) apresenta propostas para amelhoria da avaliao de Ingls em alemoescolas , e para a comparabilidade das normas dentroe em todas as escolas.for focusing and organising learning activities andfind them motivating and useful for the feedbackthey provide to learners.In the USA, one example of concern with schoolbasedassessment is Manley (1995) who describes aproject in a large Texas school district to developtape-mediated tests of oral language proficiency inFrench, German, Spanish and Japanese, with positiveoutcomes.These descriptive accounts of local and nationaltest development contrast markedly with the literaturesurrounding international language proficiencyexaminations, like TOEFL, TWE (Test of WrittenEnglish), IELTS and some Cambridge exams.Although some reports of the development of internationalproficiency tests are merely descriptive (forexample, Charge & Taylor, 1997, and Kalter &Vossen, 1990), empirical research into various aspectsof the validity and reliability of such tests is commonplace,often revealing great sophistication in analyticmethodology.This raises a continuing problem: language testingresearchers tend to research and write about largescaleinternational tests, and not about more localisedtests (including school-leaving achievement testswhich are clearly relatively high-stakes). Thus, thelanguage testing and more general educational communitieslack empirical evidence about the value ofmany influential assessment instruments, and researchoften fails to address matters of educational politicalimportance.However, there are exceptions. For example, inconnection with examination reform in Hungary,research studies have addressed issues like the useof sequencing as a test method (Alderson et al.,2000b), the pairing of candidates in oral tests (Csepeset al., 2000), experimentation with procedures forstandard setting (Alderson, 2000a), and evidenceinforming ongoing debates about how many hoursper week should be devoted to foreign languageeducation in the secondary school system (Alderson,2000b).In commenting on the lack of international disseminationof national or regional test developmentwork, we do not wish to deny the value of localdescriptive publications. Indeed, such descriptionscan serve many needs, including necessary publicityfor reform work, helping teachers to understanddevelopments, their rationale and the need for them,persuading authorities about a desired course ofaction or counselling against other possible actions.Publication can serve political as well as professionaland academic purposes. Standard setting data canreveal what levels are achieved by the school population,including comparisons of those who startedlearning the language early with late-starters, thosestudying a first foreign language with those studyingthe same language as their second or third foreignlanguage, and so on.Dollerup et al . (1994) descrevem o desenvolvimento deDinamarca de uma proficincia em leitura lngua Inglsteste que reivindicada para ajudar a diagnosticar deficincias de leiturana graduao. Mais adiante , na Austrlia,Liddicoat (1996) descreve a linguagem oral, Perfilcomponente interao que v e escutaoralidade como interdependentes e avalia escolacapacidade dos alunos para participar com sucesso na espontneaconversa. Liddicoat (1998) critica aDiretrizes do Territrio da Capital da Austrlia para aavaliao de proficincia em lnguas como o chins ,Japons e Indonsia , bem como francs, alemo,Espanhol e italiano. Ele argumenta que, com base em dados empricosdescries da conquista de alunos deessas lnguas diferentes devem informar a revisodos descritores de diferentes nveis nos perfis derealizao.Em Hong Kong , a insatisfao com a graduaonveis de proficincia na lngua dos alunos resultounos planos para controles de sada de instituio de ensino superior da lngua.Li (1997 ), descreve os planos e discute umgama de questes problemticas que precisam resolverantes podem ser introduzidas medidas vlidas . Coniam(1994 , 1995) descreve a construo de um comumescala que as tentativas de cobrir a gama deIngls capacidade de linguagem de Hong Kong secundrioalunos da escola em Ingls . Um item Theorybased Responsebanco de testes - o TeleNex - foi construdopara fornecer aos professores tanto com pontos de referncia paranveis de habilidade e ajuda em testes na escola .Uma preocupao semelhante com nveis ou padres de proficincia evidenciada por Peirce e Stewart ( 1997), quedescrever o desenvolvimento da Lngua canadenseAvaliao referencial ( CLBA ) , que se destinapara ser usado em todo o Canad para colocar os recm-chegados emapropriada programas de ensino de ingls, comoparte de um movimento para estabelecer um quadro comumpara a descrio de proficincia em lngua ESL adulto .Os autores do um relato da histriado projeto eo desenvolvimento dos instrumentos.No entanto , Rossiter e Pawlikowsska - Smith(1999 ) so crticos da utilidade do CLBApois baseia-se em diferenas muito de banda larga emproficincia entre os indivduos e insensvel menores, mas importantes, diferenas de proficincia .Eles argumentam que o CLBA deve ser complementadapor instrumentos de posicionamento mais adequadas.Vandergrift e Belanger (1998) descrevem o fundoa e desenvolvimento de instrumentos de formaopara avaliar o desempenho no Canadian NationalProgramas franceses Core e argumentam que a pesquisamostra que as reaes aos instrumentos so positivas.Ambos os professores e os alunos consideram como teste Lngua benfico pode informar debates em linguagemeducao em geral. Exemplos disso incluemestudos de base associado reforma exameque tentam descrever a prtica corrente na lnguasalas de aula ( Fekete et al , 1999). que talestudos revelaram foi utilizado em servio eestudos de formao de professores pr-servio e de baseTambm pode ser referido em estudos de impacto para mostrar aefeito de inovaes e, para ajudar educadores a lnguapara entender como fazer as coisas de forma mais eficaz .Washback estudos tambm foram utilizados em professorformao, tanto para influenciar preparao para o testeprticas , mas tambm para encorajar os professores a refletir sobreas razes para as suas prticas ea dos outros .Teste LSPO desenvolvimento de testes de modo especfico , ou seja ,ensaios em que o contedo de teste e mtodo de ensaio estderivada de um contexto particular o uso da linguagem , em vezde situaes mais uso geral da linguagem, pode serrastreada para a Avaliao de matrcula temporriasBoard ( TRAB ), introduzido pelos britnicosGeneral Medical Council , em 1976 ( ver Rea - Dickins ,1987) e para o desenvolvimento da Lngua InglsTeste de unidade para o Desenvolvimento ( ELTDU ) Balanas( Douglas , 2000). A dcada de 1980 viu a introduo deIngls para Fins Acadmicos (EAP ) testa e estes que posteriormente dominou a pesquisae agenda de desenvolvimento . importante notar ,no entanto, que Idioma para Fins Especficos (LSP)testes no so o oposto diametral de propsito geraltestes . Pelo contrrio, elas geralmente caem em um continuumentre os testes de uso geral e os decontextos altamente especializados e incluem testes parafins acadmicos (por exemplo, o Ingls InternacionalSistema Language Testing , IELTS ) e para profissionaisou fins profissionais (por exemplo, o profissionalTeste de Ingls , OET ) .Douglas ( 1997, 2000 ) identifica dois aspectos quenormalmente distinguir teste LSP de propsito geraltestes.O primeira a autenticidade das tarefas , ou seja , otarefas de teste partes principais caractersticas com as tarefas que um testetaker pode encontrar na situao de uso da lngua -alvo.A suposio aqui que, quanto mais de pertoo teste e tarefas " da vida real " esto ligados , o mais provvel que o desempenho dos examinandos " na tarefa de testereflicta o seu desempenho na situao -alvo.A segunda caracterstica distintiva do teste LSP a interao entre o conhecimento de lnguas e especficoknowledge.This contedo talvez a diferena mais crucialentre o teste de propsito geral e LSPteste , pois no primeiro caso, qualquer tipo de fundoconhecimento considerada uma varivel de confusoque contribui varincia construto - irrelevanteo resultado do teste . No entanto , no caso do teste de LSP ,conhecimento de fundo constitui parte integrantedo que est a ser testado , uma vez que a hiptese de queconhecimento de lnguas, os examinandos " tem desenvolvido dentro do contexto de seu campo acadmico ou profissionale que estaria em desvantagem atravs de um testecom base no teor de fora daquele plano .O desenvolvimento de um teste de LSP comea tipicamentecom uma anlise aprofundada do uso da lngua -alvosituao , talvez usando a anlise de gnero ( ver Tarone ,2001) . Presta-se ateno s caractersticas situacionais geraiscomo tpicos , lxico tpico e estruturas gramaticais.As especificaes so ento desenvolvidos, que tm emconta as caractersticas da linguagem especficacontexto , bem como situaes tpicas que ocorrem ( por exemplo ,Plakans e Abraham , 1990; Stansfield et al , 1990;Scott et al , 1996; Stansfield et al , 1997; et Stansfieldai . , 2000) . As reas especficas de preocupao , muito compreensivelmente ,tendem a se relacionar com questes de fundoconhecimento e tema escolha (por exemplo , Jensen e Hansen,1995; Clapham , 1996; Fox et al , 1997; Celestine &Cheah , 1999; Jennings et al , 1999; Papajohn , 1999;Douglas, 2001a) e autenticidade de tarefa, de entrada ou ,de facto , a sada ( por exemplo , Lumley & Brown , 1998; Moore& Morton, 1999; Lewkowicz , 2000; Elder, 2001;Douglas, 2001a ; Wu & Stansfield , 2001) e estesreas de interesse tm sido um dos principais focos de pesquisaateno na ltima dcada .Os resultados , embora um pouco misto ( cf. Jensen &Hansen , 1995 e Fox et al , 1997) , sugerem que o fundoconhecimento e da linguagem do conhecimento interagemde forma diferente dependendo da proficincia na lngua deo tomador de teste . (1996) em pesquisa de Clapham sujeito-testes de leitura especficos ( pesquisa que realizoudurante e depois do projeto de reviso ELTS ) mostraque, pelo menos no caso de seus dados, as dezenas de nemmenores nem maiores examinandos proficincia pareciainfluenciado pelo seu conhecimento de fundo. elahypothesises que para a ex- isso foi porqueeles estavam mais preocupados com a decodificao do textoe para o ltimo que era porque seu lingusticaconhecimento foi suficiente para que eles sejam capazes dedecodificar o texto com que sozinho. No entanto, as pontuaesde proficincia mdia examinandos foram afetados pelaseu conhecimento de fundo. Na base destasdescobertas ela argumenta que os testes especficos de um assunto no soigualmente vlida para os examinandos em diferentes nveis de linguagemproficincia.Fox et al . (1997 ) , que examina o papel de fundoconhecimentos no mbito da audioseo de um teste integrado de Ingls AcadmicoFins ( a Carleton Ingls Acadmico teste ,CAEL ) , relatam uma ligeira variao sobre esse achado. elestambm encontrar uma interao significativa entre a linguagemproficincia e conhecimento de fundo com odezenas de examinandos baixo de proficincia mostram nenhum benefciode conhecimento de fundo. No entanto , opontuao dos candidatos de alta proficincia e anlisede seus protocolos verbais indicam que fezusar de seu conhecimento de fundo para processar oouvir tarefa.Clapham (1996 ) mostrou , ainda, que fundoconhecimento um conceito extremamente complexo . Ela revela dilemas , incluindo a dificuldade deidentificar com preciso a especificidade absolutade uma passagem de entrada e da impossibilidade de pertosendo certo sobre o conhecimento de fundo examinandos '( sobretudo tendo em conta que os examinandos muitas vezes lerfora do seu campo acadmico escolhido e pode atter estudado em uma rea acadmica diferente no passado) .Isto particularmente preocupante quando os testes so topicbasede todos os sub-testes e tarefas se relacionam com um nicorea de tpico . Jennings et al . (1999 ) e Papajohn (1999 )olhar para o possvel efeito da tpico , no caso de oex , para a CAEL e , no caso do ltimo , emo teste de qumica TEACH para o ensino internacionalassistentes . Eles argumentam que a presena de efeito tpicocomprometeria a validade de construto do testese os examinandos so oferecidos a escolha do tema duranteadministrao do teste ( como com o CAEL ) ou no .Papajohn encontra esse tpico tem um papel em qumicaENSINAR os resultados dos testes e alerta para o perigo deassumindo esse assunto especificidade garante automaticamentetema de equivalncia. Jennings et al . so aliviadosdenunciar que a escolha do tema no parece afetardesempenho tomador de teste no CAEL . No entanto , elesnote que h um padro nas escolhas feitas porexaminandos de diferentes nveis de proficincia e sugerirque necessria mais investigao sobre as implicaes deestes padres para o desempenho no teste .Outra preocupao especial dos desenvolvedores de teste LSPtem sido autenticidade ( de tarefa, de entrada e / ou sada) ,um exemplo do cuidado de assegurar que o testemateriais esto sendo autntico Wu e Stansfield de(2001) descrio do procedimento de construo de testespara o ( a ouvir traduo resumo LSTE - Taiwanexame) . No entanto Lewkowicz (1997) um tanto putso gato entre os pombos quando ela demonstraque nem sempre possvel identificar com precisotextos autnticos daqueles especialmente construdo parafins de teste . Ela problematiza ainda mais avalorizao da autenticidade em seu estudo de um grupo de testepercepes dos tomadores de um teste de EAP , achando que elesparecia indiferente sobre se os materiais de ensaioforam situationally autntica ou no. Na verdade , elespode at considerar testes de mltipla escolha a sertestes autnticos da lngua , ao contrrio dos testes delngua que faz f ( Lewkowicz , 2000). ( Para maisdiscusso deste tpico , consulte a Parte Dois desta reviso . )Outras preocupaes com o desenvolvimento de ensaio , no entanto , somuito parecido com os de pesquisadores desenvolvendo testesem diferentes sub- habilidades. De facto , os investigadores a trabalhar emTestes LSP tm contribudo muito para a nossa compreensode uma srie de questes relacionadas com o testede leitura, escrita , fala e escuta . partede se preocupar com a melhor forma de extrair amostrasda linguagem para a avaliao ( Read, 1990) , elesinvestigaram a influncia do interlocutorcomportamento no desempenho examinandos ' em falartestes (por exemplo, Brown & LunJey , 1997; McNamara &Lumley , 1997; Reed & Halleck , 1997). eles tmtambm estudaram as hipteses subjacentes s escalas de avaliao ( Hamilton et al. , 1993 ), bem como o efeito devariveis avaliadores sobre os resultados dos testes ( Brown , 1995; Lumley &McNamara , 1995) e a questo de quem deveespecialistas lingusticos ou assunto - performances de teste taxaespecialistas ( Lumley , 1998).Houve tambm preocupaes relacionadas com ainterpretao dos resultados dos testes . Assim como no uso geraltestes , os desenvolvedores de teste LSP esto preocupados comminimizar e responsvel por construir - irrelevantevariveis . No entanto , isto pode ser particularmente espinhosaproblema no teste LSP desde construo de variveis irrelevantespode ser introduzida como resultado da situaoautenticidade das funes de teste . Por exemplo , na suaestudo do teste de qumica ensina, Papajohn (1999)descreve a dificuldade de identificar quando um ensinamentohabilidades de ensino de assistentes ( e no na lnguahabilidades) esto contribuindo para a sua / seu desempenho no teste .Ele argumenta que os comportamentos de teste , tais como a prestaode exemplos acessveis ou bom uso do quadro-negrono so facilmente distinguidas como o ensino ou a lnguaaptides e isto pode resultar na variao construto - irrelevantesendo introduzidos no resultado do teste . ele sugereque os examinandos devem ser dadas instrues especficassobre a forma de apresentar seus temas, ou seja , dicas de ensino para queque as habilidades de ensino no variam muito entre performances.Stansfield et al . (2000) deram um semelhanteabordagem no desenvolvimento das LSTETaiwanese .A avaliao comea com uma instruoseo sobre as habilidades de sntese necessrio para o testecom o objetivo de assegurar que os desempenhos dos testes sono indevidamente influenciado por uma falta de compreenso deas exigncias da tarefa .Deve-se notar , entretanto, que , por causa danecessidade de uma anlise aprofundada do uso da lngua -alvosituao , os testes de LSP so demorados e carospara produzir . Tambm discutvel se Inglspara Fins Especficos (ESP) testes so mais informativosdo que um teste de uso geral . Alm disso , cada vez mais claro o quo ' especfico ' um teste LSP ou pode ser. De fato, mais de uma dcada se passoudesde Alderson (1988 ), primeiro perguntou a questo crucialde como os testes ESP especfica poderia comear. esta questo reformulado por Elder (2001) trabalhar em testes para LSPprofessores quando ela pergunta se por todo o seu ' teacherliness 'estes testes provocar linguagem que essencialmente diferentedaquela provocada por um teste de lngua geral.Uma preocupao adicional a constatao de que construirvariveis relevantes, tais como conhecimento de fundoe estratgias compensatrias interagem de forma diferentecom conhecimento da lngua , dependendo do idiomaproficincia do tomador de teste (por exemplo, Halleck &Moder , 1995; Clapham , 1996) . Como conseqncia da(1996) a pesquisa de Clapham , o teste IELTS atualno tem textos de leitura de assuntos especficos e cuidado tomadopara garantir que os insumos no so distorcidos porou contra os examinandos de diferentes disciplinas . emborana medida em que esta falta de polarizao foialcanado discutvel ( ver Celestino & Cheah , 1999),ele ainda pode -se argumentar que a tentativa de fazer textos acessveis , independentemente do conhecimento de fundo temresultou no teste IELTS ser fracamente muito especfico.Suas pretenses de especificidade (e reivindicaes de fato semelhantes pormuitos testes EAP ) , unicamente no facto de que testar as competncias lingusticas genricos necessrios acadmicacontexts.This deixa desprotegido contra sugestescomo de Clapham (2000a) , quando ela questiona asolidez terica da avaliao de conhecimentos discursoque o tomador de teste , registrando-se para um grauministradas em Ingls , pode ser , sem dvida, com a esperana de aprendere que mesmo um falante nativo de Ingls pode faltar .Recentemente, o Conselho Mdico Geral britnico temabandonou o seu teste de propsito especfico , o profissionale Linguistic Assessment Board ( PLAB , uma revistaverso do theTRAB ) , substituindo-o por um de dois estgiosprocesso de avaliao , que inclui o uso do IELTSteste para avaliar a proficincia lingustica. estes desenvolvimentosrepresentar a extremidade mais fina da cunha . emborao IELTS ainda um teste de propsito especfico , -se menosde modo que o seu precursor o Teste de InglsSystem ( ELTS ) e certamente menos do que oPLAB . E assim, o questionamento continua. Davies(2001) juntou-se ao debate , desbancar o tericojustificativas normalmente apresentadas para explicarTeste LSP , em particular o princpio de que diferentescampos exigem diferentes habilidades lingusticas. ele argumentaque este princpio se baseia muito mais em diferenas decontedo e no em diferenas de idioma (consultetambm Fulcher , 1999a) . Ele tambm questiona a viso de quereas de contedo so discretos e heterogneo.Apesar de todos os rumores de descontentamento , Douglas(2000) mantm-se firmemente por reivindicaes feitas muito mais cedo emdcada que em contextos de linguagem altamente especficas de campo ,um teste de linguagem especfica de campo melhor preditorde desempenho do que um teste de uso geral( Douglas & Selinker , 1992) . Ele admite que muitosdesses contextos ser pequena escala educacional , profissionalprogramas de formao profissional ou em que onmero de examinandos pequeno, mas mantm ( Douglas,2000:282 ) :se queremos saber como os indivduos podem usar a lngua emcontextos especficos de uso, vamos exigir uma medida que leva emem conta tanto o seu conhecimento de lnguas e os seus antecedentesconhecimento, e seu uso da competncia estratgica em relacionar ocaractersticas mais marcantes da situao de uso da lngua -alvo para a suahabilidades de linguagem finalidade especfica. s por faz-lo ... quens podemos fazer interpretaes vlidas de performances de teste.Ele tambm sugere que o problema pode no sercom os testes de LSP ou com a sua especificao dodomnio uso da lngua -alvo, mas com a avaliaocritrio aplicado . Ele argumenta ( Douglas, 2001b ), que apenasAo analisar a situao de uso na lngua-alvoPara desenvolver o contedo do teste e mtodos,deve explorar essa fonte quando desenvolvemos ocritrios de avaliao . Isso pode nos ajudar a evitaresperando uma perfeio do tomador de teste que no manifestada em performances autnticas no alvouso da linguagem situao.Mas talvez o verdadeiro desafio para o campo est em identificar quando absolutamente necessrio saberquo bem algum pode se comunicar em um especficocontexto ou se a informao que est sendo procurado igualmenteobtidas atravs de um teste de lngua de uso geral .A resposta a esse desafio pode no ser to facilmentealcanada como por vezes presumida.Testes baseados em computadorTestes baseados em computador tem testemunhado um crescimento rpidona ltima dcada e os computadores so agora usados paraentregar testes de linguagem em muitas configuraes. A computerbasedverso do TOEFL foi introduzido em umbase regional , no vero de 1998 , os testes so agoradisponvel em CD-ROM e na Internet cada vez maisutilizado para entregar os testes para os utilizadores . Alderson (1996 )aponta que os computadores tm muito a oferecertestes de linguagem : no apenas para entrega de teste, mas tambm paraconstruo de testes , a compilao de teste, captao de resposta,pontuao teste , clculo e entrega de resultados, e testeanlise . Eles podem tambm , evidentemente , ser utilizado para armazenartestes e detalhes de candidatos .Em suma , os computadores podem ser usados em todas as fases dodesenvolvimento de teste e processo de administrao . a maioriatrabalho relatado na literatura , no entanto , as preocupaesa compilao , entrega e pontuao de testes porcomputador . Fulcher ( 1999b ) descreve a distribuio deum teste de nivelamento idioma Ingls atravs da Web eGervais (1997) relata os resultados mistos de transfernciaum teste de papel e lpis de diagnstico para o computador .Tais artigos definir o cenrio para estudos detestes baseados em computador que comparar a precisodo teste baseado em computador com um paperand tradicionalteste do lpis , abordando as vantagens de um computador deteste entregue em termos de acessibilidade evelocidade dos resultados e possveis desvantagens em termosde preconceito contra aqueles que no tm familiaridade computador, oucom atitudes negativas para os computadores .Essa preocupao com a polarizao um tema recorrente naliteratura , e inspirou um estudo em grande escala peloServio Educational Testing (ETS) , os desenvolvedores doa verso baseada em computador do TOEFL, quenecessrios para mostrar que um tal teste no seria inclinadocontra aqueles que no tm conhecimentos de informtica . Jamieson etah (1998 ) descrevem o desenvolvimento de um computerbasedtutorial destina-se a treinar examinandos para tomaro TOEFL computadorizado. Taylor et al . (1999 ) examinama relao entre a familiaridade computadore TOEFL , mostrando que aqueles com altafamiliaridade computador tendem a pontuao mais elevada noTOEFL tradicional. Eles comparam examinandos comfamiliaridade alta e baixa do computador em termos da suadesempenho no tutorial computador e no computadorizadaTOEFL como reivindicao tasks.They que nenhuma relaofoi encontrada entre familiaridade computadore desempenho nas tarefas informatizadas depoiscontrole de proficincia em Ingls . elesConclui-se que no h nenhuma evidncia de vis contracandidatos com baixa familiaridade computador, mas tambm se consolar com o fato de que todos os candidatos serocapaz de tomar o tutorial computador antes de tomar umaTOEFL operacional baseado em computador.O uso mais comum de computadores em linguagemteste entregar os testes de forma adaptativa (por exemplo, Young et al. ,1996) . Isto significa que o computador ajusta aitens a serem entregues a um candidato , luz daque o sucesso ou o fracasso candidatos em itens anteriores.Se o candidato no um item de difcil , s / ele apresentadocom um item mais fcil, e se ele / ela recebe um item correto,s / ele apresentado com um item mais difcil. Isto temvantagens : em primeiro lugar , os candidatos so apresentados comitens em seu nvel de habilidade , e no so confrontados comitens que so ou muito fcil ou muito difcil, e em segundo lugar ,testes de computador - adaptativas (gatos) so tipicamentemais rpido para entregar, e segurana um problema menoruma vez que diferentes candidatos so apresentados com diferentesitens . Muitos autores discutem as vantagens de gatos( Laurier , 1998; Brown , 1997; Chalhoub -Deville &Deville , 1999; Dunkel , 1999) , mas tambm enfatizarquestes que testam os desenvolvedores e os usurios devem marcarenderear ao desenvolver ou utilizar CATs . quandoconcepo de tais testes , os desenvolvedores tem que ter um nmerode decises : o que o nvel de entrada de ser, ecomo isso melhor determinado para uma dada populao ?Em que ponto deve testar cessar ( a assim chamadaponto de sada ) eo que deve ser os critriosque determinar isso ? Como o contedo equilbrio melhorser assegurado em testes onde o princpio fundamental paraadaptao psicotcnico ? Quais so as consequnciasde no permitir que os usurios a ignorar itens , e podeestes consquences ser melhorados ? Como garantirque alguns itens no so apresentados muito mais frequendydo que os outros ( exposio item) , por causa da suainstalao, ou o seu contedo ? Brown e Iwashita (1996)ressaltar que os itens gramaticais , em particular, ir variarem dificuldade de acordo com o fundo lnguados candidatos, e eles mostram como um computador -adaptvelteste de japons resultou no item muito diferentedificuldades para falantes de Ingls e Chins . assima CAT tambm pode precisar de ter em conta a lnguafundo de candidatos ao decidirquais itens para apresentar, pelo menos em testes de gramtica, econcebivelmente tambm em testes de vocabulrio.Chalhoub -Deville e Deville (1999 ) apontamque , apesar das vantagens evidentes de computerbasedtestes, testes baseados em computador depende esmagadoramenteem resposta seleccionado ( tipicamente MultipleChoiceperguntas) tarefas discreto pontos , em vez deitens com base no desempenho e, assim, baseado em computadorteste pode ser restrito a testar conhecimentos lingusticosao invs de habilidades comunicativas . No entanto ,muitos testes baseados em computador incluem testes de leitura,que certamente uma habilidade comunicativa. a questo se o teste baseado em computador oferece qualquer acrescentouvalor sobre testes de leitura de papel e lpis : adaptabilidade uma possibilidade , apesar de alguns promotores de teste sopreocupado que, desde testes de leitura tipicamente presentesvrios itens em um texto - o que conhecido no jargo como testlet - eles podem no ser adequados paracomputer- adaptatividade . Esta preocupao com a inerenteconservadorismo de testes baseados em computador tem uma longahistria ( ver Alderson, 1986a , 1986b , por exemplo) , ealgumas inovaes reclamadas , por exemplo, gerado por computadortestes cloze e de mltipla escolha ( Coniam ,1997, 1998 ) foram efetivamente implementadas to cedo quantodcada de 1970, e foram muitas vezes criticado na literaturapara arriscar a suposio de validade automtica. masdesenvolvimentos recentes oferecer alguma esperana. Burstein et al .(1996) defendem a importncia das novas tecnologiasem inovao no design de teste , construo, experimentao ,entrega , gesto, pontuao, anlise e relatrios.Eles analisam formas em que novos dispositivos de entrada(por exemplo, voz e reconhecimento de escrita ) , a sadadispositivos ( por exemplo , vdeo, realidade virtual ) , software comoferramentas de autoria , e sistemas baseados em conhecimento paraanlise da linguagem poderia ser usada , e exploraravanos no uso de novas tecnologias no computadormateriais de aprendizagem assistida. No entanto , uma vez que apontamfora ", as inovaes aplicadas a lag avaliao de linguagematrs de seus colegas de ensino ... a situao criado em que uma linguagem relativamente ricoapresentao seguida por uma produo limitadaavaliao. " ( 1996:245 ) .Sem dvida , isto , em grande parte devido ao facto de que o computador -os testes com base requer que o computador marcarrespostas . No entanto , Burstein et al . (1996 ) argumentam quesistemas de pontuao humanos assistida poderia reduzir estedependncia. ( Sistemas de pontuao Humano assistidas sosistemas baseados em computadores onde a maior pontuao darespostas feito por computador, mas que a respostaprogramas no so capazes de marcar so dados aos seres humanos paraclassificao. ) Eles tambm do detalhes de pontuao sem respostaferramentas que so capazes de marcar as respostas se15 palavras de comprimento que se correlacionam altamente com humanojulgamentos ( coeficientes de entre 0,89 e 0,98 sorelatado ) . O desenvolvimento de tais sistemas para SHORTANSWERperguntas e para questes dissertativas , desde ento,ido em ritmo acelerado. Por exemplo , a ETS desenvolveu umsistema automatizado para a avaliao da linguagem produtivahabilidades , chamadas de ' e- avaliador " . e- avaliador usa linguagem naturaltcnicas de processamento para duplicar o desempenhoClassificao dos seres humanos ensaios abertas. J, asistema utilizado para avaliar GMAT ( Graduate ManagementTeste de Admisso ) ensaios e investigao est em cursopara outros programas, incluindo segunda / estrangeirasituaes de teste de idioma. Burstein et al . concluirque " as barreiras para o sucesso do uso da tecnologiapara testes de linguagem so menos tcnico do que conceitual "(1996 : 253) , mas o progresso desde que o artigo foipublicado extremamente promissor.Um exemplo do uso de TI para avaliar os aspectos dea capacidade de falar da segunda lngua estrangeira /alunos de Ingls PhonePass . PhonePass ( www.ordinate.org ) entregue por telefone, eos candidatos so convidados a ler textos em voz alta , repita ouvidofrases, dizer palavras opostas em significado ao ouvidopalavras , e dar respostas curtas s perguntas .O systern usa a tecnologia de reconhecimento de voz para taxarespostas , comparando o desempenho candidato amodelos estatsticos de desempenho nativas e no-nativasnas tarefas . O sistema d uma pontuao quereflete a capacidade do candidato de compreender eresponder adequadamente a descontextualizado faladamaterial, com 40 % da avaliao reflectindo ofluncia ea pronncia das respostas . Alderson( 2000c ) relata que coeficientes de confiabilidade de 0,91Foram encontrados, bem como as correlaes com o Testede Ingls falado (TSE ) de 0,88 e com uma ILR( Inter- agncia Language Roundtable ) OralProficiency Interview ( OPI ) de 0,77 . um interessantecaracterstica que a amostra marcou seja mantida em um banco de dados ,classificadas de acordo com as vrias dezenasatribudo . Isso permite que os usurios acessem a amostra de fala ,a fim de fazer seus prprios julgamentos sobreo desempenho para seus propsitos particulares , ecomparar a forma como o seu candidato se apresentou comoutras amostras de fala que foram classificadas quer amesma , ou maior ou menor .Alm de e- avaliador e PhonePass h umasrie de iniciativas promissoras no uso de computadoresem teste . A seco de escuta do computadorTOEFL baseado usa fotos e grficos paracriar contexto e suporta o contedo dos minilectures ,produzindo estmulos que mais de perto se aproximamsituaes do mundo real " em que as pessoas fazem maisdo que apenas ouvir vozes. Alm disso , os candidatos usamfones de ouvido, pode ajustar o controle de volume, e sopermitido controlar quanto tempo a prxima pergunta apresentada . Uma inovao no mtodo de teste quecandidatos so obrigados a selecionar uma parte visual ou de umvisual, em algumas questes os candidatos devem selecionar doisescolhas, geralmente fora de quatro, e em outros candidatosso convidados a combinar ou ordenar objetos ou textos.Alm disso , os candidatos ver e ouvir as perguntas do testeantes as opes de resposta aparecer. ( Curiosamente ,Ginther , prxima , sugere , no entanto , que o usode recursos visuais no TOEFL no Computador escutateste deprime pontuao um pouco , em comparao com tradicionalmenteentregue testes . Mais pesquisas so claramente necessrio. )Na seco de leitura candidatos devemselecionar uma palavra , frase, frase ou pargrafo notexto em si , e outras questes convidar os candidatos parainserir uma frase onde ele se encaixa melhor . embora estestcnicas tm sido utilizadas em outros lugares em papel - andpenciltestes , uma vantagem do seu formato de computador que o candidato pode ver o resultado de sua escolhano contexto, antes de tomar uma deciso final. emboraestas inovaes podem no parecer muito emocionante,Bennett (1998) afirma que a melhor maneira de inovarem testes baseados em computador o primeiro a montar no computadorj que pode ser feito em papel e lpisformato , com possveis pequenas melhorias permitidaspor o meio , a fim de assegurar que o software de basefunciona bem , antes de inovar no mtodo de testee construir. Uma vez que os mecanismos de prestao de trabalho, argumenta-se, em seguida, as entregas baseadas em computador pode serdesenvolvido que incorporam inovaes desejveis .DIALANG ( http://www.dialang.org ) um conjuntode testes diagnsticos baseados em computador ( financiados peloUnio Europeia ), que esto disponveis na Internet,capitalizando , assim, sobre as vantagens de Internetbasedparto ( ver abaixo ) . DIALANG usa auto-avaliaocomo parte integrante de diagnstico . dos usuriosauto-avaliaes so combinados com resultados objetivos de testea fim de identificar um ensaio adequado para a difcilusurio. DIALANG d aos usurios um feedback imediato ,no s em seus resultados de teste , mas tambm na relaoentre os resultados do teste e sua auto -avaliao.DIALANG tambm d conselhos extensivo aos usuriossobre como eles podem evoluir a partir de seu nvel atual deo prximo nvel de proficincia na lngua , baseando estaconselhos sobre o Quadro Europeu Comum(Conselho da Europa , 2001). A interface e suportelinguagem , ea linguagem de auto-avaliao e derealimentao , pode ser escolhida pelo utilizador a partir de uma lista de teste de14 lnguas europeias. Os usurios podem decidir qual habilidadeou aspecto da linguagem ( leitura, escrita , compreenso auditiva, gramticae vocabulrio ) que deseja ser testado em , em qualquerum dos mesmos 14 idiomas europeus. atualmentemtodos de teste disponveis consistem de mltipla escolha, gapfillinge perguntas de resposta curta , mas DIALANGmanifestaes j produziu baseada em CD , de 18 dediferentes tipos de itens experimentais que poderiam serimplementadas no futuro , eo CD demonstrao uso de ajuda , indcio, dicionrio e de vrias tentativasrecursos.Embora DIALANG limitado em sua capacidade deavaliar as habilidades de linguagem produtivos dos usurios, o experimentaltipos de itens incluem uma combinao promissorade auto-avaliao e benchmarking. Tarefas para oelicitao de falar e escrever performances soadministrado aos candidatos piloto e performances soavaliado por performances judges.Those humanos sobre os quaisavaliadores alcanar o maior acordo so escolhidos como' benchmarks ' . Um utilizador DIALANG apresentado com omesma tarefa , e , no caso de um processo de escrita , respondeatravs do teclado . O desempenho do usurio ento apresentadona tela ao lado dos pontos de referncia pr- classificados.O usurio pode comparar seu desempenho comos valores de referncia . Alm disso , uma vez que os valores de referncia sopr- analisado , o usurio pode optar por ver os comentrios dos avaliadoresem vrias caractersticas dos valores de referncia, emforma de hipertexto , e considerar se eles poderiam produziruma qualidade semelhante de tais caractersticas. No caso deFalando tarefas , o candidato simplesmente pediu para imaginarcomo reagiriam tarefa , ao invs dena verdade, para gravar o seu desempenho. Eles so entopresenteado com performances de referncia registou ,e pede para estimar se eles poderiam fazer melhorou pior do que cada apresentao. Uma vez que os desempenhosso classificados , uma vez que os candidatos tm auto- avaliadose contra uma srie de performances , o sistemapode dizer-lhes mais ou menos o nvel prprio ( imaginada)desempenho provvel que seja .Estes desenvolvimentos ilustrar algumas das vantagensde avaliao baseado em computador , o que fazertestes baseados em computador no s mais user-friendly ,mas tambm mais compatvel com a pedagogia da linguagem.No entanto , Alderson ( 2000c ) discute a necessidade para umaagenda de pesquisa , que enfrentar o desafiodas oportunidades oferecidas pela baseado em computadortestes e os dados que podem ser acumulados . talagenda iria investigar as vantagens comparativaseo valor de cada forma de avaliao acrescentou - ITbasedou no baseada em TI. Isto inclui questes como aefeito de fornecer feedback imediato , o apoioinstalaes, segundo as tentativas , a auto -avaliao , a confianateste , e semelhantes . Acima de tudo, pretende-se lanarmais luz sobre a natureza das construes que podemser testados por testes baseados em computador :O que necessrio acima de tudo a pesquisa que ir revelar mais sobrea validade dos testes, que nos permitir estimar os efeitosdo mtodo de ensaio e meio de entrega , a investigao que proporcionarinsights sobre os processos e estratgias de teste -compradores usar ;estudos que permitiro a explorao das construes que soser medido, ou que possa ser medido ... E ns precisamospesquisa sobre o impacto do uso da tecnologia na aprendizagem ,sobre os alunos e sobre o currculo . ( Alderson, 2000c : 603)A auto-avaliaoA seo anterior mostrou como computerbasedtestes podem incorporar auto-avaliao examinandos 'de suas habilidades na lngua-alvo . atas referncias dos anos 1980 para a auto-avaliao eram raros , masdesde ento, o interesse em auto-avaliao tem aumentado.Este aumento pode , pelo menos em parte, ser atribudo a umaumento do interesse em envolver o aluno em todas as fasesdo processo de aprendizagem e no incentivo alunoautonomia e tomada de deciso em (e fora) daaula de lngua (por exemplo , Blanche e Merino, 1989).A introduo de auto-avaliao era vista comopromissora por muitos, especialmente na avaliao formativacontextos ( Oscarson , 1989). Foi consideradoincentivar crescente sofisticao na conscincia do aluno ,ajudar os alunos a: ganho de confiana na suaprprio julgamento ; adquirir uma viso de avaliao quecobre todo o processo de aprendizagem , e ver os erros comoalgo til . Ele tambm foi visto como potencialmentetil para professores, fornecendo informaes sobre a aprendizagemestilos , em reas que necessitam de correo e feedback sobreensino ( Barbot , 1991).No entanto, a auto-avaliao tambm se reuniu com considervelceticismo, em grande parte devido a preocupaes sobre acapacidade dos alunos para fornecer julgamentos precisos desua realizao e proficincia. Por exemplo , azul(1988), apesar de reconhecer que a auto -avaliao um elemento importante na aprendizagem auto-dirigida eque os alunos podem desempenhar um papel activo na avaliaode sua prpria aprendizagem de lnguas, argumenta que os alunosno pode auto-avaliar nu. Tomar a auto-avaliaoos dados recolhidos a partir de estudantes em uma EAP pr -sessesprograma , ele relata uma baixa correlao entre as avaliaes dos professores dos alunos e sua prpriaauto-avaliaes . Ele tambm mostra que, em multiculturalgrupos como aqueles tpicos de pr -sesses EAPcursos , superestimativa de proficincia na lngua somais comum do que subestima . Finalmente, eleargumenta que learners'lack de familiaridade com metalinguageme com a prtica de discutir a linguagemproficincia em termos de seus prejudica as habilidades de composioa capacidade para identificar a sua linguagem precisanecessidades de aprendizagem .Essas preocupaes , no entanto, no arrefeceu o entusiasmopara as investigaes nesta rea e pesquisa na1980 estava preocupado com o desenvolvimento da auto-avaliaoinstrumentos e sua validao (por exemplo,Oscarson , 1984; Lewkowicz & Moon , 1985). Consequentemente ,uma variedade de abordagens foram desenvolvidasincluindo cartes de progresso dos alunos , dirios de aprendizagem, de loglivros, escalas de avaliao e questionrios . Na ltimadcada, o foco da pesquisa mudou paramelhorar a nossa compreenso das tcnicas de avaliaoque j existiam porcontinuou exerccios de validao e aplicando auto-avaliaoem novos contextos ou de novas maneiras.Por exemplo , Blanche (1990 ) utiliza padronizadotestes de desempenho e proficincia oral, tanto para testese para fins de auto-avaliao , argumentando que estaabordagem ajuda a contornar os problemas de formaoque esto associados com questionrios de auto -avaliao.Hargan (1994 ) documenta o uso de um'do- it-yourself instrumento, para fins de colocao ,relatando que resulta em grande parte da mesma colocaonveis , como sugerido por um de mltipla escolha tradicionalteste . Hargun argumenta que o teste de colocao para a grandeos nmeros em seu contexto resultou na aplicaode mltipla escolha tradicional grammarbasedteste de colocao e uma conseqente nfase naensinar habilidades de gramtica analticas. Ela acredita queo instrumento 'do- it-yourself - colocao "pode ajudarpara corrigir a nfase na gramtica e conter anegligncia da leitura e escrita em sala de aula.Carton (1993) discute como a auto-avaliao podetornar-se parte do processo de aprendizagem. Ele descreve seuuso de questionrios para incentivar os alunos a refletirem seus objetivos de aprendizagem e modos preferenciais deaprendendo. Ele tambm apresenta uma abordagem para monitoramentoaprendizagem que envolve os alunos na elaborao de seucritrios prprios , uma abordagem que defende ajuda os alunospara tornar-se mais conscientes do seu prprio cognitivoprocessos .Uma abordagem tpica para validar a auto-avaliaoinstrumentos tem sido obter validade concorrenteestatsticas por correlacionar a medida de auto -avaliaocom uma ou mais medidas externas de desempenho dos alunos( por exemplo , Shameem , 1998; Ross , 1998) . outroabordagens incluram o uso de multi- traomulti- mtodo projetos ( MTMM ) e anlise fatorial( Bachman & Palmer , 1989) e uma tcnica de split- cdula( Heilenman , 1990) . Em geral, esses estudoster encontrado a auto-avaliao a ser um mtodo robusto para a recolha de informaes sobre a proficincia do aluno eque o risco de fraude baixa ( ver Barbot , 1991).No entanto, eles tambm indicam que algumas abordagens paracoleta de dados de auto-avaliao so mais eficazes do queoutros. Bachman e Palmer (1989 ) relatam quealunos eram mais capazes de identificar o que eles encontraramdifcil de fazer em uma linguagem que o que encontraramfcil. Portanto, 'pode fazer ' perguntas foram os menostipo de pergunta eficaz dos trs usaram em suaEstudo MTMM , enquanto que a pergunta mais eficaztipo parecia ser o que perguntou sobre oalunos ' dificuldades percebidas com os aspectos dolngua .Alm disso , a experincia do aluno da auto-avaliaoprocedimento e / ou a habilidade de linguagem sendoavaliada foi encontrada para afetar a auto-avaliao .Heilenman (1990 ) , num estudo do papel da respostaefeitos, os relatrios tanto um efeito aquiescncia (a tendnciapara responder positivamente a um item , independentemente daseu contedo ) e uma tendncia a superestimar a capacidade ,essas tendncias sendo mais acentuada entre os menosalunos experientes. Ross (1998 ) concluiu que oconfiabilidade das auto-avaliaes dos alunos afetadopela sua experincia da habilidade que est sendo avaliada . elesugere que quando os alunos no tm memria de umcritrio , eles recorrem a lembranas de seu generalproficincia , a fim de fazer o seu julgamento . esteprocesso mais susceptvel de ser afectada pelo mtododo instrumento de auto-avaliao e por fatorescomo auto- bajulao . Ele argumenta , portanto, para a concepo deinstrumentos que so expressos em termos que oferecem aprendizesum ponto de referncia , tais como contedo curricular especfico.Em uma descoberta semelhante Shameem (1998) relatriosque a auto-avaliao de sua proficincia oral dos respondentesem Fiji Hindi so menos confiveis ao mais altonveis da escala de auto- avaliao. Como Ross, eleatribui esse deslizamento na preciso dos entrevistados 'falta de familiaridade com a medida critrio.Oscarson (1997) resume os progressos nesta rea,lembrando-nos de que a pesquisa em auto-avaliao ainda relativamente novo. Ele reconhece que e