2008年11月29日 星期六

編製運動教練評鑑量表

研究的目的是編製運動教練評鑑量表。本研究以運動教練為對象,利用測驗的總加評分量表(Summating rating scale)為研究工具,依據「重複測量」和「測量總加」兩個理論為基礎,嚴謹的編製運動教練評鑑量表。整個編製程序共分為五大步驟:界定架構、設計量尺、初步研究、施測和試題分析、分析效度和建立常模。本研究的結論是編製一個精確、有效的運動教練評鑑量表,可以提供評鑑運動教練之用,包括一般學校運動教練、體育運動專業學校運動教練、教育部專任運動教練和職業運動專任運動教練。

2008年11月25日 星期二

編製羽球效標參照組合測驗

本研究的目的是編製羽球效標參照組合測驗。研究對象為全國羽球協會登記在案的甲組和乙組運動員共223名,運用logistic迴歸分析的統計方法,編製羽球效標參照測驗,結果得到組合測驗的估計迴歸公式:logit (p)=-22.22+0.05×網前平推球+0.03×切球+0.06×立定跳遠+0.12×肌力。選擇最佳分界分數為0.52(標準),計算組合測驗效度係數(φ相關)0.53,複核效度為0.80。測驗信度的一致性比率0.83、柯恆 Kappa係數0.53和修正 Kappa係數0.65。本研究將可做為「選拔羽球國手」、「大學羽球專項入學考試」和「國家隊集訓和培訓」之用。最後結論為:編製羽球效標參照組合測驗,具有良好的測驗品質。

2008年11月24日 星期一

利用多層面Rasch測量模式編製中等學校運動績優甄審甄試測驗─以壘球打擊測驗為例─

研究的目的是:利用多層面Rasch模式編製中等學校運動績優甄審甄試測驗。二十四位受試者實施壘球打擊成績表現測驗,以FACETS程式估計受試者、組別和試做次數等三個層面的測驗。結果是:測驗資料適合Rasch模式;標準參照評量的分界分數在能力0.41,效度係數0.89,信度的一致性比率0.96、柯恆kappa係數0.89和修正kappa係數0.92。最後結論為:壘球打擊成績表現標準參照評量測驗,可做為中等學校運動績優甄審甄試之用。

2008年11月23日 星期日

利用多層面單變項概化理論編製上肢運動覺測驗

研究的目的是利用多層面單變項概化理論探討上肢運動覺測驗。研究採三層面的完全設計:受試者(P)r測量角度(A)r試做(T),探討測驗的重要層面,發現測量角度變異成份高達94%,進一步從90°、45°、30°、60°和負30°中選擇最佳測量角度,並利用決斷研究提出合理的測驗。根據結果得到結論為本研究應用多層面單變項概化理論成功的編製上肢運動覺測驗。

2008年11月21日 星期五

體能測驗應用報告

利用「估計潛能」探討成績優異運動員中不適合模式者,分析那些體能須要補強?那些體能是選手的特長?明確提供教練和選手訊息。(姚漢禱,2001)
以某位選手為例:
從高中女子組估計潛能優異者其成績適合檢定,只有五筆資料(參考表一),且情況都不嚴重,某位選手訊息加權均方和偏離反應均方微大,訊息加權均方0.83、偏離反應均方0.79,探查得知民國89年5月測驗成績,其中手球擲遠和握力兩項最差,800公尺、折返跑和坐姿體前彎也不好,特別是折返跑一項,顯示某選手是短跑選手,而敏捷性極待強化。建議:進一步了解選手的比賽成績、現況和訓練計畫。

2008年11月19日 星期三

編製常模參照評量基本體能測驗

基本體能測驗有效1724筆資料分析,由試題反應理論分析,測驗能有效的估計受試者潛在能力,受試者個別信度(PERSON RELIABILITY)的上限是0.80、下限是0.75,試題個別信度(ITEM RELIABILITY)的上限是1.00、下限也是1.00。

2008年11月17日 星期一

運動技能測驗中負Alpha信度係數之研究

在某些情況,Alpha係數負值常會發生,研究的目的是探討負Alpha信度係數問題,並尋求適當的表示運動技能測驗的信度。從測量理論分析Alpha信度係數的背景,再以運動技能重複測量單一項目測驗的實例說明,比較古典測量理論的Alpha係數、組內相關係數和Rasch個別信度係數的誤差,結果發現:在受試者同質性高且重複測量單一項目 (MASI)的運動技能測驗情況下,Alpha係數容易得到負值,而Rasch個別信度係數能有效的估計測驗信度。本研究的結論為:Rasch個別信度係數(separation reliability coefficients)能夠有效的克服負Alpha係數的問題。

發展多層面階層Rasch模式分析淘汰賽的排名

以2002 FIFA 世界盃決賽為例,研究的目的是利用多層面階層Rasch模式估計淘汰賽的成績表現。研究對象是世界足球總會(FIFA)2002年世界盃的第二部分賽程(淘汰賽)。就測量設計而言,淘汰賽是具有層面(facet)和階層(hierarchical)因素,因此,在利用姚漢禱(2004)發展出多層面多階層Rasch多點計分模式,建立淘汰賽參賽者的能力校準,因此逐階估計得到合理的潛能,使測量能力和成績排名一致。根據結果得到結論為本研究成功量化淘汰賽的排名。

2008年11月16日 星期日

利用線性logistic Rasch模式估計排名賽的成績表現

以34屆世界盃棒球賽為例,研究的目的是利用線性logistic Rasch模式估計排名賽的成績表現。研究對象是2001年第三十四屆世界盃棒球錦標賽的複決賽程(排名賽)。透過線性logistic Rasch模式,發展出多層面多階層Rasch多點計分模式,建立排名賽參賽者的能力校準,因此選擇合理的層面和加權指數,使測量能力和成績排名一致。根據結果得到結論為研究成功量化排名賽的排名。(姚漢禱,2004)

2008年11月15日 星期六

以Rasch測量有效的等化分組循環賽的成績表現

研究的目的是利用Rasch測量來等化分組循環賽的成績表現。研究對象為丹鳳國小籃球3對3鬥牛賽(basketball 3 on 3 games)的分組循環賽,透過兩階段Rasch模式等化和單階段垂直等化方法(one-step vertical equating),建立分組循環的所有參賽者的能力校準。結論是Rasch測量的單階段垂直等化方法可以提供分組循環賽所有參賽者精確的校準能力。(姚漢禱,2004)

2008年11月13日 星期四

用定錨法處理運動項目循環賽排名估計的失序

當積分相同時,估計潛能和比賽規則判定名次不一致,產生失序現象。
姚漢禱(2002) 用定錨法處理運動項目循環賽排名估計的失序,研究以桌球循環賽相同積分為研究對象,運用FACETS電腦程式估計受試者能力。研究的結論是定錨法依規則判定的名次,將順序量尺的排名,完成精確的估計。

2008年11月12日 星期三

用試題反應理論估計運動項目的成績表現排名

研究的目的是用試題反應理論來估計運動項目的成績表現排名。成績表現排名是順序量尺,在體育運動科學研究中,經常被選定為效標使用;唯有提昇效標的量尺水準,才能滿足統計運算的條件。Linacre (1997)指出:FACETS電腦程式(試題反應理論分析質的觀察值)可將原始測量的順序量尺經過校準後,全部都是相同的線性構造,可以推論至一般的等距量尺。本研究以桌球和羽球循環賽所得的記錄名次為研究對象,運用FACETS(2001)電腦程式估計受試者能力。本研究的結論是試題反應理論將排名(成績表現)順序資料轉換(對數轉換)為近似等距數線(連續性數線)的量尺,它可以提供更多測驗訊息和更精確的成績表現。(姚漢禱,2003)

2008年11月10日 星期一

運動比賽排名的量化

「比賽排名的量化」,針對配對比賽潛能的估計。體育運動科學的研究通常都以成績表現為最佳的效標,如果是客觀成績的運動項目,如:田徑、游泳等,這是很適合的。但是對抗性的運動項目,如:籃球、桌球等,便發生問題,其成績表現為比賽結果的排名。排名屬於順序量尺,如果當做多元迴歸分析的效標,那是錯誤的。在不得以的情況下,有很多體育運動科學的研究以比賽的「勝率」、「得失分差」、「排名的評分」或「T分數」等方法為效標,這些方法本身都具有一些盲點,將影響實際應用的成果。對抗形式運動項目的競賽制度,主要是「循環賽」和「淘汰賽」兩大賽制,其餘的競賽制度都是由前述兩者演變而成。已研究的賽制有:循環賽、分組循環賽、排名賽和淘汰賽,其餘的尚有雙敗淘汰賽、分層排名賽、巴西賽制……等等。國外只有循環賽制的量化的研究,筆者則有一系列相關的探討。

2008年11月9日 星期日

運動項目主觀評分的量化

試題反應理論有相當多的裁判評分嚴謹度分析,重點是使用均方適合度統計(Smith, 1996);以及量尺精確度的提高,估計順序排名的計分(Looney, 1996)。

曾盟堡(2001)研究發現多層面Rasch模式可以更精確、深入地分析裁判的判決。分析結果,可對裁判員的評判表現做一整體的描述與分類,並加以檢測、追蹤不良之判決。結論為試題反應理論可以更精確、深入地分析裁判的判決行為。

Linacre (2002) 研究2002鹽湖城冬季奧運雙人溜冰賽的評分,奧運首次在一項競賽中頒發兩面金牌;Linacre (2002)說明:「四位裁判(判決俄羅斯較優)中,波蘭和烏克蘭裁判對俄羅斯選手較寬鬆,用程式來調整人類錯誤的意圖或意外,產生獎牌排名?」事實上比賽制度不可能這樣,所以,Linacre (2002)又說:「也許其他統計學家才正確,參考九位裁判偏差類型因素圖(圖一),俄羅斯、烏克蘭、法國和波蘭四位評分相同,特別對照加拿大和德國裁判完全相反,主要因素特徵值3.8、第二因素特徵值1.7。而通常獨立判決不該大於特徵值1.4。」

2008年11月7日 星期五

Objective Measurement of holes in Golf

目的:運用Rasch分析客觀測量高爾夫球場各洞的難度。方法:使用「桿數」和「淨桿」兩項資料分別估計各洞的難度。研究對象:2005年度Life Card女子高爾夫巡迴賽, 2005年4月15至17日三天,共計三回合比賽成績。結果:以桿數估計的平均難度, 5桿組2.05、4桿組0.04和3桿組 -2.79,明顯的分成三個群組,和「標準桿愈多該洞難度愈高」吻合。以淨桿估計的平均難度, 3桿組0.40、4桿組0.28、5桿組 -0.35,這個結果與桿數估計的結果不同。結論:多層面Rasch模式能夠客觀測量高爾夫各洞的難度,桿數和淨桿所估計的各洞難度各有適合的用途。

The development of Rasch model to analyze the ranking of elimination system with double repechage

The purpose of this study was to estimate the performances of elimination system with double repechage by using Many-Facet Rasch model. The subjects were the women players of Athens 2004 Olympic Judo Game (- 48 kg, extra-light). In the measurement design, the elimination system with double repechage included ‘facet’ and ‘hierarchical’ factor; there were two repechage matches in addition to the main elimination matches. This study used an estimate elimination matches’ model by the design of Yau’s development in 2004, the losing of 1/16 hierarchical anchored at -0.43; the scoring model was 3 points model and anchored at -0.33. the result of estimation in this research was successful, estimated potential was almost equal to the competition result ranking, the only deficit was an disorder appeared to one player; in further analysis, this result could be accept because the winning percent was the same and the competitor include the gold medal, so that the unreasonable higher estimation could be happen. However, limited by the hierarchical factor, there were players with high estimate potential did not get good ranking. In conclusion, our method quantized the ranking of Olympic judo elimination system with double repechage successfully.

2008年11月6日 星期四

應用多層面Rasch模式分析雙不定向飛靶優秀選手的射擊技術

本研究的目的是應用多層面Rasch模式分析雙不定向飛靶的射擊技術。研究對象是國家射擊雙不定向飛靶代表隊現役最佳選手,包含男子五名與女子三名;分析資料包括國內2005-2006正式比賽及國家隊選拔測驗,比賽形式皆為奧運賽制,每人各射擊三回合、每回合150發,決賽加射一回合。所有紀錄的數據,透過Facets測驗軟體分析。射擊技術分析八個重點(層面)包括選手、賽制、日期、拋靶類型、射擊回合、開始靶位、射擊靶位及目標。利用適合度考驗(INFIT & OUTFIT)、難度(measure)、估計誤差(Model S.E.)和非期望反應(unexpected responses)建立各層面技術的量尺,然後根據非期望反應和標準殘差(standardized residual)進一步探討選手個人的技術類型和優缺點。結果能夠具體、精確的分析選手在雙不定向飛靶的射擊技術,提供教練在訓練上有一個明確的指標,排除主觀的觀察的弱點,並提升選手的成績表現。研究結論是利用測量的非期望反應可以探查雙不定向飛靶運動員的射擊技術。

2008年11月4日 星期二

修訂立定跳遠發展階段觀察檢核表

本研究的目的是修訂一份適用評估男性四歲至六歲(前運思期)的「立定跳遠發展階段觀察檢核表」。Haywood(1993)的「立定跳遠發展階段觀察檢核表」共計六個觀察項目,在其他的研究中發現內部一致性信度不良和不適合Rasch模式,認為須要修訂此檢核表,本研究受試者是460名四歲至六歲男性兒童。主要是利用RUMM2020軟體分析,結果修正兩題失序問題,並刪除一題殘差超過 ±2.5標準的試題,獲得單向度、類別和閾值合理的檢核表;最後,再用結構方程模式驗證檢核表為單向度,經修正模式增加第六題和第三題誤差的共變關係後,證明本研究「修訂立定跳遠發展階段觀察檢核表」是良好的單向度。結論為本研究修訂的男性四歲至六歲(前運思期)的立定跳遠發展階段檢核表具有良好品質。

2008年11月3日 星期一

利用Rasch測量分析我國最佳女子桌球雙打的技術

目的:利用Rasch測量分析桌球女子雙打技術分析。研究對象:我國最佳女子雙打組黃怡樺、陸雲鳳選手,目前世界女子雙打排名第16名。研究方法:以現場錄影10場比賽並做賽後分析與雙打技術觀察表整理。將技術分為發球段、接發球段、相持段等三段技術,每段技術將根據不同技術得失評分為0、1、2、3、4。應用Facets分析評分者、運動員、三段技術等三個層面。結果:1.五位評分者因一致性有問題,刪除一位後,評分者具一致性與代表性。2.整體運動員層面具有良好的信度、效度與樣本代表性。3.整體運動員能力和發球段能力是陸雲鳳優於黃怡樺,接發球段能力和相持段能力則是黃怡樺優於陸雲鳳。結論:Rasch測量適合分析桌球女子雙打技術,黃怡樺和陸雲鳳配對的雙打三段技術為發球段能力較優、接發球段能力中等、相持段能力明顯較差。

以Rasch評價Haywood 2005立定跳遠發展階段觀察檢核表

目的:利用Rasch評分量尺模式評價Haywood 2005的立定跳遠發展階段觀察檢核表。研究對象:國民小學一至三年級,每個年級各45位學生,共計有105位學生,方法:使用WINSTEPS軟體估計資料和模式的適合度、試題難度、受試者能力和Rasch標準化殘差的主成分分析,結果顯示:Haywood 2005的立定跳遠發展階段觀察檢核表能夠有效的測量。結論: Haywood 2005的立定跳遠發展階段觀察檢核表適合單向度Rasch評分量尺模式。

2008年11月1日 星期六

編製桌球甲組選手正手拉球測驗

目的:編製測量桌球甲組選手正手拉球技術之測驗。對象:桌球甲組選手150名。方法:以利用40公分×40公分,和20公分×20公分方塊型紙板一塊,將桌球半檯分成三個區域,分別給與1至3分,失誤為0分。以受試者比賽站位為準,餵球是檯上發正手下旋至全台不定點;目標置於對面右邊角落,拉20個球,以40秒為限。應用Facets分析整體運動員層面、男子運動員層面、女子運動員層面、試題層面、類別層面,以及利用Winsteps建立正手拉球測驗常模。結果:整體運動員層面、男子運動員層面、女子運動員層面的Rasch個別信度分別為 0.55、0.49、0.52,三者皆具有測驗鑑別力、樣本具有代表性和資料適合 Rasch測量模式。試題層面難度測量值 0.00 ± 0.10 符合重複相同試做的測驗,同質性考驗也證明同質;此外測驗的試題考驗證明具有內容效度、建構效度以及樣本具有代表性。類別層面估計的結果可以接受,但未達理想情況,以後可進一步改善。比較男女估計能力有顯著差異,本研究乃分別建立男女常模。結論:本研究的正手拉球測驗適合Rasch測量模式,測驗獲得良好的信度及效度,在分別建立男女常模後,能量化男女運動員能力的高低。

2008年10月31日 星期五

以Rasch評分量尺模式分析外籍運動教練訓練行為量表

目的:利用Rasch評分量尺模式來發展外籍運動教練訓練行為量表。研究對象:國立體院60名選手評量教練。方法:使用Winsteps和Facets軟體分析資料,探討模式的適合度、試題難度和受評外籍運動教練的表現。結果顯示:以Rasch評分量尺模式來編製外籍教練訓練行為量表,才能接近有效測量的理想。結論為利用單向度Rasch評分量尺模式來編製外籍教練訓練行為量表最合適,但是量表架構上有進一步研究的必要。

Rasch測量分析體育態度量表

目的:分析國中學生體育態度量表。研究對象:台灣地區國中生508位(男生255名,女生253名)。方法:根據受試者對試題的反應以Rasch測量模式進行量表的試題分析。結果:量表的試題反應大致吻合模式,所獲得的量尺具有客觀而等距的特性,對於少數試題吻合度較差的試題將作為日後簡式量表試題刪減的參考。結論:利用Rasch測量能夠有效地篩選試題並發展測驗的客觀量尺。

編製高爾夫技術測驗

本研究目的是將高爾夫分為十大項技術,分別編製成十項高爾夫技術測驗。研究方法是以52位國內年輕優秀的高爾夫選手做為受試者,實施高爾夫十項技術測驗;另一方面,收集選手的中華民國96年宏碁業餘高爾夫男子組全國冬季排名賽資料共59位,為期四天的比賽(中華民國96年3月13日至3月16日),紀錄每洞的成績,作為選手技術測驗證明效標關聯的資料。利用Facets程式進行Rasch模式分析資料,獲得測驗項目Rasch的個別信度為0.96、運動員估計得到 Rasch的個別信度為0.91,十項技術測驗項目的適合度都合乎標準,證明本研究具有內容效度(試題校準有效) 和建構效度(測量有效)。以高爾夫比賽估計的潛在能力值為效標,計算運動員施測十項技術測驗Rasch測量值和比賽潛能的相關,結果得到相關0.65,達到顯著水準,計算r 平方為 0.425,即十項技術測驗可以解釋高爾夫潛在能力的42.5%,證明本研究的十項技術測驗具有良好的外在效度;並建立十項技術測驗的常模,可以提供測驗原始分數的解釋。最後結論為:本研究的十項技術測驗利用Rasch測量的探討具有優異的信度和效度,且完成技術測驗的常模。

2008年10月30日 星期四

利用Rasch測量分析2007年世界跆拳道錦標賽與世界大學運動會跆拳道女子重量級比賽

目的:探討2007年世界跆拳道錦標賽與世界大學運動會跆拳道女子重量級比賽技術。方法:利用測驗連結方式,將兩個國際性重要比賽的選手潛能校準在同一個量尺上,依據Rasch多層面模式,研究採選手、評分者與戰術型態等三個層面進行估計與分析。運用Rasch分析程式Facets加以量化估計。研究預期探討比賽選手之間的能力之及評分者的一致性與嚴謹度,以及主動攻擊與被動攻擊及犯規於得分及失分上的評估,以作為日後教練及運動員在訓練及技術應用上之重要依據。

2008年10月29日 星期三

利用Rasch測量分析空手道比賽技術


目的:利用Rasch測量分析男子空手道比賽技術。對象:2006年杜哈亞運男子空手道對打第二量級選手。方法:現場錄影收集資料,比賽技術分為攻擊、反擊和犯規等三項(試題) ,透過有經驗的評分者給分,應用Facets分析選手、評分者和比賽技術三個層面。結果:可以了解空手道對打比賽攻擊、反擊和犯規的實際情形,並提供選手教練參考數據。結論:Rasch測量可以量化空手道對打比賽技術的主觀評量。

2008年10月28日 星期二

舞獅運動裁判判決分析



目的:舞獅運動裁判判決分析。研究對象:我國2006年全民運動會舞獅(台灣獅)比賽項目七縣市隊伍與九位裁判的判決作為分析的資料。方法:以Facets軟體進行多層面Rasch模式分析。結果:能夠對裁判的判決表現進行整體的描述與分類,並提出客觀的數據追蹤不良的判決。結論:利用客觀測量能精確而深入地分析裁判的判決行為。

2008年10月27日 星期一

反曲弓射箭競賽項目技術表現分析

目的:分析射箭選手在反曲弓競賽項目中的技術表現。對象:我國2006年亞運反曲弓射箭決選的男子、女子各八位選手,分析資料包括資格賽和對抗賽的全部過程。方法:應用Facets測驗軟體分析競賽資料,根據射箭競賽的特性,將技術分成四個重點(層面):選手、距離、回合和放箭順序等分析。利用適合度考驗、難度、估計誤差和非期望反應建立各層面技術的量尺,然後根據非期望反應和標準殘差,再探討選手個人的技術表現。結果:提供教練訓練和比賽客觀的數據,排除主觀判斷的缺點且提升選手的成績表現。結論:是利用客觀測量的非期望反應,可以探查反曲弓射箭競賽的運動員技術。

標槍投擲技術評估

目的:評估標槍投擲技術的動作表現。研究對象:國立體育學院陸上系投擲組學生12名(男子選手8名、女子選手4名)。方法:根據標槍投擲的過程,將技術分成助跑、交叉歩、擲出和完成動作四個部分(試題),透過有經驗的評分者給分,應用Facets分析選手、評分者和試題三個層面的資料。結果:1、運動員層面:Rasch的個別信度 0.96 ,同質性考驗顯示具有鑑別度,隨機考驗顯示樣本符合常態分配(有代表性)。2、技術動作層面:Rasch的個別信度 0.92 ,同質性考驗顯示具有鑑別度,隨機考驗顯示樣本符合常態分配(有代表性)。3、評分員層面:Rasch的個別信度 0.79 ,同質性考驗顯示評分員不一致,隨機考驗顯示樣本符合常態分配(有代表性)。結論:本研究的標槍投擲技術觀察表能夠評估選手標槍投擲的技術;但評分員的評分不一致,有待進一步改善。

2008年10月26日 星期日

運動技術分析系列研究

Rasch分析2006年桌球世界團體賽制

目的:利用Rasch模式分析2006年桌球世界團體賽制的成績表現。研究對象:2006年桌球世界團體賽分級比賽,每一級24隊,預賽分四組循環賽,各組前三名進行一至十二名排名決賽、後三名參加13至24名排名決賽。方法:應用多層面Facets估計各隊的潛在能力。結果:估計各隊的潛能和排名順序並不一致。結論:桌球世界團體賽制雖有利於明確的排名,但在對抗性的比賽中並非很公平。

2008年10月25日 星期六

ABOUT PROMS

PROMS (Pacific Rim Objective Measurement Symposium) is an annual non-governmental professional meeting established at the instigation of Professor Trevor Bond in 2004 to promote objective measurement and contribute to the research and development of Rasch measurement in the Pacific Rim. PROMS is an annual symposium aiming to provide a forum for the sharing of new knowledge with the international community. Rasch measurement workshops are usually attached to PROMS meetings.

The first PROMS meeting, PROMS KL 2005, was successfully held at Kuala Lumpur Malaysia in 21-23 June 2005. It was hosted by the Research Centre of the International Islamic University of Malaysia. The theme of PROMS 2005 was “Quality Measurement for Quality Decisions”. The symposium had attracted over 120 international researchers, practitioners, educators, and policymakers from 10 countries, including Australia, Sweden, Hong Kong, Korea, Malaysia, Palestine, Philippines, South Africa, Taiwan, and U.S.A. Prof. Mike Linacre ran introduction to Winsteps / Facets software workshop at PROMS KL 2005.

The second PROMS meeting, PROMS HK 2006, was also held successfully in Hong Kong from 27-29 June 2006 and hosted by the Department of Educational Psychology, Counseling, and Learning Needs, The Hong Kong Institute of Education. The theme of PROMS HK 2006 was “Rasch Measurement: A Tool for Scientific Progress for the Asia Pacific”. Prof. Mike Linacre also hosted a Winsteps / Facets software workshop at PROMS HK 2006.

PROMS TW 2007 is to be held in TaoYuan, Taiwan, from 17-19 July 2007 and will be joint hosted by the Graduate Institute of Sports Training Science, National College of Physical Education & Sports, and the Department of Psychology, National Chung Cheng University. The theme of PROMS 2007 in Taiwan is “Objective Measurement in Diverse Disciplines”. Winsteps, ConQuest, BILOG-MG, & RUMM software workshops will be organized on 16 July 2007. Dr. Mike Linacre, Dr. Margaret Wu, Dr. Eiji Muraki, & Dr. David Andrich will host these workshops personally.

PROMS 2007 TW

國內空前最盛大的國際性 Rasch測量學術會議。

第三屆泛太平洋地區客觀測量研討會(Pacific Rim Objective Measurement Symposium, PROMS 2007, 16-19 July 2007, National College of Physical Education and Sports, Taoyuan, Taiwan, Republic of China.) 。

目的是為了在泛太平洋地區推廣與試題反應理論之Rasch model有關的學術研究,以及應用Rasch model和IRT來發展更適當的測驗工具。

前一天先舉辦Winsteps、BILOG-MG、RUMM 和ConQuest 等四場工作坊 。

2008年10月24日 星期五

Rasch模式估計軟體 -2

RUMM2020

•RUMM2020 is a Rasch unidimensional measurement models.
• For analysing assessment and attitude questionaire data.
•An essential tool for teaching measurement, test designing and conducting Rasch analysis research using the Rasch measurement model.


ConQuest

•ACER ConQuest Version 2.0 is a computer program for fitting item response (Rasch) and latent regression models.
•ACER ConQuest also offers the wider measurement and research community the most up-to-date psychometric methods of multifaceted item response models, multidimensional item response models, latent regression models and drawing plausible values.


Facets

Facets is designed to handle really tough applications of unidimensional Rasch measurement. It constructs measures from complex data involving heterogeneous combinations of examinees, items, tasks, judges along with further measurement and structural facets.

2008年10月23日 星期四

Rasch模式的估計軟體

1.Winsteps:二層面單向度Rasch測量,http://www.winsteps.com/winsteps.htm
2. RUMM2020:單向度Rasch測量,http://www.rummlab.com.au/
3. ConQuest:多種Rasch模式,http://shop.acer.edu.au/acer-shop/group/CON2;jsessionid=37929F6E41637DC1CC761EAD9D2673B9
4.Facets:多層面單向度Rasch測量,http://www.winsteps.com/facets.htm



Winsteps

•Winsteps constructs Rasch measures from simple rectangular data sets, usually of persons and items. After initial familiarization, it is straightforward to use in combination with other software.
•Item types that can be combined in one analysis include dichotomous, multiple-choice, and multiple rating-scale and partial credit items.

2008年10月22日 星期三

Rasch模式發展趨勢

近年來的趨勢Rasch測量模式蓬勃發展,主要是Rasch模式具有線性的可加性。

Rost(2001)評論:「歸納Rasch模式卓越的特質,包括:可分割、充足性、明確具體和潛能可加性。」

影響所及不但相關Rasch模式紛紛出籠,各種專門的工作坊、研討會、定期討論會繁多;就區域而言,北美、歐洲、澳洲和亞洲都有Rasch測量的專門研究、教學、網站,較落後者甚至聘請專家學者,長期任教或協助研究。


國內的Rasch測量

就應用的領域而言,由原有的心理計量,廣泛的應用於心理和教育,近年來醫療、健康、體育運動、社會……等等,以急起直追,引進Rasch用於測量方面。
國內的努力:

1.2004年教育與心理測驗學術研討會,工作坊主題:Rasch測量的應用,國立政治大學。

2.Rasch分析在醫療產業上的應用研討會,日期: 95年2月25日,地點: 奇美醫學中心。

3.PROMS (Pacific Rim Objective Measurement Symposium) Taiwan 2007, 16-19 July 2007, National College of Physical Education and Sports, Taoyuan, Taiwan, Republic of China.


體育運動的應用研究

•編製體育運動測驗
•信度效度實際驗證
•建立測驗常模
•比賽排名的量化
•運動主觀評分之探討
•運動競技的分析

2008年10月20日 星期一

Rasch二分模式與試題反應理論單參數Logistic 模式的對照分析







Rasch模式與試題反應理論的區別

參考Rasch測量會刊RMT (2005)的Rasch二分模式與試題反應理論單參數Logistic 模式乙文,加上筆者多年研究Rasch測量,將兩者對照分析,匯報成表,以便後續的比較說明。

1. Rasch模式
源自度量受試者能力,1960年丹麥學者Rasch研究智力和成就測驗的機率模式,其目的在於測量。

2.試題反應理論單參數Logistic 模式
最早應該是源自Birnbaum (1968)的一些潛在特質模式研究,它載於Lord和Novick(編著) 的智力測驗分數的統計理論。 Lord, F. M. 是教育測驗服務社(ETS)的成員,他發現大量測驗資料時,都是常態分配,發展成能力和答對機率為常態肩形曲線,企圖以此模式克服古典測驗理論的一些問題。
事實上Birnbaum是修改1952 年Lord 提出二參數常態肩形模式,因為常態肩形模式估計繁瑣困難,修改為Logistic 模式加上1.7常數的調整,兩者就非常近似,乃影響後來研究方向。

Rasch模式的家族

Rost(2001)綜評:「 Rasch模式家族的成長,分析發展的四個方向為:多向度、多重計分、多層面和多群組。」

•1960年二分計分模式和波松計量模式
•1972年二項試做模式
•1977年Andersen、1978年Andrich增加第四種評分量尺模式
•1981年Masters 和Wright 部分計分模式
•1983年Stegelmann 增加第六種多向度Rasch模式
•1989年Linacre 增加第七種多層面Rasch模式
•1989年Yamamoto 增加第八種不同計分混合Rasch模式(hybrid Rasch model)
•1990年Rost 增加第九種多群組混合Rasch模式(mixed Rasch model)
•尚有混合多向度Rasch模式、混合線性Rasch模式和混合多向度線性Rasch模式等三類,目前還未能發展出來

2008年10月18日 星期六

Rasch 二分計分模式

數學測驗第一題,共有550位考生,利用 Rasch 二分計分模式估計得到:試題難度-0.401,適合度殘差1.146、卡方機率0.438,未達 p < .05 顯著水準,表示試題適合 Rasch 二分計分模式。参考下圖



Rasch 二分計分模式計有答對和答錯兩個類別,其類別函數如下

Rasch 二分計分模式將兩題二分計分的試題特徵曲線合併圖, 第一題 -0.40 較第二題的 -1.17 困難。參考下圖




試題反應曲線

受試者們在某一試題上,正確回答的機率所構成的曲線


試題反應曲線公式

Rasch採用自然對數處理(範圍是 0至無限大)


曲線使用Logistic對數(等距)


母群的Logistic對數曲線公式為:

Rasch模式:界定成功的機率。

變成



2008年10月17日 星期五

Rasch二分計分模式


試題在測驗結果,個人答對時得1分、答錯給0分,觀察資料的特質是個人和試題的對應。


•當 Bp > Dt 以及 Bp = Dt 時得 1分。
•當 Bp 小於 Dt 時給 0分。



2008年10月16日 星期四

Rasch發展的波松模式


1.難度在對數公式為:

2.實際模式是服從波松分配:

3.此模式的期望值:

2008年10月15日 星期三

線性

李克特的評分量尺企圖利用穩定和明確定義的連續量尺評價特質,實際上至多只是具有順序類別的量尺,且不一定是線性的。

因為人類行為類型並不會被我們人為的量尺所限制,點型測驗無所謂是非對錯,它缺乏表達資料的大小順序,沒有相等的間隔和沒有真實數值的特質。

就統計處理而言,等距水準以上的資料,才具有可加性,進行處理統計才有意義。

測量的前輩塞斯通(Thurstone)開啟了探索估計資料之道,古德曼(Guttman)熟悉順序資料的限制,建議如果實際觀察和期望吻合,那麼資料的順序量尺將足夠接近到允許統計分析。

試題二分計分的機率(Probability)包括答對機率p值,相對的答錯機率q值;該題的答對機率與答錯機率的比值,稱為勝率(Odds)

機率值是說明的答對出現可能性(p),機率的範圍從『0』至『1』;當採用勝率時,不但兼顧不出現的可能性(1-p),而且突破上限效應(ceiling effect),勝率的範圍從『0』至『+∞』(正無限大),即擴大了上端的效果。

非線性的模式在解釋和使用上較為複雜,如果用logit模式來敘述關係較簡單,具有相當的價值。轉換logit值有兩個步驟:首先將機率(Probability)換算為勝率(Odds),其次取勝率的自然對數值

logit值有兩大優點:一是沒有上限和下限效應的限制,其範圍從『-∞』到『+∞』(從負無限大到正無限大)。

其次是非線性的線性化(linearizing the nonlinear)。原來的勝率是非線性的,經轉換為logit值後變成等距的改變,即logit值和變項呈線性關係。

非線性的線性化(linearizing the nonlinear)。原來的勝率是非線性的,經轉換為logit值後變成等距的改變,即logit值和變項呈線性關係。

以機率值0.50為中心,吾人可以發現機率增加為0.60時,勝率增加了0.50;而機率減少為0.40時,勝率減少了0.33,兩者是不相等的(0.50≠0.33)。

但是logit值在機率值0.50為中心,機率增加為0.60時,logit值增加了0.41;而機率減少為0.40時,logit值也減少了0.41,兩者的改變是相等的(0.41=0.41)。也就是說,以機率值0.50為中心,吾人可以發現機率增加0.10和減少0.10時,勝率的改變值是非線性的(不相等的),而logit的改變值是線性的(相等的)。

2008年10月14日 星期二

度量


(1)量化問卷調查無法和測驗跳遠成績一樣,使用皮尺丈量、單位是公尺;也就是說,度量參與競技運動動機缺乏一把標準的量尺。
(2)就測驗測量而言,這是估計或校準動機強度的步驟。它包括兩個重要的校準重點,一是試題的難度,其次是試題內反應的強度(scoring,計分);須要建立一套單位的量尺,以便「公平合理」的量測。

(3)上述設定參加國際賽的標準為例,第一題A標7.20公尺、第二題B標7.00公尺,編號1711選手跳遠成績7.28公尺(B1 ),高於A標和B標,等於答對兩題,總計得到兩分;依序可知1747、1191和1253三人,總計得到一分,1319、1796、1317和1013四人,總計得到零分。(參考下圖)

(4)觀察分數產生來自選手的能力和試題難度的對照,當選手能力 高於 試題難度 時得一分,如1747選手跳遠成績7.07公尺高於B標7.00公尺,得一分;當 選手能力 低於 試題難度 時得零分,如1747選手跳遠成績7.07公尺低於A標7.20公尺,得零分。

(5)由此可知,問卷調查所得的受試者反應僅是順序量尺的性質,如動機的強度缺乏「原點」,所以,不能和跳遠丈量的成績相比。
(6)如何更精確的度量呢?現在的Rasch分析已經大大提升測量的水準,容後再逐步介紹。

2008年10月13日 星期一

原點

民國95年全國中等學校運動會高男組田徑跳遠項目,比賽成績如下:

編號 1711 1747 1191 1253 1319 1796 1317 1013
成績(M) 7.28 7.07 7.04 7.02 6.99 6.93 6.92 6.92
名次 1 2 3 4 5 6 7 8


當選手要量測成績時,第一要從起跳板的前緣(基準線)量起,然後用皮尺丈量(度量)最靠近基準線上的一點(基準原點)之垂直距離(線性),在此程序之下,因為公平合理,所以能信服眾人。

現設定參加國際賽的標準:A標7.20公尺、B標7.00公尺。結果達到A標者一人,給予評價「優」(設定代碼3)。到B標者三人,給予評價「良」(設定代碼2);其餘的給予評價「可」(設定代碼1)。

現在換一個場景,吾人欲了解這些選手的參與競技運動的動機,透過適當的量表來量測;假設以「請問你參與競技運動動機的強度」為題,讓選手反應,選項有「強烈」、「中等」、「微弱」等,這時吾人缺乏測量的「原點」。

在順序量尺的兩端,它將包含很大的範圍,也就是說,「強烈」包含至無限大強度的動機,以及「微弱」包含至無限小強度的動機。因此,問卷調查量化時遭遇的第一個問題是「原點」在那裡?

吾人僅能就單一試題比較說明其參與競技運動動機的強度,如果問卷調查有許多試題,不適合加總運算。

理由是「強烈」、「中等」、「微弱」所包含的範圍(距離不相同),最重要的是缺乏基準原點,彼此之間的立足點是否相同,不得而知。

跳遠競技:從起跳板的前緣(基準線)量起,然後用皮尺丈量(度量)最靠近基準線上的一點(基準原點)之垂直距離(線性),在此程序之下,因為公平合理,所以能信服眾人。

參與競技運動動機問卷調查:反應的是「很強烈」 、 「強烈」、「中等」、「微弱」 、「很微弱」所包含的範圍(距離不相同),兩極端類別延伸至無限大。

最重要的是缺乏基準原點,彼此之間的立足點是否相同,不得而知。

2008年10月11日 星期六

量化過程必要條件

問卷調查所要量測的能力或特質,沒有項測量身高那麼具體,通常是人類建構的概念,那麼如何來測量呢?

須具備三個必要條件
1.原點
2.度量
3.線性

2008年10月10日 星期五

Rasch解決問題的步驟

1.依年齡逐漸增閱讀難度。





2.全部閱讀的期望表現。






3.實際的設計(Rasch, 1960, p5)。






4.將量化的閱讀能力和試題難度,分別去定義每個人和內容。


1>將量化的閱讀能力和試題難度,分別去定義每個人和內容。
2>假設平均閱讀錯誤。
3>
4>Bp: 個人p的閱讀能力。
5>Dt:內容(試題) t 的難度。



5.比較兩篇內容的的難度,不必依賴個人的閱讀能力。

1>比較兩篇內容的的難度。
2>

3>試題獨立:建立共同量尺。利用共同的標準,則量尺獨立。
4>比較兩篇內容的難度,不必再依賴個人的閱讀能力。
5>可概化至相關的內容難度,能夠獲得個人閱讀的能力。

Rasch解決閱讀問題的方法

1.因為要測量不同時期、不同水準的閱讀能力,如何採用相同的量尺?
2.Rasch開始時,使用波松(Poission)模式解決閱讀錯誤的問題
3.由波松演變成二分計分試題的簡單邏輯模式,進而導出等級反應模式。

2008年10月8日 星期三

Georg Rasch介紹

Rasch(1901-1980)丹麥數學家

1.純數學博士學位:在戰爭期間擔任統計專職顧問, 戰後1934年跟隨費雪爾研究一年。
2.擔任哥本哈根大學的應用社會科學統計教授。
3.他是丹麥教育研究機構的顧問,同時也和芝加哥大學有密切的連繫。

Rasch探討學生閱讀過程

1.主要的需求:不同時期,應該採用不同的閱讀內容。
2.每個時期閱讀的內容對學生不能夠太難也不能太容易。(適當的難度)
3.當學生能力提高,測驗也要隨著改變,不能再使用相同的測驗。
4.所以,逐步增加測驗的難度,以適合不同階段學生的閱讀能力。
5.找出測量學生閱讀進步的共通量尺,可估計準確的閱讀能力工具。

測量的發展

1.現今處理有許多罕見的門徑,但都未能普及、獲得眾人的信服和接受。
2.在相同的標準下,1920年代塞斯通、1940年代古德曼、1960年代的Rasch(羅西),他們一脈相傳,具有一致的標準和哲學。


固定標準的本質

1.工具參數應該明確的界判斷力,對於個人的測量是要有區別性的,且具有獨立性的。
2.另一方面,不同的試題分組(測驗),應該使用相同試題類組,才能進行一樣的測量。
3.模式是用以幫助確認資料是否具有這些特質?它允許測量中出現異常的資料。
4.筆者將採用Rasch模式的處理資料門徑,將不涉及更多的參數(如2-PLM、3-PLM)。
5.筆者認為Rasch模式更適合展現不一致的資料。

2008年10月7日 星期二

計量處理的兩種門徑

現代測量理論的兩條路
1.測量領域爭議的兩種處理門徑,在這裡吾人無意介入這項爭議;但是為了避免這項爭議,所以還是附帶提出說明。
2.這兩種處理門徑具有共同目標:
A.更能了解構念或變項的測量,且修正工具是為了改善構念的操作。
B.估計個人在構念或變項之測量格式上的位置。

第一種處理的門徑
1.編製測驗工具先要有內容效度,編製資料特質的似真模式。
2.模式參數用於解釋試題和個人,不必事先限制模式。
3.主要標準:模式去適合資料
4.1-PLM發展至2-PLM、3-PLM、4-PLM 。
5.IRT發展至NIRT 。

第二種處理的門徑
1.編製測驗工具也是先要有內容效度,然後盡量界定模式,可以具有資料的特質,同意確信測量的標準。
2.模式參數用於幫忙說明試題和個人。
3.在模式與參數上具有事先的特別限制。
4.模式與資料無關,資料在內容上應該有效,也證明固定的可能模式。
5.Georg Rasch發展成 Rasch模式。

2008年10月5日 星期日

建立量尺

ㄧ、 根據測驗理論建立量尺

1>隨機抽樣理論(random sampling theory):古典測驗理論、概化理論。
2>現代測驗理論:試題反應理論(Item response theory, 簡稱 IRT)、Rasch測量。
A) 試題反應理論:1-PLM、2-PLM、3-PLM,無母數試題反應理論NIRT。
B) Rasch模式。

二、 建立什麼量尺

1>就各變項建立不同的量尺
2>希望建立共同的量尺

計量的分類

•1>物理測量。
–跳遠:皮尺
–百米:碼表
–舉重:磅秤

•2>心理計量。
–心智:智力測驗
–情緒:心情測驗
–學習:成就測驗


•3>運動計量
–運動技能測驗:psychomotor
–體能測驗:fitness


–運動成績表現:比賽、performance
–體育態度測驗:量表


–立定跳遠動作:檢核表
–運動舞蹈:評分(強迫排名)

2008年10月3日 星期五

運動計量學的內容和特色

內容:

運用統計和測驗理論,以探討體育和運動科學的現象,進而估計潛在能力,驗證各種體育和運動的理論和模式。


特色 :

相同的試題(重複測量單一項目測驗)、練習和疲勞效果、試題曝光率和試題保密的問題、無猜測度的能力取向、意外和不小心是經常發生的、運動是動態的認知、須建立特有的運動覺……等等特性。

計量與校準




1>測量變項(身高), 須先建立量尺



2>變項計量:試題校準






2008年10月2日 星期四

運動計量學(Sportsmetric)

運動計量學Sportsmetric) : 體育運動測驗與測量理論結合,發展成為運動計量學。

目前已有的學術領域: 心理計量學(Psychometric)、計量經濟學(Econometrics) 。

運動」概念從「體育」概念中分離出來,「運動」概念不斷的擴大,進而含括了「體育」概念。

相關網址:
http://sts.ncpes.edu.tw/sts%20%20Teacher%20yauc.htm

2008年10月1日 星期三

開始就好

開始使用GMAIL,接觸更多的功能