アセスメント①週目：評価におけるValidityについて

Assessment in health professions educationの１—２章

具体例のプレゼンの仕方が下手なのか新しいコンセプトがわかりにくい。

イントロ：用語の説明と概要

アセスメントの定義（Standards for educational and psychological testing）；Any systematic method of obtaining info from tests and other sources used to draw inferences about characteristics of people, objects, or programs

George Miller’s Pyramid

① Knows（Knowledge）

② Knows How（Competence）；Apply

③ Shows How（Performance）：Simulationなど

④ Does（Action）

① ②はVerbal type Knowledgeが主

４つの主なアセスメント法

① Written tests：

a. CR：Constructed-response tests（答えを書かせる問題）

b. SR：Selected-response tests（マルチプルちょいすなど）

② Observational of clinical Performance（臨床で用いられる）

③ Performance tests（OSCEなど）Simulationを独立させる人も多いが、この本ではここに入れる

④ Miscellaneous：その他全て（Vivas、Oral examなど）

アセスメントのToolbox

ACGMEの提供するToolbox of Assessment methodsの紹介

コンピテンシー評価に使える１３の方法が推奨

① ３６０度評価

② Chart simulated recall（CSR）：患者カルテを用いた標準化された口頭試験

③ Checklist evaluations：YES/NOでPerformanceを評価する

④ Global ratings：スケールによるPerformanceの評価

⑤ OSCE

⑥ Logs

⑦ Patient Surveys

⑧ Portfolios

⑨ Record Review：文書のSystematicなレビュー

⑩ Simulations・Models

⑪ Standardized Oral exam：あらかじめ用意された質問をきく

⑫ SP（Standardized Patient exam）

⑬ Written exam

指導と評価

一つの方法に絞ると一面しか測定できない。

Miller’s triangleのいろいろなレベルでの指導・評価をする方が良いという話

ほんで使用される用語の定義

・Testは特定のアセスメントのタイプ

・数字の使用は、教育現場ではInterval scaleが圧倒的に多い。Ratio scaleはどんなにアホでもゼロを取る人はまずいないので、Ratioとは定義しない？理論的にゼロがあるので、なぜRatioでないかは理解できないが。

Fidelity to the Criterion

High-Fidelity Assessments—アセスメント自体がLifelikeでAuthentic。より複雑なSimulatorなど。Low-fidelityはWritten testなど。

Fidelityの概念は表面的なもの。Fidelityが高いからValidityが担保されるとかいう話では全くない。

Formative vs Summative アセスメント

・Formativeはコース中にフィードバックを与える目的

・Summativeはコース中に学んだことを測定・評価するためコース終了間際にするもの

Norm-referenced measurementとCriterion-referenced

Norm—相対的な評価。他の生徒と比べてどうかというもの

Criterion—絶対的な評価、生徒がどれだけできるか測定するもの。Domain-referenced、Objectives-referenced、Content-referenced、Construct-referencedなど似た意味で使用されるMastery testingも特殊な例。

どの評価スコアもNormとしてもCriterionとしても使用可能

High-stakes vs Low-stakes Assessments

High-stakesはより試験を受ける人にインパクトのあるもの。医師国家試験など。

Low-stakesは臨床で個々が使用する評価などが全て入る

Large-scale vs small-scale(local) Assessments

国家試験レベルのものがLargeで、個々が使用するような評価がLocal。

Validity of Assessment

スケール・レーティング・スコアなど教育現場でよく使われるが、その点数の解釈がValid出ないと数字自体には意味がない。

Validity – the evidence presented to support or refute the meaning or interpretation assigned to assessment data (Messick 1989)

Validity – has to do with a test measuring what it is supposed to measure.

Contemporary Validity Theory – 評価データを支持もしくは否定するために、仮説や理論を立てて、様々なデータソースからのscientific evidenceを集めて証明しようとする過程。

Validity evidenceはTime and case specific

Constructs—Construct Validityが唯一のValidityと考えられるほどに重要。社会科学におけるほぼ全ての評価は評価される人の行動から推測されるAbstract concepts and principleのIntangibleな収集（Constructs）を扱うからだそう。

Cronbach（１９５５）は、ConstructをA hypothesized attribute assumed to be tested by the Assessmentと定義した。エッセンスは捉えている表現。

Educational achievement—Constructであり、このテキストでは基本この評価をどうするかを取り扱う。

Validity argumentー理論、関係、経験的Evidenceに関係し、ある特定の評価の使用や適応について、どの解釈がReasonableなのか、そうでないのかについて提案する（Kane 2006）。

The negative case—忘れられがちだが、マイナスなEvidenceがないかも重要という話。A proposition deserves some degree of trust only when it survived serious attempts to falsify it.

５つのSources of Validity Evidence

Validity refers to The degree to which Evidence and theory support The interpretations of Test scores entailed by proposed uses of tests（AERA, APA, NCME 1999）

Validity hypothesisはあるスコアなどの解釈に関して、支持するか否定するかのEvidenceが十分かに関する一連の命題（お互いに関連のある）としてテストされる。

① Content Evidence

a. Blueprint：論理的な基礎として、Validity argumentに使える。テスト問題やPerformance項目についてOutlineを作り、Major, minor Content area含めどうリンクするのかを明確にする。各問題に対応するカテゴリーやサブカテゴリーの記載、カテゴリーごとの問題の割合、各問題のCognitivie level（Recallレベル、Applicationレベルなど。これがLearningObjectiveと一致していることも必要）

b. Independent Content expertsがコースの内容に合っているかとそのレベルなどをチェックすべき

c. Test Item Quality：Evidenceに沿った問題の作り方が必要。内容が分かりにくかったりすれば一気に学習した内容の評価方としてはValidでなくなる。

② Response Process

a. Evidence of data integrity such that all Sources of error associated with The test administration are controlled to The maximum extent possible

b. Ensuring The accuracy of All Responses to Assessment prompts、Quality control of all Assessment data、Appropriateness of methods used to combine various Assessment scores into one composite score

③ Internal Structure

a. Statistical characteristics of exam questions/Performance prompts—Generalizability and reproducibility

b. Statistical analysisはQuality control proceduresとして行われることが多い。テスト問題のDifficulty（正答率など）、Discrimination（Highスコアの人とLowスコアの人とちゃんと区別できているかなど）、Detailed count of The number/proportion of examinees who responded to each option of The test questionなど。

c. Reliabilityも大事なValidity Evidenceの一部。Reproducibility。

d. GT（Generalizability Theory）がSP試験などのPerformance試験では重要だと説明あり。具体的な理論の説明がない…How well The specific samples of behavior cAn be generalized to The population…これではわからない

e. IRT（Item Response Theory）：評価モデルそのものが役に立つという話。これも具体性に欠ける。

f. Bias analysis（DIF:Differential Item Functioningなど）もここに入る

④ Relations to Other Variables

a. Statistical and correlational

b. ある評価・測定法について、よく知られた特徴を持つ、既存の古い測定法との比較で持ってValidityを調べる

⑤ Consequences of Testing

a. Controversialな考えらしい

b. Impact of Assessment scores on examinees・Teaching and Learningのこと

c. 医師国家試験などHigh-stakes試験などは個人への影響も計り知れないのでそれもValidityの際に考慮すべき項目としている。

少なくとも２つ以上のValididy Evidenceのソースがあると良い。High-stakes試験などはできる限り多くなければいけないが。

二つのThreats to Validity（Messick 1989）

① CU：Construct Underrepresentation→UndersamplingやBiased samplingなど

② CIV：Construct-Irrelevant Variance→Constructと関係しないVariablesが測定されてしまうことで生じるSystematic errorで、問題文が難解すぎて正答率が下がるとか、簡単すぎたり難しすぎたりでできる人とできない人との区別ができてないとか（Discriminating）、テスト内容を使って教えてしまっているなど。

Threatsが起こる状況

筆記試験：Learning ObjectiveやセッションではApplicationやProblem solvingを目標に教えたのに、試験ではRecallだけを聞く問題ばかりなどCognitive levelに不一致がある場合（CU）。CIVはデータのNoiseのようなもの。教えた内容・試験する内容（Construct）と関係しないものを質問・測定してしまう（CIV）。Discriminationがうまくいっていない（CIV）。問題自体がちゃんとできてない（CIV）。テスト内容について教えてしまっている（Teaching to Test）（CIV）。Reading levelが難解すぎる（特にNativeSpeakerでない人）（CIV）。

Performance exam：SPがちゃんと訓練されていて、SPが使うチェックリストがちゃんと評価・吟味されていて、SPがいつも誰でも同じようなスコアをつけているかモニター・修正することなど説明あり。

Ratings of clinical Performance：臨床ではこれが主に使用される。

・観察が少ないと、CU Threatが起こる。Generalizableなデータを取るには７−１１のIndependent Ratingが必要とも（Williams, Klamen, McGhahie,２００３）

・Raterによって、訓練が不十分だったり、甘くつける人・厳しくつける人、Central tendency error、すべてのレンジのスコアを使わない、などあることが、Systematic Rater errorとなる（CIV）。

・甘い採点の人、厳しい人を考慮、Rater-errorを推定し、最終のRatingをFairにするソフトもあるらしい。

・Rating scaleがもっぱら使われることが多いが、質問項目がわかりやすくちゃんと伝わるように書けていないと不正確に（CIV）。

Face Validity

・よく使われてきた用語らしいが、現在ではHas NO place in literature of health professions educatorsだそう。

・色々な定義があるが、一つにはCommon sense的にテストの状況と現場の両方で測定可能であるものを見つけ測定することでテストのValidityを決めるというもの。

・Intended Construct（測定評価したいもの）を測定できるように見える評価法を使うので、例えばSP模擬患者試験であれば、病歴聴取とコミュニケーション能力が測定評価可能だろうと思える。

・これは評価法を考えるときに必要だとしても、Validity Evidenceとしては全くもって不十分。基本的には上記のMultiple Sources of Validity Evidenceを集めることでValidかどうかを判断する。

・Congruent or social-political meaningfulnessとも。

アメリカ内科医のゆううつ

このブログを検索

アセスメント①週目：評価におけるValidityについて

ラベル

コメント

コメントを投稿

このブログの人気の投稿

同僚がよくお世話になっているCureusというオープンアクセス・ジャーナル

KY（ケンタッキー）州ドライバーズライセンス（運転免許）を取得

アメリカで言語療法(スピーチセラピー)と作業療法(オキュペイショナルセラピー)を受けるべきか