スキップしてメイン コンテンツに移動

アセスメント①週目:評価におけるValidityについて

Assessment in health professions educationの1—2章
具体例のプレゼンの仕方が下手なのか新しいコンセプトがわかりにくい。

イントロ:用語の説明と概要

アセスメントの定義(Standards for educational and psychological testing);Any systematic method of obtaining info from tests and other sources used to draw inferences about characteristics of people, objects, or programs

George Miller’s Pyramid
   KnowsKnowledge
   Knows HowCompetence);Apply
   Shows HowPerformance):Simulationなど
   DoesAction

   ②はVerbal type Knowledgeが主

4つの主なアセスメント法
   Written tests
a.     CRConstructed-response tests(答えを書かせる問題)
b.     SRSelected-response tests(マルチプルちょいすなど)
   Observational of clinical Performance(臨床で用いられる)
   Performance testsOSCEなど)Simulationを独立させる人も多いが、この本ではここに入れる
   Miscellaneous:その他全て(VivasOral examなど)

アセスメントのToolbox
ACGMEの提供するToolbox of Assessment methodsの紹介
コンピテンシー評価に使える13の方法が推奨
   360度評価
   Chart simulated recallCSR):患者カルテを用いた標準化された口頭試験
   Checklist evaluationsYES/NOPerformanceを評価する
   Global ratings:スケールによるPerformanceの評価
   OSCE
   Logs
   Patient Surveys
   Portfolios
   Record Review:文書のSystematicなレビュー
   SimulationsModels
   Standardized Oral exam:あらかじめ用意された質問をきく
   SPStandardized Patient exam
   Written exam

指導と評価
一つの方法に絞ると一面しか測定できない。
Miller’s triangleのいろいろなレベルでの指導・評価をする方が良いという話

ほんで使用される用語の定義
Testは特定のアセスメントのタイプ
・数字の使用は、教育現場ではInterval scaleが圧倒的に多い。Ratio scaleはどんなにアホでもゼロを取る人はまずいないので、Ratioとは定義しない?理論的にゼロがあるので、なぜRatioでないかは理解できないが。

Fidelity to the Criterion
High-Fidelity Assessments—アセスメント自体がLifelikeAuthentic。より複雑なSimulatorなど。Low-fidelityWritten testなど。

Fidelityの概念は表面的なもの。Fidelityが高いからValidityが担保されるとかいう話では全くない。

Formative vs Summative アセスメント
Formativeはコース中にフィードバックを与える目的
Summativeはコース中に学んだことを測定・評価するためコース終了間際にするもの


Norm-referenced measurementCriterion-referenced
Norm—相対的な評価。他の生徒と比べてどうかというもの
Criterion—絶対的な評価、生徒がどれだけできるか測定するもの。Domain-referencedObjectives-referencedContent-referencedConstruct-referencedなど似た意味で使用されるMastery testingも特殊な例。
どの評価スコアもNormとしてもCriterionとしても使用可能


High-stakes vs Low-stakes Assessments
High-stakesはより試験を受ける人にインパクトのあるもの。医師国家試験など。
Low-stakesは臨床で個々が使用する評価などが全て入る

Large-scale vs small-scale(local) Assessments
国家試験レベルのものがLargeで、個々が使用するような評価がLocal


Validity of Assessment

スケール・レーティング・スコアなど教育現場でよく使われるが、その点数の解釈がValid出ないと数字自体には意味がない。

Validity – the evidence presented to support or refute the meaning or interpretation assigned to assessment data (Messick 1989)
Validity – has to do with a test measuring what it is supposed to measure.

Contemporary Validity Theory – 評価データを支持もしくは否定するために、仮説や理論を立てて、様々なデータソースからのscientific evidenceを集めて証明しようとする過程。
Validity evidenceTime and case specific

ConstructsConstruct Validityが唯一のValidityと考えられるほどに重要。社会科学におけるほぼ全ての評価は評価される人の行動から推測されるAbstract concepts and principleIntangibleな収集(Constructs)を扱うからだそう。

Cronbach(1955)は、ConstructA hypothesized attribute assumed to be tested by the Assessmentと定義した。エッセンスは捉えている表現。

Educational achievementConstructであり、このテキストでは基本この評価をどうするかを取り扱う。

Validity argumentー理論、関係、経験的Evidenceに関係し、ある特定の評価の使用や適応について、どの解釈がReasonableなのか、そうでないのかについて提案する(Kane 2006)。

The negative case—忘れられがちだが、マイナスなEvidenceがないかも重要という話。A proposition deserves some degree of trust only when it survived serious attempts to falsify it.

5つのSources of Validity Evidence

Validity refers to The degree to which Evidence and theory support The interpretations of Test scores entailed by proposed uses of testsAERA, APA, NCME 1999

Validity hypothesisはあるスコアなどの解釈に関して、支持するか否定するかのEvidenceが十分かに関する一連の命題(お互いに関連のある)としてテストされる。

   Content Evidence
a.     Blueprint:論理的な基礎として、Validity argumentに使える。テスト問題やPerformance項目についてOutlineを作り、Major, minor Content area含めどうリンクするのかを明確にする。各問題に対応するカテゴリーやサブカテゴリーの記載、カテゴリーごとの問題の割合、各問題のCognitivie levelRecallレベル、Applicationレベルなど。これがLearningObjectiveと一致していることも必要)
b.     Independent Content expertsがコースの内容に合っているかとそのレベルなどをチェックすべき
c.     Test Item QualityEvidenceに沿った問題の作り方が必要。内容が分かりにくかったりすれば一気に学習した内容の評価方としてはValidでなくなる。
   Response Process
a.     Evidence of data integrity such that all Sources of error associated with The test administration are controlled to The maximum extent possible
b.     Ensuring The accuracy of All Responses to Assessment promptsQuality control of all Assessment dataAppropriateness of methods used to combine various Assessment scores into one composite score
   Internal Structure
a.     Statistical characteristics of exam questions/Performance promptsGeneralizability and reproducibility
b.     Statistical analysisQuality control proceduresとして行われることが多い。テスト問題のDifficulty(正答率など)、DiscriminationHighスコアの人とLowスコアの人とちゃんと区別できているかなど)、Detailed count of The number/proportion of examinees who responded to each option of The test questionなど。
c.     Reliabilityも大事なValidity Evidenceの一部。Reproducibility
d.     GTGeneralizability Theory)がSP試験などのPerformance試験では重要だと説明あり。具体的な理論の説明がない…How well The specific samples of behavior cAn be generalized to The population…これではわからない
e.     IRTItem Response Theory):評価モデルそのものが役に立つという話。これも具体性に欠ける。
f.      Bias analysisDIF:Differential Item Functioningなど)もここに入る
   Relations to Other Variables
a.     Statistical and correlational
b.     ある評価・測定法について、よく知られた特徴を持つ、既存の古い測定法との比較で持ってValidityを調べる
   Consequences of Testing
a.     Controversialな考えらしい
b.     Impact of Assessment scores on examineesTeaching and Learningのこと
c.     医師国家試験などHigh-stakes試験などは個人への影響も計り知れないのでそれもValidityの際に考慮すべき項目としている。

少なくとも2つ以上のValididy Evidenceのソースがあると良い。High-stakes試験などはできる限り多くなければいけないが。

二つのThreats to ValidityMessick 1989
   CUConstruct UnderrepresentationUndersamplingBiased samplingなど
   CIVConstruct-Irrelevant VarianceConstructと関係しないVariablesが測定されてしまうことで生じるSystematic errorで、問題文が難解すぎて正答率が下がるとか、簡単すぎたり難しすぎたりでできる人とできない人との区別ができてないとか(Discriminating)、テスト内容を使って教えてしまっているなど。

Threatsが起こる状況
筆記試験:Learning ObjectiveやセッションではApplicationProblem solvingを目標に教えたのに、試験ではRecallだけを聞く問題ばかりなどCognitive levelに不一致がある場合(CU)。CIVはデータのNoiseのようなもの。教えた内容・試験する内容(Construct)と関係しないものを質問・測定してしまう(CIV)。Discriminationがうまくいっていない(CIV)。問題自体がちゃんとできてない(CIV)。テスト内容について教えてしまっている(Teaching to Test)(CIV)。Reading levelが難解すぎる(特にNativeSpeakerでない人)(CIV)。

Performance examSPがちゃんと訓練されていて、SPが使うチェックリストがちゃんと評価・吟味されていて、SPがいつも誰でも同じようなスコアをつけているかモニター・修正することなど説明あり。

Ratings of clinical Performance臨床ではこれが主に使用される。
・観察が少ないと、CU Threatが起こる。Generalizableなデータを取るには7−11のIndependent Ratingが必要とも(Williams, Klamen, McGhahie,2003)
Raterによって、訓練が不十分だったり、甘くつける人・厳しくつける人、Central tendency error、すべてのレンジのスコアを使わない、などあることが、Systematic Rater errorとなる(CIV)。
・甘い採点の人、厳しい人を考慮、Rater-errorを推定し、最終のRatingFairにするソフトもあるらしい。
Rating scaleがもっぱら使われることが多いが、質問項目がわかりやすくちゃんと伝わるように書けていないと不正確に(CIV)。

Face Validity
・よく使われてきた用語らしいが、現在ではHas NO place in literature of health professions educatorsだそう。
・色々な定義があるが、一つにはCommon sense的にテストの状況と現場の両方で測定可能であるものを見つけ測定することでテストのValidityを決めるというもの。
Intended Construct(測定評価したいもの)を測定できるように見える評価法を使うので、例えばSP模擬患者試験であれば、病歴聴取とコミュニケーション能力が測定評価可能だろうと思える。
・これは評価法を考えるときに必要だとしても、Validity Evidenceとしては全くもって不十分。基本的には上記のMultiple Sources of Validity Evidenceを集めることでValidかどうかを判断する。
Congruent or social-political meaningfulnessとも。


コメント

このブログの人気の投稿

同僚がよくお世話になっているCureusというオープンアクセス・ジャーナル

Cureusに毎月のように同僚がケースレポートを出している件 「俺、この数か月で7つケースレポート出版した」 という信じられない言葉を耳にした時も「いや無理でしょ」と思ったが 同期の(主に外国人医師)同僚に頼まれ、とりあえず「レビューアー」だけやってみることに。 サイトからアカウントを作って、すぐに登録は無料で簡単♪ (注:宣伝ではありません) どうやら、論文執筆するか、レビューするかでポイントがたまるらしい。 インパクトファクターはないからとりあえず 戦闘力 みたいなものをつけてるのかしら? 一番、驚きなのは同期の人曰く、論文を提出した人がレビューアーを3人くらいまで「 指定 」できること。 普通レビューアーを編集者に「提案」することはあっても、「指定」はできない。  そして、さらに3-4人ほど、編集者から関係ないレビューアーへ依頼が行くらしい。 (自分がファースト・オーサーで使うことはよほどのことがないと使わなそうなので、ほんとかどうかは知らないし、同僚のためにも調べないことにした) でも、6-7人がレビューするうち、 約半分はフレンドリーなコメントが来る ってことだと想像している🙊 早速、2件ほどケースレポートのレビューを丁寧にしたが 1つは、30か所以上コメントする始末。突っ込みどころ満載。この人からはレビューアー評価★5もらえたが。 1つは、15か所ほど指摘。 どちらも症例自体はよいんだけれど、こんなの世に出してる場合じゃない。さすがに、これからはレビューアーとしては敬遠されるかな。 最近初めてCureusで症例報告を出版した同僚が言っていた 「 2-3日で審査が終わって、指摘されたところをアップデートしたらアクセプト、そのままオンラインで出版された 」  え?6-7人の審査がそんなに早く終わったの? と聞いたところ 全くコメントせずに提出するレビューアーも中にはいるらしい😱 なるほど、確かにレビューもとても簡単で、オンラインで直接文章にメモとして書き込めるようになっており、「SUBMIT」を押して、最後の総括コメントいれて終わり だから、そういう人が出てくるのも致し方ないか? だからそんな多くのレビューアーにお願いするのだろうと想像している ...

KY(ケンタッキー)州ドライバーズライセンス(運転免許)を取得

さてさてどっぷり5月病にはまってしまい、日記を書くこともおざなりになってしまっている今日この頃 最近ケンタッキー州の運転免許を取得したので記録 NY州で取得した免許をWI州に移すときは書類提出だけで済んだと記憶しているが KY州はビザ持ちの場合、書類、筆記試験、路上試験と一からやり直さなくては免許が取れない。つまり、免許の移行というものができないらしい。 6月まで使っていた臨床トレーニング用Jビザは、一年ごとの更新のため、運転免許証もビザの期限に合わせて期限が1年になっているのがつらいところ。 7月に引っ越してすぐにWI州の免許が期限切れで使えなくなってしまうのだ   そのため6月に日本に一時帰国した際に、地元の運転免許センターで国際免許証を取得しておいた 期限は一年間で、これでケンタッキー州の運転免許をとるまで1年間の猶予が与えられることになる 元J2の妻は、NYにいたときに就労許可証を取得していた経緯があったので(結局働くことはなかったが)、ソーシャルセキュリティナンバーを持っており あとは、仕事の契約書か給与明細と、電気やガス代などのUtility関係の請求書さえあれば申請可能な状態だった   ガスかなにかの請求書に妻と自分の名前を併記してもらうようにお願いし まつこと、、、 2か月、ようやく請求書が手元に届き   市の運転免許センターらしきところへ 受付窓口に並んでいると、アメリカ国民でなければ違う窓口でまずは書類審査をうけろと言われた(入口入ってすぐにあるドアから入る) 同じ建物内の、違うドアから入り、狭い待合室で待たされたのち なにか書類を持たされ、通常の受付へと通された そのあとはしばらく待った後に、筆記試験を受けてその日は終了 筆記試験は、一問解くごとに正解不正解が分かるようになっており、親切だったが 当日の朝に、ネットで練習問題を一度見ただけの知識では結構難しい問題も普通にあった 僕らは国際免許証を持っていたためかLearner Permitというものはもらえなかった 帰り際に路上試験の予約をしようとしたが、次の週までの予約しかとっておらず 後日電話にて予約をとった(なかなか電話にでてくれず苦労した) ジョークのような ...

アメリカで言語療法(スピーチセラピー)と作業療法(オキュペイショナルセラピー)を受けるべきか

アメリカの健診で、子供の言葉の遅れを指摘された。セラピーを受けるべきか? 自分の身に起こったことだが 、言葉が遅れているからセラピーを勧められても、一人目の子供だと特にどうしたらいいか分からない。 結論としては、「とりあえず受けてみる」べきだと思う。 その時はマンハッタンに住んでいたので、家では日本語、デイケアにも入れる余裕はなく(週2で月1000どる越えとか今でも無理)英語を話す子供との触れ合いも少なく、言葉が遅れるのは半ば必然の状況でもあった。 しかし、小児科の先生も「バイリンガルの環境だと遅れることはよくあります」と事情を汲んだうえでセラピーの評価だけでも勧められたので 言われたように州が運営するBirth to threeに連絡。スムーズに手続きが進み(聴覚検査はやらされたか)、最初の言語聴覚士評価 に向かった。 若い言語聴覚士の人があの手この手で一緒に遊んでくれ、言葉を引き出していた。 こんな方法があったのか! といろいろな発見や学びがあったのに驚いた。普段遊んでいても出さないような音を真似して発していた。  そして評価が終わってセッションが始まる前にWI州に引っ越し WI州のBirth to threeの評価をまた受けるのであった。 各州に3歳未満のためのBirth to threeプログラム、3歳以上は各学区(スクールディストリクト)が運営するプログラムがあるはずだが(義務らしい)、それぞれシステム、プログラム、費用負担が違うので確認が必要   有効かどうか見極めるためにもまずは連絡をとることから始めるべき そして、パブリックのサービスがうまく都合にあわなければぷプライベートのセラピークリニックをプライマリケアから紹介してもらうことも可能である。   アメリカの子供の発達支援のシステムとクオリティは日本よりもだいぶ個別化されており良質である(と感じる)  日本でセラピーを受けたことはないので完全な比較はできない。保健師として地域母子保健を仕事にしていた妻から聞くに、日本では、例えば1歳半健診は、多くの子供を一堂に集めて一気にスクリーニングする。効率とコストの面では圧倒的に優れているこのシステム、裏を返すとすごく「雑!」なシステム。 ...