概要
製品評価は「単一のスコア」ではありません。それは、測定可能な基準を定義し、証拠を収集し、価値の重み付けを明示し、不確実性を報告するという一連のプロセスです。明確な基準がなければ、評価は前提を隠蔽し、分析ではなく説得になってしまいます。[^1][^2]
1. 評価 = 測定 + 価値モデル
多基準設定では、以下が必要です:
-
操作的定義(何を、どのように測定するか)、
-
再現可能な方法(テストプロトコル)、
-
明確な重み付け(ユーザーが何を価値あるものと見なすか)。
これは選択論理学のA2とT1.2に合致しています。重み付けは条件的であり、レビューには前提が埋め込まれています — A2 条件付き主観性公理 · T1.2 系
2. 証拠の階層(実践的)
異なる問いには、異なる証拠が必要です:
-
ラボでの測定(バッテリー寿命、スループット)、
-
長期信頼性データ(入手可能な場合)、
-
フィールド調査とユーザーパネル(ユーザビリティ)。
3. 英語圏における標準規格
多くの分野では、よく知られた標準化団体や試験方法に依存しています:
-
ISO/IEC:システムおよび技術的特性(分野依存)
-
ASTM:材料および試験方法(分野依存)
-
NISTガイダンス:セキュリティ関連の主張
標準規格はベースラインとして役立ちますが、「普遍的な最善」ではありません。妥当性はユーザーのニーズに依存します(A2)。
参考文献
- Akerlof, G. A. (1970). The market for “lemons”: Quality uncertainty and the market mechanism. Quarterly Journal of Economics, 84(3), 488–00.[source]
- Popper, K. R. (1959). The Logic of Scientific Discovery. Routledge. (Original work published 1935)[source]
- Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–02.[source]
- Longino, H. E. (1990). Science as Social Knowledge: Values and Objectivity in Scientific Inquiry. Princeton University Press.[source]
- Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.[source]
- Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50(9), 741–49.[source]
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.[source]
- International Organization for Standardization. (2015). ISO 9000:2015 Quality management systems — Fundamentals and vocabulary.[source]
- Keeney, R. L., & Raiffa, H. (1993). Decisions with Multiple Objectives: Preferences and Value Tradeoffs. Cambridge University Press.[source]