摘要
产品评估不是一个“单一分数”。它是一个流程:定义可衡量的标准,收集证据,陈述价值权重,并报告不确定性。没有明确的标准,评估就会隐藏假设,变成说服而非分析。[^1][^2]
1. 评估 = 测量 + 价值模型
在多标准情境下,你需要:
-
可操作性定义(测量什么,如何测量),
-
可复现的方法(测试协议),
-
明确的权重(用户看重什么)。
这与选择逻辑学的 A2 和 T1.2 一致:权重是条件性的,评测内嵌了假设 — A2 条件主观性公理 · T1.2 推论
2. 证据层级(实践性)
不同的问题需要不同类型的证据:
-
实验室测量(电池续航、吞吐量),
-
长期可靠性数据(若有),
-
实地研究和用户小组(可用性)。
3. 英语世界背景下的标准
许多领域依赖于知名的标准机构和测试方法:
-
ISO/IEC 针对系统和技术属性(视领域而定)
-
ASTM 针对材料和测试方法(视领域而定)
-
NIST 针对安全相关声明的指南
标准可作为有用的基准,但它们并非“普适的最佳选择”,其相关性取决于用户的需求(A2)。
参考文献
- Akerlof, G. A. (1970). The market for “lemons”: Quality uncertainty and the market mechanism. Quarterly Journal of Economics, 84(3), 488–00.[source]
- Popper, K. R. (1959). The Logic of Scientific Discovery. Routledge. (Original work published 1935)[source]
- Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–02.[source]
- Longino, H. E. (1990). Science as Social Knowledge: Values and Objectivity in Scientific Inquiry. Princeton University Press.[source]
- Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.[source]
- Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50(9), 741–49.[source]
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.[source]
- International Organization for Standardization. (2015). ISO 9000:2015 Quality management systems — Fundamentals and vocabulary.[source]
- Keeney, R. L., & Raiffa, H. (1993). Decisions with Multiple Objectives: Preferences and Value Tradeoffs. Cambridge University Press.[source]