You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

895 lines
53 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

[
{
"question": "概率论和统计学的研究对象是什么?",
"ground_truth": "研究发生可能性有规律的随机现象,即“随机事件”,用概率度量其发生可能性大小。"
},
{
"question": "如何理解随机现象?",
"ground_truth": "随机现象指同样条件下,发生过的事物可能发生,也可能不发生,可能以这种程度发生,也可能以那种程度发生的不确定现象。"
},
{
"question": "如何理解随机试验?",
"ground_truth": "随机试验指针对客观事物,在相同条件下可以重复进行的调查、观察或实验。"
},
{
"question": "如何理解样本点与样本空间?",
"ground_truth": "随机试验可能出现的结果称为样本点,样本点全体构成样本空间。"
},
{
"question": "如何理解随机事件?",
"ground_truth": "发生可能性大小可以度量的随机现象称为随机事件,随机事件是样本空间的子集。"
},
{
"question": "如何理解概率?",
"ground_truth": "随机事件发生可能性大小的度量称为概率,概率是随机现象固有属性。"
},
{
"question": "如何理解总体与样本?",
"ground_truth": "总体是数据产生的背景,样本是基于背景收集到的具体数据。"
},
{
"question": "如何理解随机变量?",
"ground_truth": "随机变量本质上是定义在样本空间上的映射,涉及集合与集合的对应。"
},
{
"question": "在表达随机事件时,随机变量具有怎样的作用?",
"ground_truth": "借助随机变量,可以更清晰地表述样本和总体之间的关系,展现通过样本认识总体的统计推断过程。"
},
{
"question": "一般情况下如何研究总体?",
"ground_truth": "通常而言,一种方法是建立假设,通过随机变量的背景建立假设,基于假设推导出随机变量的分布;一种方法是进行估计,通常是对总体抽取样本,通过样本对分布列中的概率进行估计。"
},
{
"question": "如何理解总体均值与样本均值?",
"ground_truth": "总体均值表达了随机变量取值的集中趋,基于样本计算的样本均值是总体均值的估计。"
},
{
"question": "如何理解总体方差与样本方差?",
"ground_truth": "总体方差表达了随机变量取值对于总体均值的离散程度,基于样本计算的样本方差是总体方差的估计。"
},
{
"question": "如何理解离差?",
"ground_truth": "离差指样本值减去样本均值,表示样本值和样本均值之间的差异。"
},
{
"question": "如何理解离差平方和?",
"ground_truth": "对所有离差平方求和得到离差平方和,表示这组样本对样本均值的离散程度。"
},
{
"question": "如何理解统计推断?",
"ground_truth": "统计推断是对随机现象决策的判断,这样的判断没有对错之分,只有好坏之分。"
},
{
"question": "统计推断的基础和主要内容是什么??",
"ground_truth": "统计推断的基础是数据,主要内容包括估计、检验和预测,如通过样本频率估计概率。"
},
{
"question": "拉普拉斯关于概率定义的简洁版本是什么?",
"ground_truth": "概率是一个分数,其分子是有利情况的数目,分母是所有可能情况的数目。"
},
{
"question": "如何理解古典概型?",
"ground_truth": "样本空间中的元素个数是有限的,每个元素都是不可分割的基本事件,基本事件概率相等的概率模型即古典概型。"
},
{
"question": "统计学的研究基础是什么?",
"ground_truth": "统计学的研究基础是数据,可以认为总体是数据产生的背景,样本是基于背景收集到的具体数据。"
},
{
"question": "如何理解随机变量的两重性?",
"ground_truth": "用y表示随机试验的取值随机试验前具体取值未知故y是一个随机变量但随机试验后可以得到一个具体的数值。称这样的特性为随机变量的两重性。"
},
{
"question": "数学与统计学的区别是什么?",
"ground_truth": "数学更侧重于科学,强调确定性和因果关系,统计学是科学,但更侧重于艺术,强调或然性和相关关系。"
},
{
"question": "统计学的思想方法是什么?",
"ground_truth": "统计学从现实的角度研究事件,在大多数情况下,借助归纳推理获得统计推断的结论。"
},
{
"question": "为什么要把百分数纳入统计的内容?",
"ground_truth": "百分数是人们常用的随即决策工具,将百分数纳入‘统计与概率’领域可以帮助学生感知随机决策的重要性,知道随机决策流程。"
},
{
"question": "随机决策的基本流程是什么?",
"ground_truth": "随机决策往往需要事先制定进行决策的原则、或者、判断决策好坏的标准,然后用数学的语言进行表达。"
},
{
"question": "现代科学对分类研究的需求是什么?",
"ground_truth": "大体上有主动的和被动的两方面需求,所谓主动的,是因为只有基于合适标准的分类,才可能得到具有相对共性的、相对稳定的方法或结论;所谓被动的,是因为大数据分析的需要,对数据进行分类研究不仅是方便的、甚至是必须的。"
},
{
"question": "传递性计算逻辑的弱点是什么?",
"ground_truth": "这种强依赖前序结果的计算逻辑无法并行化,对于统计学而言,很难进行累加数据计算,不利于大数据分析。"
},
{
"question": "分布式的计算逻辑是什么?",
"ground_truth": "将数据分组并行处理,并设计合并算法整合结果;或基于对前一个时间数据的实时计算,创造合理的计算方法,把实时计算结果融合前个时间至今的新数据计算,得到新的结果。"
},
{
"question": "什么是即时计算?",
"ground_truth": "在分步式计算中,使用的不是前一时刻的所有数据、而是前一时刻的计算结果的计算形式,称为即时计算。"
},
{
"question": "如何理解加权平均?",
"ground_truth": "加权平均是离散型随机变量的数学期望、或者说、是离散型随机变量的总体均值。"
},
{
"question": "加权平均的定义是什么?",
"ground_truth": "假设一个随机变量X有k个可能取值分别是a1ak对应的取值概率分别为w1wk那么加权平均就是这个随机变量的数学期望μ=EX=a1w1+…+akwk。"
},
{
"question": "加权平均中的权指的是什么?",
"ground_truth": "这里的权是指离散型随机变量可能取值的概率或频率。"
},
{
"question": "加权平均和几何平均的区别是什么?",
"ground_truth": "加权平均是加法运算的平均,几何平均是乘法运算的平均。"
},
{
"question": "调和平均数的定义是什么?",
"ground_truth": "对于给定的n个正数a₁,…,aₙ称n/(1/a₁,+....+1/aₙ)为这n个数的调和平均。"
},
{
"question": "如何理解加权平均、几何平均和调和平均在集中趋势表达上的差异?",
"ground_truth": "加权平均表达并行问题的集中趋势,几何平均表达串联问题的集中趋势,调和平均表达平行路径的集中趋势。"
},
{
"question": "加权平均、几何平均和调和平均在值的大小上具有怎样的关系?",
"ground_truth": "对于同样的一组取正值的数据,加权平均 ≧ 几何平均 ≧ 调和平均。"
},
{
"question": "加权平均、几何平均和调和平均的缺点是什么?",
"ground_truth": "这三种平均都容易受到极端数据的影响,也就是说,如果出现特别大或者特别小的数值,会很大程度地影响计算结果。"
},
{
"question": "使用加权平均、几何平均或调和平均需要什么样的假设?",
"ground_truth": "对于统计学而言,就是假设数据独立同分布地来源于同一个总体、或者说、来源于同一个背景。"
},
{
"question": "定性数据主要包括哪几种?",
"ground_truth": "定性数据主要包括名义数据和顺序数据两种数据。"
},
{
"question": "如何理解名义数据?",
"ground_truth": "名义数据是一种数字表达,但只是一种类别的代表,适用于分类、不适用于运算,名义数据又可以分为命名数据和标记数据。"
},
{
"question": "如何理解社会调查?",
"ground_truth": "社会调查是认识和分析社会现象的重要手段,大体是经历剖析具体、获得一般的思维过程,因此隶属于归纳推理。"
},
{
"question": "在设计调查问题时,对于过于宏观的问题应该如何处理?",
"ground_truth": "对于过于宏观的问题,需要把问题分解为若干个部分,针对每一个部分提取具体要素,基于这些要素提出容易回答的问题,然后获取数据、形成知识。"
},
{
"question": "在设计调查问题时,对于涉及个人隐私的问题应该如何处理?",
"ground_truth": "对于涉及个人隐私的问题,需要设计变通的提问方法,使得被调查者能够无所顾忌地回答问题。"
},
{
"question": "如何理解数字化?",
"ground_truth": "数字化是指将信息转变为可以用计算机处理的数字格式,相较于传统模拟信号,数字格式的信息传递更稳定可靠,是大数据处理的必要手段。"
},
{
"question": "在当下什么样的数据可以称为海量数据?",
"ground_truth": "一是数据如海潮般不断涌现,二是数据如海水般无穷无尽,人们称这样的数据为海量数据。"
},
{
"question": "如何理解大维数据?",
"ground_truth": "大维数据是指,对于向量形式的数据,其数据个数小于、甚至远远小于向量的维数。"
},
{
"question": "什么是大数据?",
"ground_truth": "大数据与海量数据不同,大数据不仅量大、并且维数高,是海量数据时代不可比拟的。"
},
{
"question": "为何说大数据价值稀疏?",
"ground_truth": "网络数据混杂冗余调查报告显示社会每天产生的25亿GB数据中仅不到0.5%有分析价值。"
},
{
"question": "网络数据的重要特征是什么?",
"ground_truth": "网络数据的重要特征包括数据价值稀疏、数据结构复杂以及数据多源动态。"
},
{
"question": "网络数据结构的复杂性来自哪些方面?",
"ground_truth": "网络数据结构的复杂性主要来自三个方面,包括网络结构的复杂、网络数据类型的复杂以及网络数据关系的复杂。"
},
{
"question": "网络数据的动态性体现在哪些方面?",
"ground_truth": 网络数据的动态性主要体现在三个方面,包括以数据流的方式涌现、以轨迹移动的方式显现和以网络结构的变化的方式呈现。"
},
{
"question": "什么是信息熵?",
"ground_truth": "信息熵是以概率为权的加权平均用n表示所有可能结果个数Pk表示第k个信息出现概率表达式为 -Σ(Pk·log₂Pk) 。"
},
{
"question": 如何理解比特?",
"ground_truth": 比特是最简单的、也是最基本的信息形式是在两个可能结果中随机概率相等选择一个结果的记录这时一次选择的结果所需要的信息量即为1比特。"
},
{
"question": 信息的本质特征是什么?",
"ground_truth": 信息的本质特征是指信息源发出的信息是随机的。或者更确切地说,信息源发出的信息本身是确定的,但对于信息的接受者,在未收到信息之前,不能确定信息源发出的信息是什么,因此是随机的。"
},
{
"question": K-L距离的大小和概率分布之间具有什么关系",
"ground_truth": K-L距离是用以度量获取信息与原始信息之间的差异的信息熵K-L距离越小说明两个概率分布越接近。"
},
{
"question": "K - L距离有哪些性质",
"ground_truth": "K - L距离对任何概率分布均不为负当两个概率分布相同时距离为0距离越小说明两个概率分布越接近不满足对称性和三角不等式。"
},
{
"question":如何理解随机决策 ",
"ground_truth":随即决策常指对随机发生的事情进行决策,其最可靠的依据是数学度量即概率估计。"
},
{
"question":社会调查需要特别关注什么问题 ",
"ground_truth":获取的信息是否尽可能反应全貌,如何获取看似得不到的信息。"
},
{
"question": "后工业时代的显著特征是什么?",
"ground_truth": "寻求新型能源,保护生态环境。"
},
{
"question": "什么是随机指标?",
"ground_truth": "人们用基于概率的公式度量现实生活中随机现象发生的程度,这种度量称为随机指标。"
},
{
"question": "度量生物多样性的代表性指标有哪些?",
"ground_truth": "香农-维纳多样性指数和辛普森多样性指数是度量生物多样性的代表性指标。"
},
{
"question": "香农-维纳多样性指数的表达式是什么?",
"ground_truth": "假设群落有n个物种第k个物种存在概率为pk表达式H=-Σ(pk·lnpk)。"
},
{
"question": "香农-维纳多样性指数有什么意义?",
"ground_truth": "作为权为概率的加权平均,可刻画生物多样性,随物种数增加而变大,物种数量均衡时达最大。"
},
{
"question": "如何估计香农-维纳多样性指数?",
"ground_truth": "若在群落抽取M个样本第k个种群数量为Mk估计式为H=-Σ((Mk/M)·ln(Mk/M))。"
},
{
"question": "辛普森多样性指数的表达式是什么?",
"ground_truth": "假设群落有n个物种第k个物种存在概率为pk表达式为S=1-Σ(pk²)。"
},
{
"question": "如何估计辛普森多样性指数?",
"ground_truth": "若在群落抽取M个样本第k个种群数量为Mk估计式为S=1-Σ((Mk/M)²)。"
},
{
"question": "辛普森悖论是什么?",
"ground_truth": "辛普森悖论指基于整体数据判断得到的结论与基于分层数据判断得到结论不同引发的悖论。比如,某种药疗效的判断,分析男女生分组数据得到有效结论,分析全体数据得到无效结论"
},
{
"question": "如何理解抽象结构?",
"ground_truth": "抽象结构用以表征数学的研究对象,其本质是对研究对象及其性质、关系的抽象概括。"
},
{
"question": "我国普通高中数学课程标准是如何表述数学这一概念的?",
"ground_truth": "数学是研究数量关系和空间形式的科学,源于对现实世界的抽象,基于抽象结构,通过符号运算、逻辑推理、模型构建等,理解表达现实世界本质、关系和规律。"
},
{
"question": "抽象结构与大学数学的结构化有哪些具体对应例子?",
"ground_truth": "“集合+运算律”形成域,群,环等抽象代数,“集合+测度”形成实变函数,概率论等分支,“集合 + 距离”形成不同距离的几何空间等。"
},
{
"question": "数学研究和科学研究有哪些区别和联系?",
"ground_truth": "二者的研究问题最初都源于现实、最初概念出自经验;区别是验证方式不同,科学通过现实验证,数学通过思辨验证。"
},
{
"question": "数学模式和抽象结构有哪些关联?",
"ground_truth": "抽象结构表征数学研究对象,数学模式表征研究结果,二者相容形成数学,关联密切。"
},
{
"question": "数学模式和数学模型的相同点是什么?",
"ground_truth": "二者都是基于数学语言的一般化的东西,都可作为认识、理解、表达问题的思想和方法。"
},
{
"question": "数学模式和数学模型的区别是什么?",
"ground_truth": "数学模式针对数学内部,用于认识、理解、表达数学问题;数学模型针对数学外部,用于认识、理解、表达现实问题。"
},
{
"question": "现代计算机技术如何影响数学研究?",
"ground_truth": "改变传统研究流程,使研究对象变为现实数据,研究目的变为提炼信息,验证方法变为参照同类数据。"
},
{
"question": "什么是数学模型?",
"ground_truth": "数学模型是用数学的语言讲述现实世界的故事,更侧重于描述现实世界中的规律性东西,属于数学应用范畴。"
},
{
"question": "数学模式可分为哪两类?",
"ground_truth": "一类是基于文字表达的,包括数学定义和命题;一类是基于算式表达的,包括函数和方程。"
},
{
"question": "构建数学模型的出发点是什么?",
"ground_truth": "从数学和现实这两个出发点开始,基于此规划研究路径、构建描述用语、验证研究结果、解释结果含义,得到描述现实世界规律的结论。"
},
{
"question": "数学模型的教学应让学生经历哪些步骤?",
"ground_truth": "经历基于现实的抽象过程、用数学语言表达变量关系形成模型、计算结果并解释现实问题三个步骤。"
},
{
"question": "如何验证数学模型的正确性?",
"ground_truth": "验证更侧重于对现实问题的解释,而非仅数学论证,价值体现于描述现实世界的作用。"
},
{
"question": "数学模型与数学应用的区别是什么?",
"ground_truth": "数学应用范围宽泛,泛指用数学解决现实问题;数学模型更侧重描述现实世界的规律性。"
},
{
"question": "如何理解伽利略所创立的现代科学研究路径?",
"ground_truth": "通过现象分析建立假说,借助数学语言表达假说,通过观测或者实验验证假说。"
},
{
"question": "数学模型对数学发展有何贡献?",
"ground_truth": "数学模型构建了数学与现实世界的桥梁,为数学家提供“创造数学”的灵感,是现代数学健康发展的重要源泉。"
},
{
"question": "如何避免数学学科退化?",
"ground_truth": "注重数学与现实世界的联系,而数学模型是实现这种联系最重要的途径。"
},
{
"question": "数学模型的教学目标是什么?",
"ground_truth": "引导学生从数学和现实问题角度思考,激发学习兴趣,提升应用意识和创新意识。"
},
{
"question": "数学模型的价值取向是什么?",
"ground_truth": "数学模型的价值取向往往不是数学本身,而是其在描述现实世界中所起到的作用。"
}
##########概统陈竺##########
{
"question": "什么是百分位数?",
"ground_truth": "一般地一组数据的第p百分位数是这样一个值它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100p)%的数据大于或等于这个值."
},
{
"question": "什么是四分位数?",
"ground_truth": "四分位数是将一组有序数据分成四等份的三个数值,用于描述数据的分布特征,反映数据的集中和离散情况。具体来说:第一四分位数(记为 又称下四分位数是数据中处于25%位置的数值即有25%的数据小于或等于它;第二四分位数(记为 也就是中位数处于50%位置;第三四分位数(记为 又称上四分位数处于75%位置有75%的数据小于或等于它."
},
{
"question": "举例说明如何求四分位数?",
"ground_truth": "例如数据按从小到大排列为135791113
m50中位数是第4个数7
m25是前半部分135的中位数3
m75是后半部分91113的中位数11
"
},
{
"question": "什么是箱线图?",
"ground_truth": "箱线图是一种统计图表,用于展示数据集的集中趋势和离散情况。它主要显示数据的五个统计量:最小值、下四分位数、中位数、上四分位数和最大值.通过箱线图,可以直观地观察数据的分布特征、对称性以及异常值."
},
{
"question": "箱线图有什么优势?",
"ground_truth": "1不受异常值的影响可以以一种相对稳定的方式描述数据的离散分布情况2“箱体”可以直观看出中位数与下四分位数和上四分位数的距离3“箱体”越高方差越大4计算量小易于比较多组数据的分布情况"
},
{
"question": "常见的数据类型有哪些?",
"ground_truth": "1定类数据表现为类别但不区分顺序不可运算是由定类尺度计量形成的 ”性别“,”天气” 2定序数据表现为类别但有顺序不可运算是由定序尺度计量形成的.如:“受教育程度”、“空气质量的等级” 3定距数据表现为数值可进行加、减运算是由定距尺度计量形成的没有绝对零点. 如温度、年份4定比数据表现为数值可进行加、减、乘、除运算是由定比尺度计量形成的有绝对零点没有负数. 如:长度、高度、利润、薪酬、产值等.这四类数据的等级逐渐升高."
},
{
"question": "什么是定性数据?",
"ground_truth": "定性数据是用于描述事物属性、特征或类别的非数值型数据,无法用具体数值衡量,而是通过文字、符号或类别来表达。它能反映事物的性质、状态或分类,是理解事物本质和特征的重要数据类型,在社会科学、市场调研、医疗等多个领域应用广泛."
},
{
"question": "定性数据有哪些类型?",
"ground_truth": "定性数据包括名义数据和顺序数据.名义数据包括命名数据和标记数据:事物的表达和属性的标记 ;顺序数据提供的有效信息可用于随机决策."
},
{
"question": "什么是定量数据?",
"ground_truth": "定量数据是指可以用数值来衡量和表示的数据,它通过具体的数字来描述事物的数量特征、规模、程度等,能够进行数学运算和统计分析。这种数据的核心特点是可量化性,即可以被精确地测量和计数."
},
{
"question": "定量数据有哪些类型?",
"ground_truth": "根据数据的性质,定量数据可分为两类:离散型数据:只能取特定的数值,通常是计数的结果,数值之间存在间隔,无法无限细分.例如学生人数、每月的订单数量;连续型数据:可以取某一区间内的任意数值,能够无限细分,通常是测量的结果.例如人的身高、物体的温度."
},
{
"question": "常用的平均数有哪几类?",
"ground_truth": "常用的平均数主要有算术平均数、加权平均数、几何平均数和调和平均数等."
},
{
"question": "什么是算术平均数?适用场景有哪些?",
"ground_truth": "一组数据中所有数据之和除以数据个数的结果是最常用的平均数对于一组数据x1x2xn算术平均数的公式为\[
\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n}
\].适用场景:数据分布均匀、无极端值时使用,如计算班级平均分、平均身高."
},
{
"question": "什么是加权平均数?适用场景有哪些?",
"ground_truth": "考虑不同数据的权重重要性后计算的平均数权重反映数据的占比或影响力对于一组数据x1x2xn对应的权重为w1w2wn权重和为1或非1均可加权平均数 的公式为:\[
\bar{x} = \frac{w_1x_1 + w_2x_2 + \dots + w_nx_n}{w_1 + w_2 + \dots + w_n} = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}
\] .适用场景:数据重要性不同时使用,如成绩计算(平时分占 30%,期末分占 70%)、股票指数计算."
},
{
"question": "什么是几何平均数?适用场景有哪些?",
"ground_truth": "n 个正数乘积的 n 次方根用于反映数据的平均增长或比例关系对于正数x1x2xn几何平均数G的公式为\[
G = \sqrt[n]{x_1 \cdot x_2 \cdot \dots \cdot x_n} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}
\].适用场景:计算平均增长率、比率平均(如投资收益率、人口增长率),或数据呈倍数关系时."
},
{
"question": "什么是调和平均数?适用场景有哪些?",
"ground_truth": "各数据倒数的算术平均数的倒数,常用于处理 “速率”“密度” 等与分母相关的平均问题对于正数x1x2xn调和平均数H的公式为 \[
H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \dots + \frac{1}{x_n}} = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}
\].适用场景:计算平均速度(如往返路程的平均速度)、平均成本(如不同价格的采购平均成本)等."
},
{
"question": "反应数据集中趋势的统计量有哪些?",
"ground_truth": "反应数据集中趋势的统计量主要用于描述数据向某一中心值聚集的程度,常见的包括平均数类(如算术平均数、加权平均数等)、中位数和众数."
},
{
"question": "平均数的优缺点分别是什么?",
"ground_truth": "平均数的优点:计算简单且直观、能利用全部数据信息、适合代数运算、便于后续统计分析(如方差、回归分析等).缺点:易受极端值影响、不适用于偏态分布."
},
{
"question": "中位数优缺点分别是什么?",
"ground_truth": "中位数的优点:不受极端值干扰、无需复杂公式,排序后即可确定.缺点:未利用全部数据信息、适合代数运算、样本量较小时中位数可能无法准确代表整体分布."
},
{
"question": "众数的优缺点分别是什么?",
"ground_truth": "众数的优点:适用于分类数据、反映数据的 “典型性”、不受极端值影响.缺点:可能不存在或不唯一、信息利用不充分、对连续数据代表性差."
},
{
"question": "刻画数据离散程度的常用统计量有哪些?",
"ground_truth": "刻画数据离散程度的常用统计量主要用于衡量数据的分散性或波动性.常用的有:极差、标准差、方差、离差平方和、四分位距、平均绝对偏差、变异系数等."
},
{
"question": "什么是离差平方和?",
"ground_truth": "离差平方和Sum of Squared Deviations简称平方和指一组数据中每个数据点与该组数据均值的差的平方之和对于一组数据x1x2xn均值为 ,离差平方和为:\[
SSE = \sum_{i=1}^{n} (x_i - \bar{x})^2
\] .离差平方和是统计学中用于衡量数据离散程度的重要概念,其核心是通过计算每个数据点与均值的偏差平方之和,来反映数据的波动或分散情况."
},
{
"question": "用离差平方和对数据进行分组的依据是什么?",
"ground_truth": "使用离差平方和对数据进行分组(如聚类分析)时,核心依据是通过衡量数据点与组内均值的偏差平方和,来判断数据的相似性与差异性,从而将相似的数据归为一组.分组原则为:让组内离差平方和尽可能小(数据在组内更集中),组间离差平方和尽可能大(组间差异更显著)."
},
{
"question": "离差平方和与方差有什么关系?",
"ground_truth": "方差其实就是离差平方和的平均值.离差平方和侧重描述偏离总量的绝对数值,方差通过标准化更适用于多组数据分布特征的横向对比,二者在统计推断中相辅相成."
},
{
"question": "常用的抽样方法有哪些?",
"ground_truth": "在统计学和研究中,抽样方法是从总体中选取部分样本进行研究的技术,目的是通过样本推断总体特征.常用的抽样方法可分为概率抽样(每个个体被选中的概率已知且非零)和非概率抽样(依赖主观判断,个体选中概率未知)两大类."
},
{
"question": "概率抽样有哪些常用方法?",
"ground_truth": "概率抽样能保证样本的代表性,是统计推断的基础,常用方法包括:简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样"
},
{
"question": " 简单随机抽样的原理是什么?",
"ground_truth": "从总体中随机抽取n个个体每个个体被选中的概率相等且不受其他个体影响"
},
{
"question": "如何进行简单随机抽样?",
"ground_truth": "通过随机数表、随机生成器或抽签等方式选取样本,例如从 1000 名学生中随机抽 100 人."
},
{
"question": "简单随机抽样有哪些优缺点?",
"ground_truth": "优点:最直观、公平,误差易计算;缺点:要求总体名单完整(需抽样框),适用于小规模、均匀分布的总体,大规模总体中操作较繁琐."
},
{
"question": "分层抽样的原理是什么?",
"ground_truth": "先将总体按某种特征(如年龄、性别、职业)分为若干层(子总体),再从每层中随机抽取样本."
},
{
"question": "如何选择合适的分层标准?",
"ground_truth": "分层依据:根据总体的关键特征(如年龄、性别、学历、地区、收入水平等)划分层.要求:层内个体差异尽可能小(同层内个体特征相似);层间差异尽可能大(不同层的特征有明显区别)。例如研究某市居民收入,先按 “城区 / 农村” 分层,再从每层按比例抽样本."
},
{
"question": "分层抽样有哪些优缺点?",
"ground_truth": "优点:保证每层都有代表性,降低抽样误差,尤其适用于总体内部差异大的情况.缺点:需明确分层标准,分层过细会增加复杂度."
},
{
"question": "系统抽样的原理是什么?",
"ground_truth": "将总体按一定顺序排列计算间隔kk=总体规模/样本量随机确定起点后按间隔选取样本如第k、2k、3k……个个体"
},
{
"question": "如何进行系统抽样?",
"ground_truth": "系统抽样又称等距抽样是一种按固定间隔从总体中抽取样本的抽样方法例如从1000名学生中抽50人间隔k=20随机选起点3则样本为3、23、43..."
},
{
"question": "系统抽样有哪些优缺点?",
"ground_truth": "优点:简单易行,无需完整抽样框(只需确定顺序).缺点:若总体存在周期性规律(如按 “男 - 女 - 男 - 女” 排列),可能导致样本偏差."
},
{
"question": "整群抽样的原理是什么?",
"ground_truth": "将总体划分为若干“群”(如班级、社区),随机抽取部分群,对选中群的所有个体进行调查."
},
{
"question": "如何进行整群抽样?",
"ground_truth": "整群抽样是一种将总体划分为若干个 “群体”(或称 “群”),然后随机抽取部分群体作为样本,对选中群体内的所有个体进行调查的抽样方法.例如:调查某高校学生,将每个班级视为群,随机抽 5 个班,调查这 5 个班的所有学生."
},
{
"question": "整群抽样有哪些优缺点?",
"ground_truth": "优点:便于组织(无需逐个抽样),适合大规模、分布广的总体.缺点:群内个体差异小时,样本代表性可能不足(需增大样本量)."
},
{
"question": "多阶段抽样的原理是什么?",
"ground_truth": "结合多种抽样方法,分阶段选取样本.例如先整群抽样选城市,再分层抽样选城区,最后简单随机抽样选居民."
},
{
"question": "如何进行多阶段抽样?",
"ground_truth": "多阶段抽样的核心思路是:先将总体划分为较大的 “初级单元”,再从初级单元中抽取次级单元,甚至进一步抽取更细的单元,直到抽到最终调查个体.全国人口调查中,先抽省份(第一阶段),再抽城市(第二阶段),最后抽家庭(第三阶段)."
},
{
"question": "多阶段抽样有哪些优缺点?",
"ground_truth": "优点:灵活适应复杂总体,降低抽样成本.缺点:设计复杂,误差可能累积."
},
{
"question": "非概率抽样有哪些常用方法?",
"ground_truth": "非概率抽样不依赖随机原则,适用于探索性研究或资源有限的场景,但结果难以推断总体,常用方法包括:方便抽样、判断抽样、配额抽样、滚雪球抽样."
},
{
"question": "方便抽样有哪些优缺点?",
"ground_truth": "方便抽样通常选取容易获取的个体作为样本(如街头随机拦访、课堂上调查学生).优点:快速、低成本.缺点:偏差大(样本可能不具代表性),如仅调查年轻人无法反映全人群特征."
},
{
"question": "判断抽样有哪些优缺点?",
"ground_truth": "判断抽样通常由研究者根据主观判断选取 “典型” 个体(如选择 “高收入人群代表”).优点:适用于特殊群体研究(如专家访谈).缺点:受主观偏见影响大,结果可靠性低."
},
{
"question": "配额抽样有哪些优缺点?",
"ground_truth": "配额抽样一般先按特征(如年龄、性别)分配 “配额”,再按配额选取样本(类似分层抽样,但非随机).优点:保证样本结构与总体一致(表面上).缺点:配额内选取仍依赖主观,可能存在偏差."
},
{
"question": "滚雪球抽样有哪些优缺点?",
"ground_truth": "滚雪球抽样通常从少量初始样本出发,通过其推荐获取更多样本(适用于隐蔽或小众群体).优点:能接触难以触及的群体.缺点:样本可能局限于特定网络(如救助者的朋友圈),代表性差."
},
{
"question": "为什么统计中常用百分数?",
"ground_truth": "百分数能直观反映部分与整体的关系,便于不同数据组之间的比较,让统计结果更易理解."
},
{
"question": "百分数在统计图中如何呈现?",
"ground_truth": "常与扇形统计图结合,扇形的每一部分对应一个百分数,直观展示各部分占比;条形或折线图中也可标注百分数对比变化."
},
{
"question": "统计中的百分数可以超过100%吗?",
"ground_truth": "若表示部分与整体的比例不能超过100%但表示增长率如“销量增长120%”)时可以超过."
},
{
"question": "用百分数描述统计结果时,如何避免误导?",
"ground_truth": "需同时说明基数如“30%的学生参加共30人”避免仅用百分数掩盖实际数量差异"
},
{
"question": "数据的收集有哪些常用的方法?",
"ground_truth": "一手数据收集方法:调查法(包括:问卷法、访谈法、焦点小组法)、观察法(包括:参与式观察、非参与式观察、仪器观察)、实验法(包括实验室实验、现场实验)、测量法等;二手数据收集方法:查阅公开数据源、商业数据库或工具(如:付费数据库、开放平台 API、网络数据、档案数据、内部数据等"
},
############问题23-30############
{
"question": "什么是规律?",
"ground_truth": "所谓规律,是指随机现象发生可能性的大小是可以度量的。"
},
{
"question": "什么是随机事件?",
"ground_truth": "人们把发生可能性大小可以度量的那些随机现象称为随机事件。"
},
{
"question": "什么是概率?",
"ground_truth": "称随机事件的度量为概率。"
},
{
"question": "概率论和统计学的研究思路有何不同?",
"ground_truth": "概率论从思辨的角度进行研究,统计学从事实的角度进行研究。"
},
{
"question": "确定随机事件概率的道理是什么?",
"ground_truth": "首先,明确这个随机事件的背景。然后,分析随机事件与样本空间的关系。最后,确定随机事件发生的概率。"
},
{
"question": "概率的定义是什么?",
"ground_truth": "概率是一个分数,分子是有利情况的数目,分母是所有可能情况的数目。"
},
{
"question": "什么是古典概型?",
"ground_truth": "样本空间中元素的个数是有限的,每一个元素都是不可再分割的基本事件;有元素、即基本事件的概率是相等的。人们称满足这两个限制的概率模型为古典概型。"
},
{
"question": "什么样的概率分布为离散型的?",
"ground_truth": "称古典概型的概率分布为离散型的。"
},
{
"question": "什么样的概率分布为连续型的?",
"ground_truth": "随机事件对应的是实数空间的一个子集,定义的概率是对实数空间子集度量,这样的度量会涉及到积分的运算,人们称这样的概率分布为连续型的。"
},
{
"question": "离散型概率分布对应什么测度?",
"ground_truth": "离散型概率分布对应于计数测度。"
},
{
"question": "连续型概率分布对应什么测度?",
"ground_truth": "连续型概率分布对应于勒贝格测度。"
},
{
"question": "统计学研究的数学基础是什么?",
"ground_truth": "统计学研究的数学基础也是样本空间,也是用样本空间的子集表示随机事件。"
},
{
"question": "统计推断的内容主要包括什么?",
"ground_truth": "统计推断的内容主要包括估计、检验和预测。"
},
{
"question": "统计推断的基础是什么?",
"ground_truth": "统计推断的基础是数据,包括收集得到的数据,也包括通过调查研究、或者、实验试验得到的数据。"
},
{
"question": "统计推断所说的随机事件是指什么?",
"ground_truth": "统计推断所说的随机事件是指那些可以重复观察的随机现象。"
},
{
"question": "统计学的概率是如何得到的?",
"ground_truth": "统计学的概率是通过数据提供的信息估计得到的。"
},
{
"question": "什么是频率?",
"ground_truth": "前面提到的抛掷硬币的问题如果用n表示抛掷的次数用m表示出现正面的次数那么就估计出现正面的概率为m/n通常称这个比值为频率。"
},
{
"question": "借助频率推断概率是什么思维过程?",
"ground_truth": "借助频率推断概率,是典型的归纳推理的思维过程。"
},
{
"question": "在大多数情况下,通过统计推断获得的结论借助的是什么推理?",
"ground_truth": "在大多数情况下,通过统计推断获得的结论借助的是归纳推理。"
},
{
"question": "在大多数情况下,通过统计推断获得的结论正确吗?",
"ground_truth": "不仅结论的正确与否是或然的,就是结论的表述形式也是或然的。"
},
{
"question": "比用集合表达随机事件的更为一般的表达是什么?",
"ground_truth": "比用集合表达随机事件的更为一般的表达是随机变量。"
},
{
"question": "借助随机变量,可以更清晰地表述什么?",
"ground_truth": "借助随机变量,可以更清晰地表述样本和总体之间的关系,展现通过样本认识总体的统计推断过程。"
},
{
"question": "随机变量类似定义在样本空间上的函数,但与函数有什么差异?",
"ground_truth": "函数要求对应于自变量的函数值是唯一的,随机变量却可以取不同的值。"
},
{
"question": "什么是概率分布?",
"ground_truth": "在通常的情况下,人们假定随机变量取某一个值的概率是确定不变的,这样才可能得到随机变量的取值规律,称这样的规律为概率分布。"
},
{
"question": "概率分布主要分哪两种形式?",
"ground_truth": "概率分布主要分离散型和连续型两种形式。"
},
{
"question": "在初中阶段,主要学习什么形式的概率分布?",
"ground_truth": "在初中阶段,主要学习离散型概率分布,并且限定可能取值的个数有限、取每一个值的概率相等,也就是拉普拉斯所表述的古典概型。"
},
{
"question": "什么是离散型随机变量的概率分布列?",
"ground_truth": "考虑一般的离散型随机变量,假定随机变量可能取$k$个值,把这些可能取值表示为$1,\cdot\cdot\cdot,k$,取值概率分别表示为$p_1,\cdot\cdot\cdot,p_k$,这样,就可以把取值规律表示为
\begin{align}
\left(
\begin{array}{ccc}
1 & \cdot\cdot\cdot& k \\
p_1 & \cdot\cdot\cdot &p_k \\
\end{array}
\right)
\end{align}
的形式,通常称这样的表达为离散型随机变量的概率分布列。"
},
{
"question": "什么是总体?",
"ground_truth": "人们把随机变量的概率分布列称为总体。"
},
{
"question": "在一般情况下,人们并不知道总体是什么,通常采用什么方法进行研究?",
"ground_truth": "一种方法是建立假设,通过随机变量的背景建立假设,基于假设推导出随机变量的分布;一种方法是进行估计,通常是对总体抽取样本,通过样本对分布列中的概率进行估计。"
},
{
"question": "统计学研究的基础是什么?",
"ground_truth": "统计学的研究基础是数据,可以认为总体是数据产生的背景,样本是基于背景收集到的具体数据。"
},
{
"question": "什么是随机变量的两重性?",
"ground_truth": "人们通常用大写字母Y表示随机变量用小写字母y表示随机变量的具体取值称这样的特性为随机变量的两重性。"
},
{
"question": "统计推断的本质是什么?",
"ground_truth": "在本质上,统计推断是对随机现象的决策、或者更确切地说、是对随机现象决策的判断。"
},
{
"question": "在"数与代数"领域中的百分数是对什么的刻画?",
"ground_truth": "在"数与代数"领域中的百分数是对不变量特征的刻画,比如,某种饮料中果汁的含量、某银行的年利率等等,述说的是相对稳定的比例关系。"
},
{
"question": "在"统计与概率"领域,百分数是对什么的刻画?",
"ground_truth": "在"统计与概率"领域,百分数将是对随机变量特征的刻画,比如,某篮球运动员投篮命中率、某个季节下雨的概率等等,述说的是随机事件发生的频率、也就是,对随机事件发生概率的估计。"
},
{
"question": "在日常生活和生产实践中,人们经常会把什么作为随机决策的工具?",
"ground_truth": "在日常生活和生产实践中,人们经常会把百分数作为随机决策的工具。"
},
{
"question": "百分数实际上是什么?",
"ground_truth": "这里所说的百分数实际上就是频率,可以作为概率的估计。"
},
{
"question": "中国古代哲学思想的特色是什么?",
"ground_truth": "分类研究是中国古代哲学思想的特色。"
},
{
"question": "统计推断的重要方法是什么?",
"ground_truth": "作为随机决策的参考,数据分类也是统计推断的重要方法。"
},
{
"question": "西方古典哲学和中国古代哲学的区别是什么?",
"ground_truth": "西方古典哲学更强调一般与特殊之间的关系,中国古代哲学更强调此类与彼类之间的关系。"
},
{
"question": "伴随着大数据时代的到来,包括现代数学在内的现代科学,为什么越来越重视分类研究?",
"ground_truth": "大体上有两个方面的需求,一个方面是主动的,因为科学研究越来越精细,一个放之四海而皆准的方法或结论往往不存在,那么只能把整体分成若干个部分,于是产生了分类的问题。另一个方面是被动的,大数据分析的需要,数据量庞大,并且种类繁多、结构庞杂、信息稀疏,因此,对数据进行分类研究不仅是方便的、甚至是必须的,通过分类提取类数据的特征,建立特征之间的关系,最终形成产生数据背景的知识。"
},
{
"question": "研究随机变量取值规律的两个非常重要的特征是什么?",
"ground_truth": "研究随机变量取值规律的特征,均值和方差就是两个非常重要的特征,称为总体均值和总体方差。"
},
{
"question": "均值表达了随机变量的什么?",
"ground_truth": "均值表达了随机变量取值的集中趋势。"
},
{
"question": "方差表达了随机变量的什么?",
"ground_truth": "方差表达了随机变量取值对于均值的离散程度。"
},
{
"question": "什么是总体均值和总体方差的估计?",
"ground_truth": "基于样本计算的样本均值和样本方差分别是总体均值和总体方差的估计。"
},
{
"question": "什么是离差?",
"ground_truth": "通常称样本值减去样本均值为离差。"
},
{
"question": "离差表示什么?",
"ground_truth": "离差表示样本值与样本均值之间的差异。"
},
{
"question": "什么是离差平方和?",
"ground_truth": "称对所有离差的平方求和得到的数值为离差平方和。"
},
{
"question": "离差平方和表示什么?",
"ground_truth": "离差平方和表示这组样本对于样本均值的离散程度。"
},
{
"question": "什么是样本方差?",
"ground_truth": "称离差平方和除以样本个数为样本方差。"
},
{
"question": "样本方差是为了什么?",
"ground_truth": "是为了比较不同样本对于各自的样本均值的离散程度。"
},
{
"question": "什么是顺序统计量?",
"ground_truth": "把得到的数据,从小到大按顺序排列,并且对数据的下标重新标号,得到$x_1\leq\cdot\cdot\cdot\leq x_n$的形式,通常称这样整理了的样本为顺序统计量。"
},
{
"question": "什么是AIC方法",
"ground_truth": "通过计算可以验证分组的个数越多则得到的组内离差平方和会越小因此必须在比较的过程中去掉分组个数的影响人们称这样的方法为AIC方法。"
},
{
"question": "传统计算机的计算逻辑强调什么?",
"ground_truth": "传统计算机的计算逻辑强调计算过程的传递性。"
},
{
"question": "什么是精确近似解?",
"ground_truth": "令$f(0)$是定义在区间$[0,1]$ 的连续函数,如果 $f(a)<0,f(b)>0$,那么知道这个函数在这个区间上有零解,设这个解为$x_0$;对于一个近似解$x^*$$|x^*-x_0|\leq 10^{-n}$,则称$x^*$是精确到$10^{-n}$ 的近似解。"
},
{
"question": "针对大数据分析问题,用传统的基于传递性的方法是无法完成的,需要创造出什么方法?",
"ground_truth": "这需要创造出计算结果能够叠加的计算方法,这就是分步式计算方法、或者说、并行计算方法。"
},
{
"question": "分步式计算方法、或者说、并行计算方法的计算逻辑是什么?",
"ground_truth": "把数据分组用多台计算机并行计算,然后创造出一个计算方法,把多台计算机的计算结果合并到一起进行计算;或者,对前个时间的数据进行实时计算,然后创造出一个计算方法,把实时计算结果融合前个时间至今的新数据进行计算,得到新的结果。"
},
{
"question": "平均数代表了什么?",
"ground_truth": "平均数代表了数据的集中趋势。如果知道数据来源背景,那么还可以根据归纳推理的原则,认为平均数表达了数学来源背景的集中趋势。"
},
{
"question": "什么是加权平均?",
"ground_truth": "加权平均是离散型随机变量的数学期望、或者说、是离散型随机变量的总体均值。"
},
{
"question": "什么是权?",
"ground_truth": "表达式中的概率表述了对应数值的权重,称其中的概率或频率为权。"
},
{
"question": "加权平均是什么的平均?",
"ground_truth": "加权平均是加法运算的平均。"
},
{
"question": "几何平均是什么的平均?",
"ground_truth": "几何平均就是乘法运算的平均。"
},
{
"question": "加权平均表达什么?",
"ground_truth": "加权平均表达并行问题的集中趋势。"
},
{
"question": "几何平均表达什么?",
"ground_truth": "几何平均表达串联问题的集中趋势。"
},
{
"question": "调和平均表达什么?",
"ground_truth": "调和平均表达的是平行路径的集中趋势。"
},
{
"question": "加权平均、几何平均、调和平均三者之间的关系是什么?",
"ground_truth": "加权平均 ≧ 几何平均 ≧ 调和平均。"
},
{
"question": "加权平均、几何平均、调和平均容易受到什么影响?",
"ground_truth": "这三种平均都容易收到极端数据的影响,也就是说,如果出现特别大或者特别小的数值,会很大程度地影响计算结果。"
},
{
"question": "数字化指什么?",
"ground_truth": "数字化是指将信息转变为可以用计算机处理的数字格式。"
},
{
"question": "与传统的模拟信号比较,数字格式的信息传递有什么优势?",
"ground_truth": "与传统的模拟信号比较,数字格式的信息传递更加稳定可靠。"
},
{
"question": "定性数据主要包括什么?",
"ground_truth": "定性数据主要包括两种,即名义数据和顺序数据。"
},
{
"question": "什么是名义数据?",
"ground_truth": "名义数据是数字表达,但只是一种类别的代表,适用于分类、不适用于运算。"
},
{
"question": "名义数据可以分为什么?",
"ground_truth": "名义数据可以分为命名数据和标记数据。"
},
{
"question": "什么是命名数据?",
"ground_truth": "所谓命名数据,是指对一类事物命名的表达。虽然这样的数据只是一种命名,但在数据的编排中,也要尽可能地提供被命名者的信息。"
},
{
"question": "什么是标记数据?",
"ground_truth": "标记数据要比命名数据复杂一些,可以提供更多的信息。在大数据时代,这样的数据发挥着越来越重要的作用,商家甚至会记录购物者曾经购买过的产品,划分可能没有见过面、但具有同样喜好的好友,逐步实现精准推送。"
},
{
"question": "标记数据推送的好处和坏处是什么?",
"ground_truth": "这样的推送带来的好处是,可以看到自己喜爱的内容,带来的坏处是,可能会对某些问题的认知越来越狭窄。"
},
{
"question": "为什么顺序数据可以用于决策?",
"ground_truth": "在许多情况下,利用顺序数据分析定性问题是合理的,可以根据记分设计权重,因此顺序数据可以用于决策。"
},
{
"question": "利用顺序数据进行决策本质上是一类什么决策?",
"ground_truth": "在本质上,利用顺序数据进行决策是一类随机决策。"
},
{
"question": "随机决策的问题的基本特征是什么?",
"ground_truth": "随机决策的问题的基本特征是:没有结论对错之分,只有方法好坏之分。"
},
{
"question": "推断的关键步骤是什么?",
"ground_truth": "推断的关键步骤:构建一个类,通过类中部分事物的属性推断类中所有事物的属性。"
},
{
"question": "在推断的过程中特别要关注什么?",
"ground_truth": "特别要关注两个问题,一个问题是,如何选取所说的部分事物、也就是选取调查对象;另一个问题是,如何获取所说的事物属性、也就是设计调查问题。"
},
{
"question": "许多社会问题的调查,如果直接提出所要调查的问题,为什么往往会让被调查者难以起口?",
"ground_truth": "主要是因为两方面的原因,或者是因为问题过于宏观,或者是因为涉及个人隐私。"
},
{
"question": "对于过于宏观的问题,如何设计调查问题?",
"ground_truth": "对于过于宏观的问题,需要把问题分解为若干个部分,针对每一个部分提取具体要素,基于这些要素提出容易回答的问题,然后获取数据、形成知识。"
},
{
"question": "对于涉及个人隐私的问题,如何设计调查问题?",
"ground_truth": "对于涉及个人隐私的问题,需要设计变通的提问方法,使得被调查者能够无顾忌地回答问题。"
}
]