南开大学23秋学期《数据分析》在线作业一

奥鹏南开大学23年秋季新学期作业参考

23秋学期(高起本:1709-2103、专升本/高起专:2003-2103)《数据分析》在线作业-00001

数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329

评估模型的分类预测准确率,使用()进行评估;
A:训练数据集
B:验证数据集
C:测试数据集
D:未知数据
正确答案问询微信:424329

逻辑回归优化的目标函数为()
A:极大似然估计
B:对数似然函数
C:特征独立假设
D:贝叶斯定理
正确答案问询微信:424329

基于MapReduce的Apriori算法,共进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案问询微信:424329

逻辑斯谛分布的分布函数范围在()
A:(-∞,+∞)
B:(0,1)
C:(-1/2,1/2)
D:(-1,1)
正确答案问询微信:424329

并行算法包括()
A:MapRedce
B:关联分析
C:KNN
D:Kmeans
正确答案问询微信奥鹏南开大学23年秋季新学期作业参考:424329

潜在语义分析创新地引入了()
A:单词维度
B:文本维度
C:话题维度
正确答案问询微信:424329

KNN算法用MapReduce实现,要进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案问询微信:424329

以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案问询微信:424329

以下哪个会降低Apriori算法的挖掘效率( )
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率
正确答案问询微信:424329

大数据的特点不包含
A:数据体量大
B:价值密度高
C:处理速度快
D:数据不统一
正确答案问询微信:424329

用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329

向量空间的度量,表示文本之间的()。
A:关系
B:相似度
C:语义关系
D:语义相似度
正确答案问询微信:424329

数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329

文本中所有单词的出现情况表示了文本的()
A:种类
B:特征
C:语义内容
D:语义结构
正确答案问询微信:424329

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329

()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念
A:训练误差
B:测试误差
C:统计误差
D:平均误差
正确答案问询微信:424329

Hash tree在Apriori算法中所起的作用是( )
A:存储数据
B:查找
C:加速查找
D:剪枝
正确答案问询微信:424329

话题向量空间模型中,用()的一个向量表示该文本。
A:特征词
B:话题空间
C:语义空间
D:词向量空间
正确答案问询微信:424329

任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作弊
A:访问量
B:实际价值
C:搜索量
D:用户数量
正确答案问询微信:424329

常见的推荐系统算法包括()
A:基于流行度的推荐算法
B:基于内容的推荐算法
C:协同过滤推荐算法
正确答案问询微信:424329

大数据在电信中的应用有
A:基于用户、业务及流量分级的多维管控机制
B:精准的客户分析及营销
C:利用位置和轨迹信息服务社会
正确答案问询微信:424329

潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。
A:话题空间
B:文本在话题空间的表示
C:话题维度
D:词向量空间
正确答案问询微信:424329

决策树中的信息增益等价于()中类与特征的()
A:训练数据
B:测试数据
C:交叉熵
D:互信息
正确答案问询微信:424329

下列属于明显社团的有()。
A:Facebook
B:YouTube
C:数据库网页
D:IMDB
正确答案问询微信:424329

下列哪些任务适合构建分类模型()
A:银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
B:邮件系统可以根据email标题和内容区分出垃圾邮件
C:医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D:房价预测
正确答案问询微信:424329

聚类的核心是()
A:相似度
B:距离
C:特征
D:数据
正确答案问询微信:424329

下列属于朴素贝叶斯优点的是()
A:有稳定的分类效率
B:对小规模的数据表现很好
C:对缺失数据敏感
D:分类决策错误率很低
正确答案问询微信:424329

Q型聚类的结果具有()的特点
A:直观
B:细致
C:全面
D:合理
正确答案问询微信:424329

以下哪些统计量可以反映数据的集中趋势
A:均值
B:中位数
C:方差(标准差)
D:众数
正确答案问询微信:424329

一个网页会将它的PageRank值按照重要度传递到它指向的所有网页。()
A:对
B:错
正确答案问询微信:424329

k均值聚类中,每个样本只能属于一个类。()
A:对
B:错
正确答案问询微信:424329

监督学习中,模型就是索要学习的联合概率分布或决策函数
A:对
B:错
正确答案问询微信:424329

中位数的优势是计算简便,不受极端值的影响
A:对
B:错
正确答案问询微信:424329

监督学习是从标注数据中学习预测模型的机器学习问题
A:对
B:错
正确答案问询微信:424329

在推荐系统的组合方案中,混合是指混合来自不同推荐数据源的特征
A:对
B:错
正确答案问询微信:424329

监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案问询微信:424329

潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。()
A:对
B:错
正确答案问询微信:424329

二元逻辑斯谛回归模型形式为参数化的逻辑斯谛分布。
A:对
B:错
正确答案问询微信:424329

Girvan-Newman算法中,不同深度结点间的边为无向图。
A:对
B:错
正确答案问询微信:424329

熵越大,随机变量的不确定性越小。
A:对
B:错
正确答案问询微信:424329

FP-growth算法的速度要比Apriori算法快。
A:对
B:错
正确答案问询微信:424329

Jaccard相似度的计算忽略了用户对于项的喜好程度
A:对
B:错
正确答案问询微信:424329

PageRank可以定义在任何有向图上,后来被应用到社会影响力分析、文本摘要等多个问题。
A:对
B:错
正确答案问询微信:424329

PageRank算法是图数据上的无监督学习方法。()
A:对
B:错
正确答案问询微信:424329

啤酒与尿布的故事是聚类分析的典型实例。
A:对
B:错
正确答案问询微信:424329

每个网页的PageRank值仅由指向它的网页的PageRank值决定。()
A:对
B:错
正确答案问询微信:424329

网络实体之间至少存在一种关系
A:对
B:错
正确答案问询微信:424329

损失函数的期望成为风险函数
A:对
B:错
正确答案问询微信:424329

文本分析是结构大数据分析的一个基本问题。()
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网