数理统计笔记[牛客专项练习]

  • Post author:
  • Post category:其他




目前移动设备主流的屏幕帧率是每秒(60)帧



下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是

正确答案: A

链表和哈希表

数组和链表

哈希表和队列

堆栈和双向队列

数组插入删除要移动大量元素,不满足具有较好性能



如果某系统12*5=61成立,则系统采用的是()进制

(1 * n + 2) * 5 = 6 * n + 1

n = 9



在黑盒测试方法中,设计测试用例的主要根据是

正确答案: B

程序内部逻辑

程序外部功能

程序数据结构

程序流程图

黑盒测试是对软件

已经实现的功能是否满足需求进行测试和验证

,黑盒测试

完全不考虑程序内部的逻辑结构和内部特性

,只根据程序的需求和功能规格说明,检查程序的功能是否符合它的

功能说明

白盒测试又称结构测试、透明盒测试、逻辑驱动测试或基于代码的测试。白盒测试是一种测试用例

设计

方法,盒子指的是被测试的软件,白盒指的是盒子是可视的,你清楚盒子内部的东西以及里面是如何运作的。”白盒”法全面了解程序内部逻辑结构、对所有逻辑路径进行测试。”白盒”法是穷举路径测试。在使用这一方案时,测试者必须检查程序的内部结构,从检查程序的逻辑着手,得出测试数据。贯穿程序的独立路径数是天文数字。



对于以下代码,

char* p=new char[100];

正确的是 D

p和new出来的内存都在栈上

p和new出来的内存都在堆上

p在堆上,new出来的在栈上

p在栈上,new出来的在堆上

new 出来的对象放在堆中,局部变量放在栈中。



设 q ( n , m )是将正整数 n 划分成最大加数不大于 m 的若干不同正整数之和的划分数,则 q ( n , m )为( )。

在这里插入图片描述

正确答案: B

递归思想,1)n=1或m=1时,n分成不大于m的正整数的和的划分数只有1一种。2)n<m时,n分成不大于m的整数==n分成不大于n的整数(n总不能大于n吧)==q(n,n)。3)n=m时 将n分成n(m)这一种情况去掉,就变成1+q(n,n-1)。4)n>m>1时,首先q(n,m-1)中m-1>0为正整数 所以1要排除,这一项意味着把所有将n拆解出的可能中包含m的部分去掉,然后去掉的部分等价于q(n-m,m),这个式子意味着n被默认已经拆出来一个m,然后再让他分解出的整数不大于m。



现在有一个tcp服务端监听了80端口,问最多同时能建立多少连接

正确答案: D

1023

65534

64511

非常多基本和内存大小相关



在大规模的语料中,挖掘词的

相关性

是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

正确答案: B

互信息

最大熵

卡方检验

最大似然比

最大熵代表了

整体分布的信息

,通常具有最大熵的分布作为该随机变量的分布, 不能体现两个词的相关性,但是卡方是检验两类事务发生的相关性。



下面关于ID3算法中说法错误的是()

正确答案: D

ID3算法要求特征必须离散化

信息增益可以用熵,而不是GINI系数来计算

选取信息增益最大的特征,作为树的根节点

ID3算法是一个二叉树模型

ID3算法(Iterative Dichotomiser 3 迭代二叉树3代)是一个由Ross Quinlan发明的用于决策树的算法。可以归纳为以下几点:

  1. 使用所有没有使用的属性并计算与之相关的样本熵值
  2. 选取其中熵值最小的属性
  3. 生成包含该属性的节点

    D3算法对数据的要求:
  4. 所有属性必须为离散量;
  5. 所有的训练例的所有属性必须有一个明确的值;
  6. 相同的因素必须得到相同的结论且训练例必须唯一。

ID3 算法生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少个不同的取值



执行以下代码

#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;

a的值为: 正确答案: A

16

30

33

39

宏函数SUM只在预编译阶段做

预处理

工作,即只是简单地进行

字符替换

而已。

a += a*SUM(a,b)*b
a+= a*a+b*b

如果要得到C选项,宏函数就得这样写:

#define SUM(x, y) ((x)+(y))



N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下:

D1: John read Moby Dick

D2: Mary read a different book,

D3: She read a book by Cher

利用bigram求出句子“John read a book”的概率大约是( )

正确答案: B

1

0.06

0.09

0.0008

2-gram公式

P(s1,s2,s3…) = P(s1)*P(s2|s1)*P(s3|s2)…

john在文章开头的概率:P(john) = 1/3

P(read | John) = 1

P(a|read) = 2/3

P(book|a) = 1/2

P(尾巴|book) = 1/2, book出现两次,其中一次是在句子结尾处

P(“John read a book”) = 1/3 * 1 * 2/3 * 1/2 * 1/2 = 1/18 ≈ 0.06,故选择B

unigram,bigram,trigram,是自然语言处理(NLP)中的问题。父词条:n-gram.

unigram: 单个word P(s1,s2,s3…) = P(s1)*P(s2)*P(s3)…

bigram: 双word

trigram:3 word P(s1,s2,s3…) = P(s1)*P(s2|s1)*P(s3|s1s2)…

比如:

西安交通大学:

unigram 形式为:西/安/交/通/大/学

bigram形式为: 西安/安交/交通/通大/大学

trigram形式为:西安交/安交通/交通大/通大学



下列有关k-mean算法说法正确的是()

正确答案: A D

不能自动识别类的个数,随机挑选初始点为中心点计算

数据数量不多时,输入的数据的顺序不同会导致结果不同

不能自动识别类的个数,不是随机挑选初始点为中心点计算


初始聚类中心的选择对聚类结果的影响很大

B: Kmeans优化目标函数的过程中,两步均是遍历

所有的点,累加损失

。 因此与数据的输入顺序无关。

D:传统的K-means聚类算法太依赖于聚类数目和初始聚类中心位置的选择了,聚类数目一般要人为设定,这个根据经验来定,至于位置,一般可以选择生成随机数的方法,随机数就比较随意了,如果随机数刚好落在了密度很大的数据区域,本来这个区域是最终可以聚为一类的,可是现在有好几个初始聚类中心落在这里了,那么这个区域就会被强行划分成几类,显然就会造成误检,误检就是,本来不应该形成一类,却形成了。

Ref



相关性

Pearson要求

连续线性



Spearman只要求

单调

就可以了,不一定要连续线性。

两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数



正常建立一条TCP连接需要()个步骤,正常关闭一个TCP连接需要()个步骤

正确答案: B

3,3

3,4

4,4

4,3

三次握手 四次挥手



在给定文件中查找与设定条件相符字符串的命令

正确答案: B

gzip


grep


ls

find



一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?

正确答案: B

ML=MSE

ML>MSE

ML<MSE

解答:相等

在这里插入图片描述



版权声明:本文为weixin_42956279原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。