假设你有一个用1001个整数组成的数组,这些整数是任意排列的,但是你知道所有的整数都在1到1000(包括1000)之间。此外,除一个数字出现两次外,其他所有数字只出现一次。假设你只能对这个数组做一次处理,用一种算法找出重复的那个数字。如果你在运算中使用了辅助的存储方式,那么你能找到不用这种方式的算法吗?
这道题目在四月份腾讯实习生的二面时候被问到,当时压根就没有时间准备算法的东西,结果在那里胡说八道了一大堆,结果可想而知,现在把解法给记录下来。
第一种方法:
如果允许使用额外的空间,那就比较好吧,这些数,只有一个出现了两次,其他都只出现一次,那么,我们就用个数组来统计一下每个数出现的次数,在统计过程中,如果出现一个是出现2次的话,那么毫无疑问,程序可以结束了,返回相应的数字即可。由于我们只需要遍历数组一次,所以时间复杂度是O(n)
优点:效率高
缺点:消耗的内存空间过大
关于空间的,本人在这里有个疑问,如果有人能为我解惑,那么将感激不敬。
空间复杂度到底是O(1)还是O(n)?我们定义的数组是n个元素,所以我理所当然地觉得空间复杂度是O(n),但是曾在一些书籍上面看到,由于n是确定的,所以相当于是恒量空间,所以空间复杂度是O(1),到底是哪个我也不清楚,希望有人能为我解惑。
int FindRepeat(int a[])
{
int count[1000]={0};
for(int i=0;i<=1000;i++)
{
if(1==count[a[i]])
{
return a[i];
}
else
{
count[a[i]]++;
}
}
}
根据这种使用额外数组做标记的方法,并且考虑到元素的特殊性,只有一个是出现了两次,那么我们其实可以不用统计次数,而是简简单单地做下标记即可,比如说,我们可以定义一个bool型的数组,全部初始化为false,进行遍历的时候,相应的元素如果出现就将其设置为true,当一个标记是true,却再次扫描到该元素的时候,那么则该元素出现了两次了,一个bool型占用的内存空间是一个字节,而int类型占用的内存是4个字节,这样子,占用的空间已经大大地减少了。那么是否还有类似的办法,但是占用的内存空间更少的呢?true和false仅仅只是两个值,考虑到计算机的位,无非也就0,1两种值,所以我们可以使用位来进行标记,于是便要使用到了位图数据结构这种东西了(关于位图数据结构,我前面有一篇文章,可以参考参考)1000位,8位就是一个字节,1000位等于125字节,所以可用32个int类型来表示,这样子内存空间已经大大减少了。
第二种方法:
虽然第一种解法到最后我们能大大地减少内存空间,不过还是占用了一定的内存空间,面试中面试官估计还是不会这么善罢甘休的,肯定希望我们再减少空间的使用。第二种方法主要用到的是数学的知识,1001个数,有一个出现了两次,那么我把这1001个数加起来,用和减去1到1000的和,很明显,差就是出现了两次的那个数了。
int FindRepeat(int a[])
{
int sum1=0,sum2=0;
for(int i=0;i<=1000;i++)
{
sum1+=a[i];
}
for(int j=1;j<=1000;j++)
{
sum2+=j;
}
return sum1-sum2;
}
这种方法使用了两次for循环,很明显时间复杂度是O(n+n),也就是O(n),这样子就可以在很少使用内存空间的情况下,而且在线性时间内找出重复的数了。当然,这个算法还可以优化下,考虑1到1000的和,由于1到1000是一个等差数列,所以我们可以用公式计算sum2=1001*1000/2计算1到1000的和,这样子就去掉了第二个循环了,当然,时间复杂度还是没有改变,依然是O(n)
优点:内存空间消耗很少,
缺点:由于这种方法要完全遍历数组,所以效率要低于第一种方法,除非很不巧,重复是出现在最末尾。
第三种方法:
这种方法主要使用到了位运算,其实位运算有很多有用的性质,只是为人们所不熟悉罢了。
这里主要用到的是异或运算的性质,a^a^b=b,以及异或运算满足结合律和交换律
将1001个数进行异或,结果与1到1000异或的结果进行异或,得到的值即为所求。
看个简单的例子吧
1,2,3,4,4,5
1,2,3,4,5
看出玄机了吧,其实就是相当于我们手动为第一个数组构造一个副本,以便发挥a^a^b=b的性质。
http://blog.163.com/xb_stone_yinyang/blog/static/2118160372013729103546824/