寻找数组中唯一出现两次的数

  • Post author:
  • Post category:其他



假设你有一个用1001个整数组成的数组,这些整数是任意排列的,但是你知道所有的整数都在1到1000(包括1000)之间。此外,除一个数字出现两次外,其他所有数字只出现一次。假设你只能对这个数组做一次处理,用一种算法找出重复的那个数字。如果你在运算中使用了辅助的存储方式,那么你能找到不用这种方式的算法吗?


这道题目在四月份腾讯实习生的二面时候被问到,当时压根就没有时间准备算法的东西,结果在那里胡说八道了一大堆,结果可想而知,现在把解法给记录下来。


第一种方法:

如果允许使用额外的空间,那就比较好吧,这些数,只有一个出现了两次,其他都只出现一次,那么,我们就用个数组来统计一下每个数出现的次数,在统计过程中,如果出现一个是出现2次的话,那么毫无疑问,程序可以结束了,返回相应的数字即可。由于我们只需要遍历数组一次,所以时间复杂度是O(n)


优点:效率高

缺点:消耗的内存空间过大


关于空间的,本人在这里有个疑问,如果有人能为我解惑,那么将感激不敬。

空间复杂度到底是O(1)还是O(n)?我们定义的数组是n个元素,所以我理所当然地觉得空间复杂度是O(n),但是曾在一些书籍上面看到,由于n是确定的,所以相当于是恒量空间,所以空间复杂度是O(1),到底是哪个我也不清楚,希望有人能为我解惑。


int FindRepeat(int a[])

{


int count[1000]={0};

for(int i=0;i<=1000;i++)

{


if(1==count[a[i]])

{


return a[i];

}

else

{


count[a[i]]++;

}

}

}


根据这种使用额外数组做标记的方法,并且考虑到元素的特殊性,只有一个是出现了两次,那么我们其实可以不用统计次数,而是简简单单地做下标记即可,比如说,我们可以定义一个bool型的数组,全部初始化为false,进行遍历的时候,相应的元素如果出现就将其设置为true,当一个标记是true,却再次扫描到该元素的时候,那么则该元素出现了两次了,一个bool型占用的内存空间是一个字节,而int类型占用的内存是4个字节,这样子,占用的空间已经大大地减少了。那么是否还有类似的办法,但是占用的内存空间更少的呢?true和false仅仅只是两个值,考虑到计算机的位,无非也就0,1两种值,所以我们可以使用位来进行标记,于是便要使用到了位图数据结构这种东西了(关于位图数据结构,我前面有一篇文章,可以参考参考)1000位,8位就是一个字节,1000位等于125字节,所以可用32个int类型来表示,这样子内存空间已经大大减少了。



第二种方法:

虽然第一种解法到最后我们能大大地减少内存空间,不过还是占用了一定的内存空间,面试中面试官估计还是不会这么善罢甘休的,肯定希望我们再减少空间的使用。第二种方法主要用到的是数学的知识,1001个数,有一个出现了两次,那么我把这1001个数加起来,用和减去1到1000的和,很明显,差就是出现了两次的那个数了。


int FindRepeat(int a[])

{


int sum1=0,sum2=0;

for(int i=0;i<=1000;i++)

{


sum1+=a[i];

}


for(int j=1;j<=1000;j++)

{


sum2+=j;

}


return sum1-sum2;

}


这种方法使用了两次for循环,很明显时间复杂度是O(n+n),也就是O(n),这样子就可以在很少使用内存空间的情况下,而且在线性时间内找出重复的数了。当然,这个算法还可以优化下,考虑1到1000的和,由于1到1000是一个等差数列,所以我们可以用公式计算sum2=1001*1000/2计算1到1000的和,这样子就去掉了第二个循环了,当然,时间复杂度还是没有改变,依然是O(n)


优点:内存空间消耗很少,

缺点:由于这种方法要完全遍历数组,所以效率要低于第一种方法,除非很不巧,重复是出现在最末尾。



第三种方法:

这种方法主要使用到了位运算,其实位运算有很多有用的性质,只是为人们所不熟悉罢了。


这里主要用到的是异或运算的性质,a^a^b=b,以及异或运算满足结合律和交换律


将1001个数进行异或,结果与1到1000异或的结果进行异或,得到的值即为所求。


看个简单的例子吧

1,2,3,4,4,5

1,2,3,4,5


看出玄机了吧,其实就是相当于我们手动为第一个数组构造一个副本,以便发挥a^a^b=b的性质。


http://blog.163.com/xb_stone_yinyang/blog/static/2118160372013729103546824/