Cassandra在海量数据存储及大型项目案例介绍-part3

  • Post author:
  • Post category:其他


国内大多数公司和开发者对Mongodb和Hbase推崇备至,这是因为MongoDB进入了国内市场并建立了中文社区,而Hbase在阿里的大范围使用和推广下培养了一大批用户和公开材料。Cassandra最近两年在大数据公司Datastax的大力培育下获得长足发展,功能和性能均大幅提升,Datastax的估值也达数亿美元。

从Apache Cassandra首页来看,大概有超过1500个公司在使用Cassandra。其中除了facebook和twitter外还一些有代表性的公司列举如下:

  • Instagram

inbox、newsfeed、 audit、fraud detection,12 EC2 node,1.2T,2w+ wps,1.5w+ rps;

  • eBay

200+TB,400+M写,100+M读,应用场景:商品详情页上的Social Signals,如Like,Want,Own,Favorites等;用户和商品的hunch taste graph;时间序列如移动通知,反作弊,soa,监控,日志服务等;

  • Netflix

包含288+96+60个实例的大规模集群,每秒110万的写操作,3个AWS EC2 美国东部region的zone自动复制副本,总计330万写操作/秒;

  • Apple

75000+ nodes, 10s of PBs,Millions ops/s, largest cluster 1000+ nodes。

跟前两篇文章一样,我们先来看一下国外有哪些大型的Cassandra项目成功案例及应用场景。

Intuit Turbo Tax

Intuit Turbo Tax是美国一家税务申报软件系统,在美国是一个家喻户晓的公司,许多用户初次尝试自行报税时指定购买的报税软件。可申报联邦税与州税,还有多种版本选择包括简易版、房产投资版、自有事业版本等等,最佳化计算各种细项扣除额,降低个人应纳所得税、提高退税金额,在线代送申报与退税服务,提供在线咨询服务。

Intuit在AWS的生产环境中超过42000个压力测试程序集,在生产搭建了Cassandra八个集群,目前生产环境中最大的集群有跨两个区域的144台服务器,每个Cassandra集群中有72台服务器,帮助Intuit处理大量数据,例如:纳税申报、权利文件、用户日志,以及支持TurboTax所需的一切非结构化数据存储功能。


Pronto! Intuit Releases First Open Source Cassandra Cluster Manager – The New Stack

Keen.io

成立于2011年,是一个为开发者提供数据分析API接口的技术公司。开发者可以使用Keen.IO的工具、来打造自己的分析产品;同时Keen.IO还可以帮助开发者从任何渠道收集、分析、整理数据,并支持可视化。该公司日前获得235万美元投资,由Amplify Partners、Rincon Venture Partners领投,Pelion Venture Partners、500 Startups、XG Ventures等跟投。Spotify、hewlett-packard(惠普)、polycom(保利康)、pandora 都是Keen.IO的用户。

Keen利用Kafka、Apache Cassandra NoSQL数据库和Apache Spark分析引擎,为不同程序开发语言添加了大量的RESTful API和SDK。他提供用户丰富的流式“元数据”,并客户能够将丰富的数据流式传输到Amazon S3或任何其他数据存储。


Data firehose: Next generation of streaming technologies goes cloud-native – SiliconANGLE

Kinetic Data

Kinetic Data成立于1998年,50名员工,总部位于明尼苏达州圣保罗市,是一家企业软件公司,使用BPM工作流程平台提供安全性、可扩展性、灵活性和安全的高效、自动化的工作流来改造整个组织,从而降低劳动力成本、服务交付成本和风险。全球2000家客户和政府客户,包括美国农业部、美国陆军和海军、美联储、费尔法克斯郡公立学校、埃默里医疗保健公司。

Kinetic Data选择Apache Cassandra提供工作流自动化解决方案,因为它的健壮性,包括自动故障切换、负载平衡和复制在内的功能消除了动态数据及其客户的许多麻烦。2021年,为了能帮助政府部门的系统能够快速跟踪和处理12万张罚单和4万起事故,并且能将相关任务定向到合适的管理人员或内部团队。在另一个案例中,需要能够帮助Anne Arundel县所有的公立学校管理和跟踪分发给学生的18万本ChromeBook的设备工作状态,以及管理和跟踪12000名教师使用的所有设备。


Apache Cassandra | Apache Cassandra Documentation

Grubhub

GrubHub被称为”在线外卖鼻祖”,Grubhub成立于2004年,是美国历史最悠久的大型食品配送公司。2020年5月,Uber就收购Grubhub 进行谈判。2020年6月11日,外媒报道欧洲最大外卖公司Just EatTakeaway拟收购昔日美国外卖标杆GrubHub的100%股权,收购方式为股权置换、价值高达73亿美元,合并之后Grubhub首席执行官将加入Just EatTakeaway的管理委员会,继续管理北美业务。

Grubhub运行一个面向服务的平台,主要在多个AWS数据中心(地区)运行。它转向云基础设施以加速增长,使用Apache Cassandra作为主要的持久性数据存储。


https://bytes.grubhub.com/cloud-infrastructure-at-grubhub-94db998a898a

Locstat

Locstat公司利用地理空间和实时的规则引擎来设计制造他们的产品和解决方案。他们的客户包括了行政部门、国防机关、国安机关、矿产行业、金融行业以及零售业。

Locstat使用Cassandra每天分析2500万条事务数据,在Cassandra项目介绍中Locstat展示了一张由地理网格生成的热图,其中包含开普敦国际机场周围飞机的飞行数据和飞行模式。数据存储在Cassandra中,然后通过Apache Spark推送,并在铯空间界面中使用GeoGrillis进行可视化。

借助DataStax Enterprise和Cassandra开源的解决方案,Locstat为它的用户提供了创新的IoT解决方案,并将数据分析时间由2-3周降至数分钟内,从而快速生成用于分析的图数据。不仅如此,现在他们可以支持大数据,可以灵活伸缩,还可以每日分析处理上百万个数据点。不仅如此,现在他们可以支持大数据,可以灵活伸缩,还可以每日分析处理上百万个数据点。


25M data transactions a day with DSE | Locstat | DataStax

Macquarie Bank

麦格理银行(Macquarie Bank)是澳大利亚最大的投资银行,总部位于悉尼,共有13597名员工。麦格理银行在1969年成立,为债务,股权和商品的资产管理和金融,银行业务,咨询和风险及资本解决方案提供服务。截至2017年,麦格理银行总收入为83亿美元,总资产为1450亿美元。

麦格理银行(Macquarie Bank)推出了一个新的消费银行平台,该平台依靠Cassandra提供的数据存储技术提供自然语言搜索和机器学习功能。例如,允许用户在系统中搜索“上个月我在食品杂货上花了多少钱”,系统将返回与用户相关的所有支付交易信息。另外,第二种是机器学习功能,使银行能够识别个人客户的消费行为模式,然后根据个人历史预测他们的支出和现金流。这是通过日历布局以图形方式显示给客户的,使他们能够一眼看到未来几周和几个月可能的财务承诺和还款能力预测分析,并让他们知道花多少钱是安全的。该平台的核心数据库是Cassandra。

在这个系统平台中Cassandra提供了一个智能数据存储层,通过一个开放API平台从麦格理银行的后端系统获取信息,然后以极高的速度为客户请求提供服务。


Macquarie banks on customer appetite for a ‘Spotify-like’ experience

Macy’s

梅西百货在美国是一家非常出名的百货公司,梅西百货是美国联合百货公司旗下公司(1994年美国联合百货公司收购了梅西百货公司)。梅西百货公司(Macy’s)是美国的著名连锁百货公司。

梅西百货其旗舰店位于纽约市海诺德广场(Herald Square),1924年梅西百货公司(Macy’s)在第7大道开张时曾被宣传为“世界最大商店”。梅西百货公司(Macy’s)还有2个全国性旗舰店,分别设在旧金山的联合广场和芝加哥州街。

业务的增长使他们预期的10倍数据增长,从以读为主的模式转变为能够处理近实时更新的模式,并向多个数据中心转移。POC测试结果:Cassandra & ActiveSpaces——非常接近。MongoDB——测试失败。!


https://www.slideshare.net/planetcassandra/apache-cassandra-at-macys

Maths Pathway

Mathes Pathway是一家创新型的公司,他们希望有一个数据库和基础架构平台能够与他们一起成长。Mathes Pathway的团队在寻找一种解决方案,使分析工具能够为每个终端客户——学生、教师和学校——执行高度个性化的解决方案。

Maths Pathway使用Cassandra以及在Instaclustr公司帮助下提供用户个性化学习系统。

Maths Pathway 是一种新的学习和教学模式,支持学生沿着个人路径建立对数学的深刻理解和知识。数学路径在Apache Cassandra的帮助下提供个性化学习。

Math Pathway使用Cassandra为每个学生量身定制个性化的数学学习程序。自成立以来,就采用了这种技术方案,学生数量取得了惊人的增长,目前正在为超过20000名学生提供个性化学习和评估测试。


Maths Pathway Case Study – Instaclustr

METRO

麦德龙超市是一家零售批发超市集团,在麦德龙和万客隆(仅限欧洲)品牌旗下拥有多家麦德龙现购自运商场,是德国股票指数DAX的成分公司,世界500强之一,分店遍布32个国家。

麦德龙在全球范围有6个数据中心,目前有部署150个Cassandra集群,转型为以微服务为动力、数据驱动的企业,麦德龙超市需要迁移到另一个云提供商,并在私有、公共和混合云环境的混合模式下运行。该公司选择Cassandra作为其核心数据管理平台,以实现无缝升级、扩展和集成。

麦德龙公司希望整合开发,最高管理层认为Apache Cassandra将是一个良好的起点。整个平台已经迁移,团队开始使用谷歌云的本地服务与Cassandra进行有效交互。

例如,用户致电电呼叫中心或在线下订单会创建一个交易日志,员工需要方便地访问该日志。由于呼叫中心可能与履行中心不在同一物理位置,因此,存在数据管理不善和部门间沟通缓慢的风险。

麦德龙还有一个内部使用的DriverApp(一款送货应用)实时计算司机的最佳路线,以避免不必要的延误。麦德龙还使用库存和物品应用程序来跟踪不同类型的产品及其差异。

所有部门都会访问实时数据,这也是麦德龙技术团队需要确保的最主要事项。例如,如果交通或恶劣天气影响交货计划、仓库或履行中心,则需要及时通知客户延迟。允许应用程序实时访问此类数据可以改进履行流程,并确保客户及时了解订单状态。

通过 DataStax 提供的Cassandra数据,可以快速的更新数据,并能够随着公司的发展减少数据存储预算的投入。


METRO | DataStax

MobilePay

Mobilepay,丹麦第二大移动支付平台,最大优点在于商家根本不需要安装任何新的硬件设备,MobilePay的模式其实很简单,它就是一个手机程序。下载安装以后,你可以把你需要使用的信用卡,银行卡的号码输入软件,出于安全考虑,这些信息并不是直接储存在手机上,而是储存在云端的安全服务器上。类似于中国的支付宝和微信支付。

MobilePay的技术负责人Jakobsen说:“我们每天为超过400万人提供支付服务应用程序,每分钟处理数以百万计的交易事务,希望实现一个分布式数据库,它将符合我们基于微服务的应用策略,并且能够处理应用程序的可用性和可扩展性,Cassandra完美地匹配了这个需求。”


MobilePay | DataStax

Monzo

Monzo是一家来自英国伦敦的金融科技公司,创立于2015年2月,主要提供手机银行账户和财务管理等多种金融服务。作为一款移动手机银行,Monzo App支持自动记账、动账通知、存贷款等服务,时髦的应用程序、低廉的费用、人性化的产品及服务吸引了传统银行的客户群。目前,Monzo在英国已拥有客户超过400万名,公司估值超过了20亿英镑,被英国消费者评选为最佳银行。

Monzo采用了微服务架构(在Golang和Kubernetes上),并对关键平台组件(如Apache Cassandra和Linkeder)进行了分析和优化,最近的众筹工作完全通过其应用程序进行。

他们有大约21个Cassandra节点,这些节点有足够的CPU和内存,他们有900个微服务在生产环境和开发环境中运行,服务跨越了整个银行系统的资金往来,账本提供,风控系统与侦查金融犯罪运营部分,而这些基础的数据大部分都存储在Cassandra集群中。


https://www.infoq.com/presentations/monzo-microservices-arch/?utm_source=presentations&utm_medium=london&utm_campaign=qco

Netflix

Netflix在Apache Cassandra集群中管理了PB级别的数据,使用Cassandra来存储用户的访问痕迹。并且要让用户必须在几毫秒内可靠地访问这些数据。他们建造了复杂的控制器,将基于Apache Cassandra的持久层变成了一个真正的自动驾驶系统。

Netflix的Cassandra分布式用户跟踪基础架构分为三个部分:跟踪库检测、流处理和存储。从各种应用系统的微服务中收集的以流处理方式抽取数据。再由中央数据网关将接收到的数据路由存储到Cassandra集群,最后将压缩后的数据文件从Cassandra集群传输到亚马逊S3。


https://netflixtechblog.com/building-netflixs-distributed-tracing-infrastructure-bb856c319304

Sky

德国天空电视台(德语:Sky Deutschland AG)原称普莱米尔电视台(Premiere AG),是德国的一家媒体公司,由天空德国电视台(Sky Deutschland Fernsehen GmbH & Co. KG)所全资持有,主要经营同名的付费电视节目。

Sky在其在线视频平台中使用Cassandra进行数据库持久化,该系统向Sky和NOW TV客户提供所有OTT视频内容,包括处理热门体育游戏和电视节目的巨大流量峰值。


https://github.com/sky-uk/cassandra-operator

Spotify

Spotify是一个正版流媒体音乐服务平台,2008年10月在瑞典首都斯德哥尔摩正式上线。Spotify提供免费和付费两种服务,免费用户在使用Spotify的服务时将被插播一定的广告,付费用户则没有广告,且拥有更好的音质。

Spotify已经得到了华纳音乐集团、索尼音乐娱乐公司、百代等全球各大唱片公司的支持,其所提供的音乐都是正版的,Spotify除了提供在线收听外,还能下载音乐到本地供离线收听。

Spotify使用Cassandra进行个性化设置,在Spotify有每天6000万活跃用户,拥有超过3000万首歌曲的庞大音乐目录。我们的用户可以选择跟随数千名艺术家和数百名他们的朋友,并创建自己的音乐图谱和歌单收藏夹。这些用户的配置数据信息被存储在Cassandra集群中,我们称之为用户配置文件存储(UPS)。

Spotify可在全球近60个国家/地区使用。他们的后端服务在北美和欧洲的两个数据中心运行。为了确保在任何一个数据中心发生故障时,系统的个性化系统仍能为用户提供服务,要将数据必须存储在两个异地的数据中心存储数据。而Cassandra完美地处理了一个站点中两个站点的请求所带来的流量增长。

Spotify存储是数据包括两个列族:1.用于用户的属性(键值对),2.用于“实体”(如艺术家、曲目、播放列表等)的类似属性集合。

Spotify目前对Cassandra作为满足我们所有个性化需求的解决方案感到非常满意,并有信心将其扩展,为我们不断增长的用户群提供个性化体验。


Personalization at Spotify using Cassandra : Spotify Engineering

思通舆情|开源舆情系统

在我们的开源项目中 每个节点的 Apache Cassandra 存储了上亿条的网页详情和原始网页的数据,我们根据系统唯一ID查询,在Cassandra的索引上读取速度非常快,完全是秒开的!写入每秒同时的并发在8000-20000个请求在一秒内可完成,每台机器的配置并不高,JVM内存配置参数在8G内存。

开源项目地址:



开源免费舆情监测网络监控系统: 思通舆情 是一款开源免费的舆情系统,支持本地化部署。支持对海量的舆情数据进行交叉分析和深度挖掘,为用户提供全面的舆情数据,专业的舆情分析,快速的舆情处理等服务,提升企业品牌价值和风控能力。#舆情系统#舆情监测#网络舆情#开源舆情#免费舆情#舆情分析


icon-default.png?t=M3C8
https://gitee.com/stonedtx/yuqing


欢迎对我们的项目 pull request 或者 留言对我们提出建议。您的支持和参与就是我们坚持开源的动力!请

star

或者

fork

!



版权声明:本文为amyno1原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。