巨杉数据库:站在世界前沿的起跑线上
来源:南方日报 发布日期:2015-07-13 查看:
2014年,巨杉软件入选美国知名科技媒体“快公司”评选的“2014年中国50大创新公司”,同时公司CTO王涛入选“2014中国商业年度最具创意人物100”。
两年前,在IBM工作满七年的王涛选择回国创业成立巨杉软件。巨杉主攻数据存储基础应用,自主研发了新型分布式数据库,这在国内鲜有企业涉足。去年底获得启明创投的投资后,巨杉又对其自主研发的新型分布数据库进行了开源,成为中国唯一一家开源的数据软件公司,并荣获中国开源软件推进联盟评选的“2015年度中国开源优秀项目奖”。
自主研发▶▷领先的新型分布式数据库
“大数据产业链有很多个环节,巨杉主要是做数据的存储,也就是数据库。”王涛表示,现在大家都在谈论数据爆炸,其实是指大数据的存储超出了一定限额,巨杉所做的就是让用户更高效的存储数据。
在过去,存储数据主要使用一类比较老的技术,叫做关系型数据库。它的原型是20世纪70年代提出的,将数据拆分成不同的类型进行存储。王涛打了一个比方,我们要存一辆汽车,就把汽车拆了,轮子和车窗分门别类存储。这种方式在当年硬盘昂贵的时候,确实能够最大化减少数据的冗余。但在今天,这种拆分方式会使数据搭建与维护变得极为复杂。
“我们就想到了一种新的方法,一方面将数据的结构简化,另一方面利用多台机器存储数据。简单来说,就是用新型分布式数据库来替代过去的单点存储技术。”王涛这样解释道。
从关系型数据库到分布式数据库的转变,数据存储方的成本降低了数百倍。以往国内银行用于存储计算的传统数据库机器价格为千万元甚至上亿元,而分布式数据库机器每台价格在两三万元左右。“用分布式数据库机器存储数据,不仅降低价格成本,也避免了一台服务器损坏引起的全部数据遗失。”
王涛此前在加拿大攻读计算机专业,毕业后进入IBM公司负责DB2数据库内核的研发。但后来王涛发现DB2这样的关系型数据库不符合发展趋势,就带领团队自主研发并回国创业。“中国在数据库基础软件领域没有太多企业涉及,市场空间大。而最重要的一点是,新型分布式数据库全世界都在一个起跑线上,中外差距并不大,不像传统数据库中国企业已经落后欧美近二十年。”
王涛介绍,巨杉数据库由巨杉软件完全自主研发,拥有完全自主知识产权,不基于任何其它的开源项目,部分性能甚至优于国际领先的同类产品。“分布式数据库核心的技术就是分布式存储技术,数以万亿的数据连接在一起,发生了任何故障不影响其他,这是一项非常困难的技术。”
大数据创业▶▷需要找准市场方向
“大数据创业并不是大家想象的那么简单”,王涛表示,现在很多大数据应用软件看似潜力无限,但是在产品研发更新过程中会遇到各种问题,可以说大数据创业对于技术和市场也有着苛刻的要求。诚然技术是唯一驱动力,但市场方向同样重要。
“一定要找准定位和发展方向,才能真正乘上大数据的东风。但大数据作为一个新兴的市场,要找准发展方向并非易事。”王涛坦言,团队创业初期在市场方向的把握上也出现了偏差。刚回国时,对于中国客户市场以及行业情况并不了解。最开始想做电信市场,因为电信行业拥有大量有价值的数据。“但后来我们发现,中国电信只有三大运营商,处于相对封闭垄断的空间,大数据的市场需求并不大。于是我们调整了方向,转向金融和互联网。”
王涛介绍,目前巨杉合作对象覆盖了全国范围内的大部分金融机构。合作业务除了基础的数据存储之外,还包括新型的数据计算业务。比如,与某国有银行合作在其取号机上增加了一项理财产品推荐功能。通过后台数据分析用户历史交易记录判断出其风险承受能力,向用户推荐理财产品。“据该行反馈,理财产品推荐成功率从过去的千分之几提高了近20倍,几个月内理财收入增加了数亿元。”
此外,巨杉为多家国内知名互联网公司提供数据存储服务,客户包括途牛旅游网、蓝港在线、多盟等等。王涛告诉记者,由于数据存储主要在后台,一般消费者用户很少能切身感受到巨杉的存在。例如,在线旅游网站途牛在其官网会显示很多的旅游套餐,包括机票、酒店、景点等等。如果运用传统数据库,会将其每一项零碎地拆开存储。而巨杉数据库的分布式数据库无需拆分,作为整体直接进行储存。“相当于在麦当劳点套餐的时候,服务员一次性给你所有产品。”
目前,巨杉与客户的合作方式有两种,一种是按订阅式按年付费,另一种是一次性买断服务。2014年公司业绩到达百万元,预计今年将做到十倍以上的增长。谈及公司业绩,王涛认为,首先数据基础行业是一个全新的领域,需求大。其次,公司成立经过三年摸索,产品趋于成熟。再者,基础软件是一套庞大复杂的程序,属于一次性消费,企业购买时比较慎重,洽谈周期往往相对较长。“总体上看,去年是铺垫,今年是小爆发增长,明年将是大爆发式的增长。”
技术开源▶▷引领新型数据库发展
在去年年底获得启明创投的投资后,王涛做了一个重要决定,将巨杉数据库开源。“此前中国做技术软件的公司没有任何一家是开源的,我们也一直怀疑开源在中国是否可行。但是我们后来认为,只要一直在市场上保持领先的优势,那么别人就只能是跟随者。”
所谓开源,即将技术代码开放给别人。好比做一道数学题,不开源的话只告诉你题目答案。开源则是把解题的过程和结果全部告诉你,让别人检验是否正确。王涛表示,“此前我们一直怀疑开源在中国是否可行,但是我们还是选择了开源。这是对自身产品和市场信心的体现,希望通过开源带动新型数据库的发展。”
据悉,巨杉数据库目前使用“开源+企业版”的全新商业模式,开源版培养大量用户,推动产品和市场的快速发展。而企业版针对企业需求,提供高级企业功能,帮助企业迅速提升业务效率。两者相辅相成,互相促进,为国内的开源技术和开源软件市场开辟一条新的道路。
对于开源可能引发的抄袭问题,王涛表示并不担心。因为基础数据软件是很复杂的系统很难复制抄袭,不像手机APP类应用。而且,一旦出了问题需要进行系统维护,还需要定期更新系统,这只有原厂才能驾驭。
从整个行业来看,数据库市场总体仍然被国外的科技巨头所垄断,主要包括甲骨文、IBM以及微软。而国内传统数据库企业,由于历史原因已经落后了欧美近二十年,也不能很好适应大数据的需求。因此,新型分布式数据库的竞争,成了全球数据库市场新一轮的争夺。
王涛表示,国外MongoDB、Datastax(Cassandra)等行业巨头凭借自身的实力正在试图统治新型数据库的市场。对于国内市场而言,真正进入新型分布式数据库领域的公司目前只有巨杉一家。“随着国内的大数据领域不断发展,作为大数据生态系统重要的一环,相信新型分布式数据库的市场将会呈现巨大的潜力。”
本版撰文:南方日报记者 彭琳 实习生 郑荣
统筹:邓红辉 梅志清 胡智勇 郭其龙 刘江涛
执行:卢轶 牛思远