5年36氪携手听云APM的创业之路

2020-02-15 21:08:44 来源: 昭通信息港

5年!36氪携手听云APM的创业之路

在科技媒体圈我们一直都熟知这么一个名字36氪,创办于2011年7月,专注创业服务,经过5年多发展,已成长为一家科技创新企业综合服务集团,同时也是国内规模、产业链覆盖完善、理念、综合实力强的科技创新创业生态服务平台。自此,从媒体出发,36氪的业务线迅速扩张,由36氪媒体、36氪创投、36氪金融几大业务板块构成的36氪,旗下还拥有为创业者提供众创空间服务的子公司氪空间,复杂的业务线带来的运维难度可想而知。

一、业务线扩充导致痛点并发

随着36氪业务线的扩充,各业务各部门衍生的项目也随之增加,原先统一管理的服务也进行了分离。业务线的拉长分离导致机器增多,同时人员的不断扩张也导致了权限的混乱,随之而来的是各种服务配置的增多、测试环境的增多、运维人员手忙脚乱而这只是平时的日常管理的现象,36氪同时还要顾及线上服务健康、性能、攻击等等

二、多维度管理划分解决痛点

36氪的运维平台是基于Python、Django框架开发,主要功能为:LDAP管理、上线发布中心、服务配置文件分发、跳板机、IT资产管理、三方服务管理。平台开放给所有人员使用,根据角色划分相应的权限。

1、机器管理

工具:运维平台-初始化模块

36氪是基于阿里云ECS,机器的系统标准采用了阿里云上的镜像构建,通过不断迭代镜像以达到基本系统的统一,同时使用自研运维平台系统对机器做线上或者测试机器的的不同初始化参数。机器的标准化是运维体系的基本元素,是自动化运维的基础,是运维必须做的一项基础工作。

2、人员权限管理

跳板机、Python、MySQL

36氪业务线加长后造成了机器用量增多,进而导致每个人访问机器之间与账号之间各不相同的情况,因此人工维护成本很高,同时再加上人员离职后不能及时删除帐号,由此带来的安全问题也不容忽视。

这个问题被36氪个自研跳板机系统解决了,只需要鼠标点击即可完成,从入职开设账号,到人员的一键离职,日志记录清清楚楚,也为工作的数据量化起到了支撑作用。

跳板机系统分为:主机管理、用户管理、日志查看,运维人员可以在DashBoard上实时看到用户信息,人员SSH??服务器的日志可进行实时查看。如果出现了异常,那么技术人员可以在平台立刻阻断,强制阻断功能。同时会将访问服务器的日志每天保存起来,便于日后查看,这就起到了审计的效果。对于一些危险的命令,也会记录并发出报警给运维人员。

3、服务配置管理

工具:Gitlab

在过去,技术人员通过将服务的配置文件在管理之前互相拷贝到不同机器,更新也是在一个机器更新然后同步到其他机器,没有分组没有版本管理的概念,手动操作线上也很危险。

经过改进之后采用Gitlab服务管理模块,它可以方便的管理各种conf文件,基于git版本管理,做到一键发布,并远程重启相应服务,大大减少了运维人员的管理成本,同时文件有更改的历史记录可以很方便的回滚到上一次文件备份。

4、各系统帐号管理

工具:OpenLDAP、阿里钉钉

在过去,36氪分散着使用Jenkins、WiKi、Zabbix、Grafana等诸多开源系统,一个人多套帐号密码管理很是不方便,人员离职后也需要删除多个系统。

为了解决上述的问题,36氪利用开源OpenLDAP整合了上述系统。一般来说现在很多公司的通讯工具会采用钉钉,36氪利用了钉钉中组织架构这功能和内部LDAP进行人员账号和组织架构的整合,定期通过钉钉提供的API把钉钉中的组织架构信息同步到LDAP中,保证用户和组织架构的统一,做到人员一键离职,解除其各种内部系统和钉钉的账号。

5、日志汇总和分析管理

ELK、Zabbix、Grafana

对于业务日志、应用日志、系统日志来说,过去都是出了问题之后对每个机器进行大量的查询,同时技术人员还需要看几个机器的日志,很不直观而且日志也没有做到可视化,这样就会在出现问题的时候技术人员总是会手忙脚乱的到各处找日志,分析问题和定位问题的时间会很长,不能迅速的解决问题。

目前的做法是利用ELK把上述日志汇总到日志中心后进入Elasticsearch,通过Kibana和Grafana做数据可视化展示到大屏幕,让运维可以时刻看到站以及整体络的运行情况,大屏幕的开放还有一个好处是人人都可以进行监控,人人都是运维,公司将监控大屏幕放在了很显著的位置,这样每个人基本都可以看到,这也可以大大减少发现问题的时间。

6、硬件监控

工具:Zabbix

在过去36氪只是利用了阿里云平台上提供的监控,监控频率太低,以至于不能及时的发现问题并报警,而且监控的内容很有限,只是一些基本的监控,无法在业务层做到监控,于是在之后便采用了Zabbix开源监控。

在36氪这里Zabbix肩负着监控每台机器的系统指标,线上web存活、络设备的流量带宽、业务接口的死活,终都以数据源的方式呈现到Grafana。使用Zabbix可以分组分人分级别,发生问题的时候能以不同级别报告给相对应的开发或运维,以达到对线上问题的快反应速度。Zabbix的报警issues,会整合到Grafana中并展示到大屏幕,报警一目了然。

7、第三方系统管理

工具:阿里云、DNSPod

在过去,36氪的运维人员每天为了看各种数据需要打开各种第三方后台,查看自己关心的数据,例如CDN的使用情况,站的访问质量等等,不光需要维护几套后台密码,还需要熟悉每个平台的后台操作,现在36氪把所有相关的数据采集回来,然后在自己的平台上做数据展示,从而很好的控制了每个人访问什么平台数据。

36氪通过三方的API把所关心的数据收集回来,做到了自己的平台中展示,这样就不用辛苦的去维护各平台的账号权限,rd运维人员登陆自研的运维平台即可了解多个三方系统的数据。

8、用户访问体验

工具:听云

由于36氪的受众遍及全国乃至全球,所以需要对用户的访问体验也做一些监控。36氪曾计划对络的访问质量、各地CDN的访问质量及用户体验、站对浏览器的支持和一些JS、CSS错误等情况进行一体化监控,但对于一个创业公司来说,太过耗时耗力。因此,便利用听云的Network和听云Browser2款产品来满足监控和分析的需求。

l在前端Web方面,听云Network可以帮助运维人员实时的发现全国各个地区的用户体验情况:

(1)36氪的受众遍及全国甚至全球,对此,36氪借助听云全球30万+的监测节点对络质量进行监测,实时了解用户访问体验。

(2)听云具有灵活多样的监测频率,同时多样的监测方式,如页面监测、事物流程监测、Trace监测等,帮助36氪实时观察全国各个地区的用户体验情况,从而帮助运维人员缩短了排查问题的时间,更好的提升了自身产品的在交付到终用户手中使用后的用户体验。

(3)在使用听云Network后,36氪可以实时监控CDN的服务质量,清晰的看出全国各个地区的CDN分配的节点质量情况,这样使每年花费的大量CDN费用没有白费,做到尽可能的使用的线路达到预期的加速效果。

另外,听云Browser担负起了对36氪浏览器端实施监控的任务。

听云Browser可以帮助36氪产品、运营人员提供全样本真实用户站访问体验评估及优化及真实移动监测数据,有助了解用户真实访问情况,从而帮助提升用户体验,提高用户满意度和活跃留存率,改善业务表现。另外听云Browser的多维度组合分析,同时能够监测AJAX请求响应时间、响应代码及回调时间,帮助36氪研发更快捷的定位服务端、客户端的页面性能问题。另外,在代码层准确定位出错页面或脚本URL,引用页面URL,抓取浏览器基本信息等错误信息上听云Browser也可提供有力的支持。听云Browser也有效地帮助36氪提高了站在不同浏览器下的兼容性。

成都不孕不育医院医生
广元市中心医院预约挂号
沈阳治疗白癜风的专科医院
临沂治疗卵巢炎方法
哈尔滨牛皮癣医院有哪些
本文标签: