一家大数据服务公司的日常
清晨七点半,汉口江滩边雾气未散。我坐在咖啡馆靠窗位置,看对岸高楼玻璃幕墙一寸寸亮起来——像无数块屏幕被同时点亮。这让我想起上周拜访的那家大数据服务公司,在光谷一栋不起眼的灰白色写字楼里,他们不挂招牌,只在电梯间贴了张A4纸:“数据实验室·请按门铃”。没有口号,也没有“赋能”“生态”这类词。老板老陈递来一杯凉透的茶水,说:“我们干的是脏活累活,不是讲演。”
所谓脏活,是清洗数据。
每天凌晨三点起,服务器机柜嗡鸣如蜂巢震颤。几十万条原始日志涌进来:电商订单、地铁刷卡记录、医院挂号单、甚至社区垃圾分类桶上的传感器读数……它们带着错别字、空值、时间戳混乱、单位混用(有人填身高175厘米,也有人输成1.75米或1750毫米)。这些数字看似冰冷整齐,实则满身泥泞。团队里的小姑娘阿雯常笑着说:“我在给数据洗澡。”她手指飞快敲击键盘,一边过滤异常字段,一边把方言写的地址转译为标准行政区划代码。“武汉青山区钢花村街‘红房子’旁边那个修鞋摊”,得拆解出经纬度、所属网格、历史投诉频次——这不是技术问题,而是人情世故与算法逻辑之间的拉锯战。
所谓累活,则藏于看不见的地方。
客户想要一份《城市夜间消费热力图》,背后需调取三十七个系统接口;某银行委托建风控模型,结果发现其十年信贷档案中,“婚姻状况”栏竟有十四种不同填写方式;还有一次,文旅局想分析游客画像,可景区闸机刷脸设备厂商换了三次,每次API协议都推倒重来。项目周期表上密密麻麻全是红色预警点,而会议室白板角落总写着一行小字:“甲方还没确认需求细节”。没人抱怨,只是默默多熬两夜。老陈常说:“做这一行最怕两种人,一种觉得数据能算命,另一种以为它什么也算不出。我们在中间站着,脚踩着地,头顶却悬着云。”
当然也有微光时刻。
去年冬天连续阴雨,洪山区几个老旧小区频繁停电。供电所拿着传统巡检报告一头雾水。我们的工程师接入电表实时负荷曲线后画了一幅拓扑关系图,圈定三个老化严重的分支箱节点。抢修队当天就换掉锈蚀接头。事后居委会送来锦旗,上面印着模糊二维码,扫出来却是跳转到一个居民满意度问卷页面——连谢意都被量化成了结构化表格的一部分。那一刻我觉得荒诞又真实:世界正变得越来越可以测量,但人心仍不可测。比如那位独居老人反复提交报修却被归类为“高频无效工单”的案例,最后竟是因他不会操作智能手机语音输入功能所致。
临走那天傍晚我又路过长江大桥。夕阳熔金洒进水面,碎成千万片晃动的数据流。忽然明白过来,真正的大数据服务从来不在云端高处,而在菜市场电子秤旁商户皱眉核对手持终端的小屏时,在快递员扫码录入收件信息前那一秒停顿之间,在社保窗口阿姨翻找纸质存根的手指底下缓缓滑过的岁月痕迹之中。
这家大数据服务公司不做PPT路演,也不发通稿吹嘘自己如何改变时代。他们的官网首页只有四句话:“采集不易,整理更难。理解有限,交付谨慎。”下面附了一个邮箱和一条电话录音留言通道——据说每周平均收到十九段声音文件,有的结巴,有的带哭腔,还有一回传来孩子咿呀学语声当背景音。工作人员照例逐句听清、转换文字、分类建档。毕竟所有庞杂世界的入口,都不过是一串尚未命名的真实呼吸而已。