姓名 卢克

Phone: 18600355003             Email: lukeinchina@gmail.com
GitHub: github.com/lukeinchina        Blog: www.fallincode.com


个人经历

2015/07- 至今      五八同城      搜索技术部—高级架构师

  • 从0到1构建五八云搜索系统,开创并负责云搜索部,接入在线搜索实例276个,日流量108亿。
  • 带领搜索内核团队,重构五八倒排索引,实现实时索引和检索,索引延迟由3秒降低到10毫秒内。
  • 主导实现搜索分层排序架构,完成由传统机器学习排序到深度学习排序升级。

2013/10-2015/07     搜狗        社区搜索部—资深研发工程师

负责搜索社区部索引和检索,保障搜狗问问搜索和搜狗百科搜索服务稳定,实现性能优化和迭代升级。

2009/07-2013/09     腾讯        SOSO事业部—高级研发工程师

视频搜索构建,问问业务索引/摘要压缩,搜索输入提示,discuz搜索,网页搜索开发和性能优化。

2007/09-2009/07     哈尔滨工业大学   计算机科学与技术专业 硕士

2002/09-2006/07     郑州轻工业大学   计算机科学与技术专业 学士


专业技能

  • 5年团队管理经验,10年以上搜索领域相关经验,从0到1开发过商业搜索引擎;能够深入理解搜索领域各业务场景和痛点;对高性能、高可靠的分布式检索系统有比较深入理解;对搜索领域有极大热情。
  • 熟悉Linux操作系统,熟悉TCP网络编程和C、C++多线程编程,深入理解后端服务治理和后端服务的容灾,对大数据量、高并发场景下的稳定性和高性能有丰富经验。
  • 熟悉主流搜索引擎,了解搜索新技术进展,了解自然语言处理技术,了解搜索排序架构,了解基础文本相关性。
  • 个人github: malena是用于全文检索系统的教学/展示,包括静态倒排索引沟通和检索查询功能。
  • 博客主要分享日常遇到的技术难点,编程风格,linux/unix文化和历史。

项目经历

2020/10-2021/04     实时倒排索引          五八 搜索推荐部

项目简介:

58搜索的文档更新采用每间隔一段时间(3s), 构建一份小的倒排索引,构建索引完成才能提供检索使用, 故检索延迟在3s以上。 重新设计和开发实时倒排索引结构,使索引更新实时生效. 实现在不加锁情况下,读写并发访问实时倒排索引,实现每一文档更新完成后立刻能够被查询到,并且检索性能不降。 同时,实现多线程并行实时索引更新。索引更新延迟有3s以上降低到10ms,单线程更新速度500doc/s ,多线程下线性提高。实现详情见五八实时索引重构

职责:
  • 调研和立项,推进功能上线。
  • 设计实时倒排索引结构,核心数据结构包括跳表、倒排、单值正排、多值正排4种类型。
  • 设计多线程并行构建索引,单线程合并实时索引的策略。

2017/01-         五八云搜            五八 搜索推荐部

项目简介:

五八云搜是五八公司内部的全自助化的搜索服务平台,为各业务开发者提供实时索引、动态摘要、自定义排序、运营监控、运维托管等全套解决方案. 在云搜上线前,搜索团队内部维护了多个垂搜服务,一个垂搜服务上线需要工程师沟通、开发、配置、测试、运维等环节,创建一个搜索服务需要月为单位。为解决这些问题,使搜索平台化,引入kubernetes和docker技术自动化管理搜索系统各模块,实现资源自动分配和节点自动调度,从而实现自动创建和管理搜索实例,完成从垂搜到云搜的升级。使用方只需通过云搜提供的管理平台和API,自助创建搜索实例、自助上线生效,整个过程不需要搜索开发介入,提升了搜索使用的便利性和可维护性,目前云搜接入在线搜索实例276个,峰值流量108亿/日。 实现详情见五八云搜核心技术

职责:
  • 技术方向/方案调研、立项,推进系统上线和在公司内推广应用。
  • 对接业务需求、收集使用问题,持续迭代优化云搜功能。

2015/07-         五八搜索效果/体验优化      五八 搜索推荐部

项目简介:
  1. 设计分层排序架构,在搜索引擎之上引入单独的排序服务功能,实现深度学习排序和快速排序迭代. 租房场景转化率提升13%。
  2. 引入语义向量模型,在传统的布尔检索和相关性排序外,实现语义检索和语义排序,提升转换效果。招聘场景召回量提升13.9%,转化率提升20.5%。
  3. 实现搜索分词由词表模式升级到深度学习模型分词,并新增词性和实体识别功能。标注五八场景语料35万句(其中实体20万句),分词准确率88%提升到96%,实体识别识别准确率92%。
  4. 重构倒排索引数据结构,倒排中新增位置信息,使详细的基础文本相关性计算更丰富; 引入nDCG方式人工评价文本搜索效果。

职责:
  • 提升搜索转化率,提升58搜索用户使用体验。
  • 保证五八搜索服务稳定性,优化检索性能;升级工程技术架构支持算法模型迭代。

2013/09-2015/06     问问搜索/百科搜索重构     搜狗 社区搜索部

项目简介:

采用搜狗搜索系统框架重构问问、百科搜索。实现全量和时新性两套数据流程,系统索引量5亿,8小时重建全量数据,30秒更新生效;两套数据流程皆有主备服务,实现数据更新过程服务无损。

职责:
  • 负责问问和百科搜索系统自动化索引流程,全量倒排索引&增量倒排索引模块。

2012/10-2013/09     腾讯视频搜索          腾讯 社区搜索部

项目简介:

搜搜平台化检索系统从0开始构建腾讯视频搜索,用shell实现了索引检索流程控制,系统上线后持续检索排序效果。实现采用前缀树和hash建立索引,采用UDP协议,单线程压测性能3000QPS+,小时级更新索引;支持全拼、简拼提示,多音字识别,支持根据不同移动终端提示相应可播放视频。

职责:
  • 从0到1创建搜索提示服务;负责离线倒排索引模块;负责UGC数据相关性排序效果。

2010/09-2011/05     网页搜索性能优化        腾讯 搜索平台部

项目简介:

参与soso网页搜索新架构开发,优化检索单元性能。分析检索query特征和query在计算过程中的消耗,将query检索过程拆分,分析各部分耗时,实验优化执行性能的可行方法;采用对query语法树中高频的phrase(短语式的,位置相邻的词的组合),在离线阶段将其做进索引中,在线检索时将其加载,从而节省了在线计算时间,提高了检索性能。单机全内存环境,800w文档,增加31%空间,提升78%的QPS。

职责:
  • 调研、实验、开发实现一个cache功能,优化检索性能。

2010/05-2010/09     索引、摘要压缩         腾讯 社区搜索部

项目简介:

对摘要进行中文分词,以词为单位,词频作为权重,构建huffman树做压缩、解压缩。采用有序双队列,解决了在元素量较大时构建huffman树太过耗时的问题,实现快速建树;采用预先插入部分低权值伪数据,作为树的叶子节点,解决未识别词的问题。压缩率为最好34%,平均41%。对倒排索引采用pfordelta算法进行压缩,采用循环展开和指令优化解压性能,解压速度6GB/S。(注:倒排压缩该领域更好算法有2014年PEF算法、2017年MILC算法)

职责:
  • 调用压缩算法,优化压缩算法效率应用于搜索系统,满足检索性能情况下节省内存使用。