NLP离你很遥远?不,HR已经离不开它

首页 > 软件科技   发布机构: e成科技  2020-06-11 11:21

机器为什么能和人类交流? 


Siri、Alexa、微软小冰等智能机器人为什么和人类的聊天相似度、流畅度越来越高?

▲图片来自互联网


这背后都离不开人工智能的核心技术之一——自然语言处理(Natural LanguageProcessing,以下简称NLP)


自然语言处理是一门融合语言学、计算机科学、人工智能等学科于一体的科学。由于人类语言的复杂特点,NLP所涉及的基础知识和技术非常多,核心解决的是“让机器可以理解自然语言”这一世纪难题。它是人工智能领域颇具挑战的技术领域,因此也被誉为AI皇冠上的明珠


机器能“理解人类语言并开口说话”,意味着与人类可进行更广泛的交流,从而逼近甚至通过“图灵测试”,掀开人工智能新篇章,并给人类的工作和生活带来更多创新可能和无限想象。




自然语言处理是什么?



语言是人类区别于其他动物的本质特性,在所有生物中,只有人类才有语言能力,人类的很多智能都与语言密不可分。


▲图片来自互联网


自然语言通常是指一种自然地随文化演化的语言,例如汉语、英语、法语、阿拉伯语等,区别于人造语言,例如世界语、编程语言等。

 

实现人机自然语言沟通首先要将自然语言变成计算机能够理解的语言,也能以自然语言文本来表达给定的意图,前者是自然语言理解,后者是自然语言生成,自然语言处理大体包括这两部分。


用自然语言与机器进行沟通,是人类一直以来的追求。然而,让机器理解语言远没有我们想象的那么简单。


比如由于语言的复杂性及含义的多样性,可能造成歧义,对机器理解语言带来挑战:


场景1:老板要去见投资人,出门时,发现车钥匙下面压了一张小字条,员工写着“老板,加油!”,瞬间感动,默默发誓一定会努力的。车开了15分钟后,没油了。


场景2:小刘买了501块的东西,结账时对老板说:“1块钱算了。” 老板说行,于是小刘放下一块钱走了,老板死命追了小刘五条街让他付了500块。


于是,我们需要强大的自然语言处理技术来应对这些挑战。




自然语言处理技术介绍



作为教计算机学习理解和使用人类语言的学科,NLP在搜索引擎、推荐系统、社会计算、知识图谱、机器翻译等几乎所有与“语言”有关的方向都发挥着重要作用。


下面我们先来简单了解下在人力资本领域会涉及到的一些技术关键词。

 

知识图谱


通俗地讲,知识图谱(Knowledge Graph,简称 KG)就是把这个世界或者某个行业所有不同种类的信息连接在一起而得到的一个关系网络。


它是众多NLP应用的基础能力建设,如对话机器人中的问答、人岗匹配中的知识图谱作为体现机器人智能的知识库,积累下丰富的行业实体种类且精准的实体关系映射,是以NLP为基础的科技公司必须要完成的任务。

 

推荐系统


信息爆炸的时代,智能推荐帮助每个人更快、更准地获取感兴趣的信息。比如在庞大的音乐库寻找音乐费时费力,个性化推荐可以为我们快速精准推荐喜欢听的歌曲,视频、电商app通过“猜你喜欢”快速奉上符合你偏好的剧单和商品。


在人力资本领域,通过人岗匹配完成简历(CV)和招聘告示(JD)的相关度匹配,企业可以快速发现符合工作岗位的员工,应聘者也能够寻找到适合自己能力的企业。

 

对话系


机器人对话任务分为任务完成型和闲聊型,分别对应限定域对话和开放域对话。


在用户实际的对话需求中,除了闲聊和完成特定任务,还有一大类知识获取(即问答)的需求。而这一类问答型对话又可以分为基于知识图谱的对话(KB-Dialogue)和检索式多轮问答等更细化的方向。


我们来看看目前最为成熟的基于任务完成型的对话,大致的系统架构如下图:


▲任务型对话通用框架


首先,用户发起一段对话,机器人在NLU(自然语言理解)模块的帮助下,理解用户的意图并提取出关键信息槽位。接着,机器人需要对当前新输入的意图和槽位或者用户的偏好更新用户的状态信息。然后,回复决策模块根据当前的用户状态信息决定当前的回复动作,如槽位的询问、槽位澄清、共情回复、回答问题等。最后不同的输出动作对应不同的句子生成逻辑,一般是通过模板的方式填充缺失的信息,再回复给用户合适的话语。

 

BERT预训练模型


2018年是NLP的收获大年,模型预训练技术终于被批量成功应用于多项NLP任务。


NLP最不缺少的就是无监督的文本数据,BERT就是通用预训练模型中的集大成者,现在众多相关工作都是以BERT模型为基础展开的。预训练-微调的模式也逐渐成为工业界NLP模型的运用范式。海量文本上训练的模型能够学习到通用的语言表征,大幅度提升了工业界NLP的整体水平。BERT模型具备更好的模型初始化权重,泛化能力好,让下游目标任务更快地收敛,帮助企业在缺乏足够训练的样本的时候也能快速上线NLP服务。



NLP在人力资本领域的应用


NLP技术进步的动力在于真实应用场景不断涌现。


伴随着人工智能技术的飞速发展,NLP技术作为人工智能领域的重要方向,已经在家居、车载、金融、医疗、教育等众多领域有了广泛的应用。


在人力资本领域,NLP也在简历解析、人岗匹配、智能聊天机器人(Bot)、AI面试、智能陪练、人才盘点等诸多场景有了创新突破和成功应用,今天我们着重聊一下简历解析智能聊天机器人两大应用场景。


简历解析


NLP在人力资本领域的应用首当其冲的就是简历解析,绝大部分的数据来源依赖于对简历的精准解析,它是人岗匹配、人才画像、AI面试等重要人力资本应用场景的基础与核心


简历解析从简历来源方面主要分为两大块,分别是渠道模板和自由文本解析。下面我们主要来看看自由文本是如何被快速分析的。

 

由于自由文本的简历格式多样,一千份简历就有一千种风格。首先,为了做到通用泛化的解析能力,通过学习不同分块的文字表述差异,训练一个长文本分类模型,并结合一些通用的规则,准确判断该段文字所属的简历分块,包括教育经历块、工作经历块以及项目经历块等。


其次,针对解析badcase的修复是开发人员遇到的又一大难题,即如何通过分析少量的错误解析样本来避免日后的重复犯错。通过对类似字段分类的错误样本整理和累积,借助One-shot分类模型的能力,能够大幅提升对于错误的泛化能力。少样本学习(One-shotlearning)指的是我们在训练样本很少,甚至只有一个的情况下,依旧能做出正确的预测。

 

另外,如果是线下的招聘的话,HR会收到各种格式的简历,这些格式并不总是可读或可搜索的(比如jpg、pdf格式),如何快速将简历上传入库也是一大难题。这时候,就要借助CV(Computer Vision,计算机视觉技术)的力量了,这其中的关键技术包括简历OCR(Optical Character Recognition,光学字符识别),它能够帮助HR将纸质简历拍照后自动解析进入人才库,大幅提升工作效率,避免了大量的手工重复工作。

 

同时,如何帮助HR快速甄别有价值的简历也能提升一大截效率,在此,我们可以通过简历中的关键经历识别实现



通过识别候选人简历中关键经历,提取特征描述,诸如“扭转业绩”、“技术突破”等字眼,帮助HR们快速筛选简历。根据用户提供的工作经历,我们可以通过文本匹配等技术,使用重新微调后的BERT模型进行句对相似度计算,计算预设的标签和这段工作经历是否匹配。

 

至此,我们的人才库中存放着大量有价值的简历数据。如何完成人到岗位的精准匹配是价值转化的最有效体现。首先利用基于CV和JD语料重新训练的BERT模型,对JD中的招聘要求和人才库中的简历的关键经历进行文本匹配,召回相关的简历作为候选。


然后,我们会从行业BI数据中挖掘学习企业该岗位的招聘偏好,例如某家电龙头企业招聘“冰箱研发总监”,AI引擎通过历史数据和知识图谱预测出该岗位更偏好“松下”、“三星”等企业,工作10-15年,毕业于985名校等偏好特征的候选人,从而在推荐人才时会在满足岗位要求的前提下优先推荐满足这些特征的候选人。



智能聊天机器人


Bot(智能聊天机器人)是集中展现NLP能力的舞台,也是NLP应用落地的理想场景。


针对招聘、员工服务、人才发展等不同的场景e成科技打造十多款Bot产品,将HR从繁琐的工作中解放出来,也给每个员工带来定制化的工作体验。


这些Bot覆盖从招聘到入职、在职、离职的全生命周期的各个环节。招聘时,面试Bot发起千人千面的差异化面试,提高筛选的效率,淘汰一大批不合格的应聘者。在面试环节,面试安排Bot与候选人沟通,安排线下面试的时间和地点,减少琐碎的沟通。然后,通过面试的应聘者会接收到意向确认Bot的消息,询问是否接受offer,HR无需再打连环call。候选人入职后,员工服务Bot可以为员工解答企业的各类问询,帮助HR洞察员工真实需求、洞悉员工情绪,生成员工满意度晴雨表,掌握员工服务现状,优化员工体验和员工服务。


为了串联起这一整套全场景的Bot,我们基于RASA任务型对话框架,开发了一套具备Bot间跳转和任务模板配置,能够快速部署的Bot框架Snowball。


为了紧跟工业界的研发潮流,目前我们正在研发基于交互的下一代对话框架Snowman。它具备Snowball所不具备的多种前端交互方式、主动发问、共情回复、用户偏好修正等功能,它还被赋予更多的能力,如知识图谱问答、推荐系统等


如下图为基于课程数据开发的课程推荐系统CourseGenie,通过询问您想学的技能、感兴趣的事物等问题并结合用户的点击行为实时更新用户偏好,为其推荐最适合的课程。


下一期的专栏文章院长将和大家好好唠唠其中的实现细节,敬请期待!


△ CourseGenie示例


最后再来谈谈知识图谱的应用。


e成科技凭借其在HR行业深耕多年累积下来的知识和数据,发布了一套垂直于HR场景的全行业知识图谱。这套HR场景下全行业最大规模的知识图谱是基于NLP技术结合数据挖掘与专业招聘顾问训练生成的,无论是在招聘、还是培训场景,它都能让机器变得更“聪明”,更像人类那样思考。


通过融合通用百科知识和针对海量简历信息的挖掘,这份知识图谱有着丰富的实体种类,包含职位、技能、专业、学校、公司、学历等八大类实体,实体识别的综合准确率达到85%。


另外,该知识图谱还有千万量级的实体关系来进一步阐述实体间关联,HR行业主要涉及到的实体关系有技能词“Tensorflow”是“Python”的工具的属性关系,有技能词“Tensorflow”和“Pytorch”作为常用的深度学习框架经常一起出现的共现关系,还有职能词“算法工程师”是“软件工程师”的下位词等。


自然语言处理是“认知”的核心技术,是当前人工智能产业的重要发力点。


人力资本行业存在着大量有价值的文本信息,包括求职者的简历信息、企业的招聘信息、面试评价信息、员工服务信息等,NLP等人工智能技术的创新结合与应用将加速人力资本数字化变革升级,推动人力资本管理更加智能、更加高效。


e成科技作为HR赛道的领军者,深耕NLP等多种AI技术在人力资本领域的应用多年,简历解析、人岗匹配和HR机器人三大人力资本核心场景皆有成熟的解决方案,未来将持续以顶尖的AI能力,助力人力资本领域数字化升级。



参考文章

1、https://zhuanlan.zhihu.com/p/83825070

2、https://ai.ifchange.com/

3、https://zhuanlan.zhihu.com/p/47488095


作者:e成科技AI算法团队王奕磊

  • 阅读 2,295
/// HRoot(包含移动应用、网页版)是一款基于大数据和人工智能的内容推荐引擎,内容全部来自内容账号在HRoot内容平台自行发布或授权自动抓取,HRoot不生产内容。以上的本文内容仅代表本文作者或发布机构/发布人、内容账号所属机构或所属人自身观点,不代表HRoot观点或立场。本文内容账号的发布机构/人信息请点击本文标题下方的发布机构/人名称以了解详情。【复制原文出处链接】

本栏目更多精彩文章
暂无相关数据
投诉
更多服务
Follow HRoot:

站点地图|使用条款|隐私政策|安全承诺|法律顾问|著作权声明

Copyright © 2002 - 2020 HRoot, Inc. All Rights Reserved, TEL:021-58215197 FAX:021-58218663沪ICP备05059246号

沪公网安备 31011502009045号