深兰科技获CCKS2020金融领域任务冠军,为该领域提供重要决策参考

2020-11-17 网络
浏览
[人工智能]深兰科技获CCKS2020金融领域任务冠军,为该领域提供重要决策参考

11月12~15日,国内学问图谱和语义盘算等范畴的中心学术集会CCKS2020,在江西南昌胜利举办,深兰科技DeepBlueAI团队初次列入即斩获三冠一亚,成为本届集会唯一取得多个冠军的部队。团队离别在“新冠百科学问图谱范例揣摸”、“面向金融范畴的篇章级事宜主体抽取”、“基于标题的大规模商品实体检索”这三个(子)使命中夺得第一,在“面向中文短文本的实体链指”使命中仅以0.00002分之差屈居第二。另外,本届组委会还迥殊评选出每一使命最多一项的“立异手艺奖”,特地用于勉励立异性手艺的运用,深兰科技在“基于标题的大规模商品实体检索”的使命中再次脱颖而出。

第十四届全国学问图谱与语义盘算大会(CCKS:China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会言语与学问盘算专业委员会主理,主题是“学问图谱与认知智能”,共设立8个相干主题的手艺评测使命,旨在为研究人员供应测试学问图谱与语义盘算手艺、算法及体系的平台和资本,增进国内学问图谱范畴的手艺发展,此次吸收了包含华为、百度、腾讯、小米、北京大学、上海交通大学、浙江大学等知名企业和学府的团队同台竞技。

跟着互联网手艺的飞速发展,人们逐步从信息时期进入智能时期。学问图谱作为承载底层海量学问并支持上层智能运用的主要载体,在智能时期中扮演了极其主要的角色。特别多模态学问图谱的构建,可以让基于学问图谱的智能效劳更好地明白实在天下的数据场景,进而更好地支持各项上游使命和行业运用,如引荐体系、语义搜刮、智能问答等。深兰科技夺冠的三个使命计划,离别可在电商、金融、舆情监控等范畴的运用上发挥主要作用。

“新冠百科学问图谱范例揣摸”使命,请求从实体百科(包含百度百科、互动百科、维基百科、医学百科)页面动身,从给定的数据中揣摸相干实体的范例。但是,大批范例信息以非结构化文本情势显现于收集页面中,文本处置惩罚难度大,抽取效果同时保证高准确度和覆盖率仍然是个极大的应战。针对数据集的特性,DeepBlueAI团队构建了数个基于BERT模子的文本分类器,并引入了多个外部数据集,末了将这些分类器举行融会获得终究推断效果。实体范例是学问图谱的主要构成,准确的实体范例是构建一个高质量学问图谱的条件。

“事宜”在金融范畴是投资剖析、资产治理的主要决议计划参考,也是学问图谱的主要构成部份,而“事宜抽取”是举行图谱推理、事宜剖析的必要历程。在金融范畴,“事宜抽取”是一项十分主要的使命,也是自然言语处置惩罚范畴一项比较庞杂的使命,它的应战相称部份体现在文本庞杂上:输入的文本多是句子、段落或许篇章,不定长度的文本使得限定文本长度的模子没法运用。“面向金融范畴的篇章级事宜主体抽取”使命中,团队运用了多标签事宜分类加实体辨认Pipeline模子,在规范的多标签分类模子中加入了特征提取模块,实体辨认模子采纳BERT-LSTM-CRF与浏览明白投票融会的体式格局,终究以较大上风取得第一。

“基于标题的大规模商品实体检索”是典范的语义辨认类使命,在网购已经成为一种生活体式格局的条件下,具有异常有用的代价。商品标题平常较短,上下文语境不雄厚;用户搜刮时,文本口语化严峻;商品标题中存在许多变异指代,没有给定的指代映射表;这都须要对上下文语境举行精准明白,具有很大的应战。团队针对商品检索使命采纳召回-粗排-精排的总体计划,在召回阶段摒弃了bm25、dssm等主流召回手艺,立异性地运用Triplet BERT模子举行召回,在排序阶段采纳基于BERT的二分类排序体式格局,检索准确率到达0.88489。终究不只排名第一,还收成了立异手艺奖。