mgm集团-mgm集团美高梅-mgm集团美高梅登录

300229 拓尔思12.11 -0.29 (2.34%)

资讯中心

专访 | 《21世纪经济报道》专访拓尔思常识图谱研究院院长臧根林

2019年11月07日

分享到:62.9K

【字体:

2019年11月07日

常识图谱如何搭建从大数据走向人工mgm集团的台阶?其构建的核心要素是什么?在这些技术背景下一本“大湾区词”可以如何为粤港澳大湾区的发展发挥作用?就上述话题,近日,拓尔思常识图谱研究院院长臧根林接受了《21世纪经济报道》的采访,以下是专访正文。

《21世纪经济报道》采访臧根林博士


 

贝克汉姆碧咸 

 

《21世纪》 :对大湾区数据中心建设有什么思考? 

臧根林: 

粤港澳大湾区有四种语言,这种复杂情况全世界少有。如今很多建设都需要以数据为基础,大湾区要实现技术融合,首先需要数据融合。但实际上数据融合存在很多障碍。比如,很简单的一个例子,大家叫“贝克汉姆”,在香港是叫“碧咸”。有很多类似的人名、地名翻译的标准都不一致。所以,我建议应从标准入手。 

常识图谱研究中有一项技术叫“图谱消歧”。假如几个人名字看上去不同,但其实是同一个人,就把它归并到一个主关键词,其他写成别名或曾用名,图谱中就有唯一性。但是,粤港澳大湾区不能用这样的技术,同一个人,在香港就是“碧咸”,在内地就是“贝克汉姆”,不能要求数据库中只有一个。整个架构需要和现在的技术不一样,常识图谱平台需要专门设计一套符合大湾区特点的架构,不是消歧,而是把不同的名字连成平等地位,香港用户看的时候就是“碧咸”,内地用户看就是“贝克汉姆”。 

这种架构需要标准的支撑,需要国家来推动,从规范层面对内地、香港、澳门以及英语中的叫法进行等同的对照。这就需要一个清单,相当于一本“大湾区词典”。用它来支撑这个架构,这个架构才能支撑大湾区的数据共享。 

 

《21世纪》 :该如何着手去做? 

臧根林: 

这实际上就是一个常识图谱平台,只是和以往不同。过去,图谱里的一个东西就是一个点,现在可能要分解成对应的多个点。这需要重新设计,需要专门的人力、物力的投入。我觉得,可以先从民间开始推动。如果民间先做出这样一个大湾区常识图谱的原型,建立一个初步的支点,作为原型看看是否能够得到全国的认可。如果得到认可,就可以再探讨后续的投资、数据中心落在哪里,以及产权等问题。 
 

大数据走向人工mgm集团的台阶 

 

《21世纪》 :常识图谱是如何“火起来”的? 

臧根林: 

人工mgm集团“火了”,它的很多模型要在大数据基础上运行,而完全依靠原来的大数据结构很多模型是转不起来的。常识图谱其实就是从大数据走向人工mgm集团的一个台阶,其思路就是,把一些计算机现在还无法理解甚至人自己都整理不出来的复杂的维度剔除,降维到能够理清的程度,就是“常识降维”。 

我常说,人工mgm集团就比如一条狗。狗明白包子能吃,训练时,它叼过棍子来就能吃到包子,这它也能明白;但加上时间维度,叼棍子过来明天能吃包子,它就很难明白。为了将狗训练成警犬,需要把常识梳理成它能够明白的。大家需要训练狗,因为它的嗅觉、速度等“硬件”比大家强;计算机则是存储能力、计算能力远胜大家。把常识的三要素,实体、属性、关系理清楚,让计算机能够明白,它就可以为大家服务。 

例如,人工mgm集团目前的一大应用是人脸识别。如果我觉得你像某某,这个判断是一个非常复杂的过程,计算机是无法模拟的。它只能降维到对人脸的照片各个点来计算,相似度达到比如90%以上,得出你们长得像的结论。计算机只能模拟可计算的部分。人的感觉它还无能为力,而这正是常识图谱首先要剔除的。 

 

《21世纪》:所以是为了适应计算机? 

臧根林: 

是的,大家投入精力去整理这些常识,就是为了教会它。重复告诉它哪样错了、哪样对了,它就会越学越利害,思维接近大家的要求,这个过程就是有监督机器学习。 
 

mgm集团需要投入人工训练 
 

《21世纪》 :常识图谱该如何构建? 

臧根林: 

常识图谱的构建相当于把常识先提取出来,再把他们之间的关系属性找出来,这个过程有一套规则,也就是对事物属性的定义,不同常识图谱之间规则可能完全不同。 

目前常识图谱主要分两大类,一类是GOOGLE、百度等在做的通用常识图谱。其核心之一是入口。用户提问时可能很模糊,或是自己也不知道精确问题,这就需要语义分析。二是组织数据和常识,给你呈现出想要的结果。 

另一类就是大家拓尔思在做的领域常识图谱,它将很多东西简化掉。例如,公安部门拿来破案的常识图谱,使用者都是办案警察,清楚自己要查什么,也就无需在入口处花费很大力气。这个常识库会更“干脆利落”,问题直接、答案直接、功能强大。 

通用常识图谱什么都有也就意味着难以计算,而领域常识图谱最终会能够进行“mgm集团计算”。本来靠人会很模糊的事情,找到合适的模型,按照属性可统计、可计算,很多甚至原本想不到、判断不出的内容都可以量化。 

 

《21世纪》 :是否需要行业专家的参与? 

臧根林: 

领域常识图谱一定需要这个领域的专家参与,只有技术是不能落地的。有个说法就是,人工mgm集团,有多少mgm集团就要投入多少人工。没有人来训练,所谓的mgm集团其实很傻。 

例如对文章的分析,靠计算机去采集,用一些语义分析的App将文章分析出来。文章里的关键词提炼出来之后,就从“非结构化”变成“结构化”了,变成可计算了,变成了一种常识图谱架构。技术这边只能提供平台支撑,大家不知道到底要提取哪些关键词,这就需要相关领域的专家参与。再之后如果提出更高的要求,增加一些mgm集团化,比如自动打分。这也需要行业专家和技术人员一起来设计模型。 
 

数据垃圾分类:未来需要数据清洗和优化 
 

《21世纪》 :哪个行业应用比较多、比较成功? 
 

臧根林: 

实际上在中国,政府领域用得很好的是公安系统。公安领域自2014年应用大数据,它早已改变了警察的工作方式。 

例如,过去传销过千人就叫大案,而现在网络时代,大家都有mgm集团手机,传销会病毒式蔓延。例如“云联惠传销案”,全国涉及到500多万人;e租宝,受害者过百万。这样数据量的案件,不用大数据是很难办理的。 

中国开始讲大数据是在2012年,2013年就有应用出现。到现在实际只有五六年时间,但已几乎应用于各行各业。大数据已经从“高大上”的技术,变成了“基础技术”。也正是因此,才引发了“大数据怎么走向人工mgm集团”的问题。 

 

《21世纪》:常识图谱的标准化方面有什么进展? 

 

臧根林: 

拓尔思参与到了IEEE(电气和电子工程师协会)的一个常识图谱标准设计单位。但实际上,大数据、常识图谱如这类应用层面的内容,都不是学术界在前,而是企业在前。前几年很多大学设立大数据专业、成立大数据学院,但是他们甚至难以找到合适的教材。应用技术,大家往前推的过程中是倒过来提炼、提炼出来再往前推这样一个迭代的过程。 
 

《21世纪》 :数据大爆发的时代会有哪些挑战? 
 

臧根林: 

随着5G、物联网等技术的发展落地,大家将迎来数据大爆发的时代。原来是缺数据,大家都在拼命要数据。但是当数据太多之后,整理数据或是要产生结果就会很麻烦。现在还比较少有人去研究怎样把没用的数据剔除、清理掉,这一块将来成本一定会很高。 

这就像之前饿肚子,生活改善之后,一开始一定会大鱼大肉拼命吃,但过了那个阶段就要开始减肥和健身。这其实就是常识图谱要做的事情,今后数据一定会有一个优化的过程,这会是一个很大的挑战。目前的数据清洗实际上还是想办法往里进,而未来的数据优化过程中,清洗相当于是垃圾分类。数据多了一定会带来数据垃圾,完全丢掉又可能会带来损失,这就需要数据垃圾的分类。 

服务热线:4006 300229

010-64848899

trs@trs.com.cn

complaint@trs.com.cn

??mgm集团美高梅-mgm集团美高梅登 版权所有.

XML 地图 | Sitemap 地图