一、会议
1.全国知识图谱与语义计算大会(CCKS)
全国知识图谱与语义计算大会(CCKS)每年都会举办一些竞赛评测。CCKS系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。今年大会网址:http://www.ccks2019.cn。 实体消歧数据下载地址:https://github.com/zhusleep/ner_entity_linking
二、数据集
参考链接:
https://github.com/niderhoff/nlp-datasets/blob/master/README.md
https://github.com/fighting41love/funNLP
DBpedia:包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息,其中2.57亿条来自维基百科英文版,7.66亿条来自其他语言版本(17 GB)
美国政客的社交媒体消息分类:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)(4 MB)注:该网站还有其他大量CV、NLP和语音方面的小型数据集
外交:来自 12 场外交游戏的 17,000 条对话消息,为真实性注解 (3 MB)识别文本中的关键短语:问题/答案对+上下文;如果与问题/答案相关,则判断上下文。(8 MB)
知事网:智视网致力于打造中文链接开放数据。目前,它涵盖了三大中文百科全书:百度百科、沪东百科和中文维基百科。 KBP:KBP(Knowledge Base Population)评测数据集使用维基百科作为背景知识库,从新闻 和网络文本中不断更新和扩充知识库。KBP 评测包含实体消歧任务,其提供的数据集并 广泛地被国内外学者用来评测实体消歧模型的优劣。
三、选择的存储方式
1.MongoDB
BSON和JSON的区别
BSON(Binary JSON)这种格式是专门为MongoDB而开发的,类似JSON的一种二进制格式。
BSON 与 JSON :
1.BSON包含了JSON没有的数据类型,比如Date和BinData。
2.BSON需要的存储空间比JSON少,存储效率也比JSON高。(轻量)
3.JSON存储是像字符串一样,而BSON是按结构存储的(像数组 或者struct)
4.JSON修改要大动大移,需要扫字符串,而BSON就不需要,可以直接定位。(可遍历)
5. BSON的编码与解码速度很快。(高效)
6.某些情况,BSON会牺牲额外的空间让数据的传输更加方便。比如,字符串的传输的前缀会标识字符串的长度,而不是在字符串的末尾打上结束的标记。这样的传输形式有利于MongoDB修改传输的数据。
链接:https://www.jianshu.com/p/2b67b56e0586
一个Document的BSON表示
{ title:”MongoDB”, last_editor:”192.168.1.122”, last_modified:new Date(“27/06/2011”), body:”MongoDB introduction”, categories:[“Database”,”NoSQL”,”BSON”], revieved:false }
这是一个简单的BSON结构体,其中每一个element都是由key/value对组成的
参考链接:https://blog.csdn.net/m0_38110132/article/details/77716792
四、比较出名的人
刘焕勇:https://liuhuanyong.github.io/
刘焕勇,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。目前发表相关论文2篇、申请发明专利6项、主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目60余个,在openkg开放知识图谱联盟中开放工业应用知识库9类,主笔数地工场技术类系列文章20余篇。 现任:360人工智能研究院算法专家 曾任:中国科学院软件研究所工程师,曾兼任数据地平线科技算法总监、南京擎盾科技技术顾问 lhy_in_blcu@126.com https://blog.csdn.net/lhy2014 https://github.com/liuhuanyong 公众号:老刘说NLP 微信:lhy19932011 懂语言者,得天下。得语言资源者,定天下。掌语言逻辑者,游得天下 语言资源知识工程事理逻辑事件推理社会计算
