研究方向:知识图谱大模型微调及评估RAG文档理解

github项目:https://liuhuanyong.github.io

技术社区:老刘说NLP

个人简介:刘焕勇,360人工智能研究院资深算法专家,知识图谱及文档理解算法方向负责人,曾就职于中国科学院。近年来主持或参与研制全行业事理图谱、360百科图谱、知识图谱平台、文档理解大模型、360智脑自研大模型等项目。申请发明专利十余项、核心论文数篇,开源项目60余项。在国际OGB-Wikikg2实体链接以及国内CCKS多模态实体匹配等KG/NLP/文档智能领域评测中获得冠亚军名次。创立“老刘说NLP”社区,具有广泛影响力。

技术格言:懂语言者,得天下。得语言资源者,定天下。掌语言逻辑者,游得天下



对外技术分享(部分)

分享主题
CCF中国计算机学会:《浅谈大模型与知识图谱的结合:近期的几点方向探索与心得总结》
复旦大学:《领域知识(事件)图谱的构建、关键技术与工业应用落地探索》
AIDD2023-深圳:《KG+LLM在行业知识管理场景的应用》
DatafunTalk 2023-深圳:《大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索》
DatafunTalk:《大模型研发核心:数据工程、自动化评估及与知识图谱的结合》

老刘说NLP技术专题(部分)

技术主题
预训练模型:关于大模型数据、评估、训练的一些技术总结
知识图谱:关于知识图谱的理论、实践及思考
事件图谱:关于事件、事理图谱的理论、实践及思考
大模型RAG问答:关于知识增强的一些策略与范式

开源项目(68项)

常识推理

项目名称 中文名称 项目分类 更新日期
CommonSchemaKG 开放通用实体与事件schema工程 常识推理 2021/04/27
CognitiveInference 认知图谱及其推理 常识推理 2020/8/30
EventPredictBasedOnEG 基于因果事理的事件预测 常识推理 2019/3/29

系统平台

项目名称 中文名称 项目分类 更新日期
EventKGNELL 实时事理知识库构建系统 系统平台 2020/3/18
LanguageKnowledgeGraph 语言政策领域知识图谱系统 系统平台 2018/3/14
LanguagePlatform 自然语言处理综合平台 系统平台 2018/3/6

知识问答

项目名称 中文名称 项目分类 更新日期
QASystemOnMedicalKG 医疗知识图谱问答 知识问答 2020/8/13
QAonMilitaryKG 武器装备知识图谱问答 知识问答 2020/4/19
ZhidaoChatbot 基于知道数据的机器问答 知识问答 2019/3/29
CrimeKgAssitant 法律罪名预测与机器问答 知识问答 2018/12/15
MusicLyricChatbot 基于es的歌词接龙问答 知识问答 2018/10/15

知识图谱

项目名称 中文名称 项目分类 更新日期
AbstractKnowledgeGraph 抽象上下位知识图谱数据集 知识图谱 2019/8/6
PersonGraphDataSet 人物关系图谱数据集 知识图谱 2021/1/26
CausalCollocation 因果搭配抽取数据集 知识图谱 2019/4/22
ProductKnowledgeGraph 产品知识图谱数据集 知识图谱 2019/4/1

语言资源

项目名称 中文名称 项目分类 更新日期
DomainWordsDict 领域特征词汇知识库 语言资源 2021/8/28
ChineseDiachronicCorpus 中文历时语料库 语言资源 2021/1/13
ChineseSemanticKB 中文语义知识库数据集 语言资源 2020/7/18
CausalCollocation 百度知道类问答数据集 语言资源 2019/8/6
HistoryHotEventBase 历时热点事件数据集 语言资源 2019/4/22
ChineseNLPCorpus 中文开放语料数据集 语言资源 2018/12/16
ChineseEmbedding 基于word2vec的中文向量数据集 语言资源 2018/12/15
BaikeKnowledgeSchema 百科分类知识库数据集 语言资源 2018/4/25

语言工具

项目名称 中文名称 项目分类 更新日期
ChineseAntiword 中文反义词组件 语言工具 2018/8/26
ChineseCixing 中文字形拆解组件 语言工具 2018/8/26
QueryCorrection 基于HMM的问句纠错 语言工具 2018/5/27
Pinyin2Chinese 基于HMM的拼音转汉字 语言工具 2018/4/24
Word2Vector 基于共现、PCA、CBOW的词向量生成 语言工具 2019/4/22
Pinyin2Chinese 基于HMM的拼音转汉字 语言工具 2018/4/24
HuanNLP 手写的分词、词性标注、依存句法分析组件 语言工具 2018/4/14
WordSegment 基于HMM、最大切分的中文分词 语言工具 2018/3/27
Sentence2Vector 基于CBOW的句子向量生成 语言工具 2018/3/25

信息抽取

项目名称 中文名称 项目分类 更新日期
EventTriplesExtraction 主谓宾事件三元组抽取 信息抽取 2021/1/12
DescriptionKBExtraction 概念描述三元组抽取 信息抽取 2020/7/24
PersonRelationKnowledgeGraph 基于boostrapping的人物关系抽取 信息抽取 2018/12/15
QueryCorrection 基于HMM的问句纠错 信息抽取 2018/5/27
LawCrimeMining 法律条文知识抽取 信息抽取 2018/12/15
MedicalNamedEntityRecognition 医疗命名实体识别 信息抽取 2018/12/15
HyponymyExtraction 基于百科数据的上下位抽取 信息抽取 2018/10/7
TextFeatureExtraction 基于 CHI、DF、 IG、MI的文本特征词提取 信息抽取 2018/4/18
KeyInfoExtraction 基于TFIDF、TextRank的关键词、摘要提取 信息抽取 2018/4/17
WordCollocation 基于MI的词语搭配抽取 信息抽取 2018/4/5
BaikeInfoExtraction 面向百科的半结构化信息抽取 信息抽取 2018/3/30

信息采集

项目名称 中文名称 项目分类 更新日期
WeiboIndexSpyder 微博指数采集 信息采集 2018/5/29
AliIndexSpyder 阿里商品指数采集 信息采集 2018/8/26
QueryCorrection 基于HMM的问句矫正 信息采集 2018/5/29
BaiduIndexSpyder 百度指数采集 信息采集 2018/5/27
SougouWordsCollector 基于搜狗输入法的领域词收集 信息采集 2018/4/25

文本生成

项目名称 中文名称 项目分类 更新日期
Seq2seqAttGeneration 序列到序列加注意力机制的文本生成 文本生成 2021/1/11
Seq2seqGeneration 序列到序列的文本生成 文本生成 2021/1/6
Seq2SeqTranslation 基于seq2seq的中英翻译 文本生成 2018/5/27

文本计算

项目名称 中文名称 项目分类 更新日期
SinglepassTextCluster 基于Singlepass的增量快速文本聚类 文本计算 2021/09/04
SiameseSentenceSimilarity 基于孪生网络的句子相似度计算 文本计算 2019/12/5
IdealWordCloudKit 自定义词云可视化 文本计算 2019/1/26
EventMonitor 基于搜索引擎的事件监测 文本计算 2018/12/15
SentenceSimilarity 基于规则与向量化的句子相似度计算 文本计算 2018/12/15
ChineseTextualInference 中文文本蕴含推断 文本计算 2018/12/15
WordMultiSenseDisambiguation 基于百科的词语消歧 文本计算 2018/12/15
TopicCluster 基于lda与k-means的话题聚类 文本计算 2018/12/15
ImportantEventExtractor 事件重要性判定与时间线生成 文本计算 2018/10/7
PoemMining 基于诗歌数据的诗人足迹挖掘 文本计算 2018/10/7
TextGrapher 基于关键信息的文本图谱化 文本计算 2018/10/6

事理抽取

项目名称 中文名称 项目分类 更新日期
SequentialEventExtration 基于游记的顺承事件抽取 事理抽取 2018/12/15
CausalityEventExtraction 基于规则的因果事件抽取 事理抽取 2018/12/15
ComplexEventExtraction 基于规则的复合事件抽取 事理抽取 2018/12/15

情感计算

项目名称 中文名称 项目分类 更新日期
DocSentimentAnalysis 篇章级情感分析 情感计算 2019/6/11
ChineseHumorSentiment 中文幽默情感计算 情感计算 2018/12/15
ZhuguanDetection 基于规则的主观性计算 情感计算 2018/10/6
SentimentWordExpansion 基于SO-PMI的情感词扩展 情感计算 2018/4/5
SentenceSentimentClassifier 基于MLP, CNN, RNN的情感分类 情感计算 2018/3/24