👋 我是刘焕勇,liuhuanyong,现任360人工智能研究院资深算法专家,知识图谱及文档理解方向负责人,北京大学大数据分析与应用技术国家工程实验室成员,曾就职于中国科学院软件研究所,为腾讯云TVP(最具价值专家)

💗 研究方向:知识图谱(Knowledge Graph)、文档智能(Document Intelligence)、RAG知识增强(Retrieval-Augmented Generation)、文本计算(Text Computation)

🧵 主导或参与项目:全行业事理图谱(学迹)、360百科图谱(右侧推荐)、360自研文档解析系统(360Structure),360智脑大模型(数据挖掘与评测);

🛞 论文及专利:发明专利授权3项、申请十余项,中文信息学报、TOIS(CCF-A)、ICASSP(CCF-B)顶会论文数篇;

🏆 国内外竞赛:CCKS2022多模态实体对齐、OGB-Wikikg2实体链接预测、ICPR2024多行公式识别、ICDAR2025文档翻译及问答等获TOP1-3;

🎦 开源项目:NLP项目70余项,累计star数超2W,代表项目QASystemOnMedicalKG(star数6.8k, fork数2.2k),follower数超6k,GithubRanker中国区排名TOP 70;

📐 技术分享:ISC2024(世界互联网大会)、WAIC2024(世界人工智能大会)、CCF-Talk(中国计算机学会)、CSDN-ML(机器学习峰会)、AIDD、DatafunTalk等;

🏠 技术社区:创立**老刘说NLP**技术公众号/社区,粉丝数超53K,围绕知识图谱、文档智能、RAG、大模型四个主题,原创文章860+;



开源项目(68项)

常识推理

项目名称 中文名称 项目分类 更新日期
CommonSchemaKG 开放通用实体与事件schema工程 常识推理 2021/04/27
CognitiveInference 认知图谱及其推理 常识推理 2020/8/30
EventPredictBasedOnEG 基于因果事理的事件预测 常识推理 2019/3/29

系统平台

项目名称 中文名称 项目分类 更新日期
EventKGNELL 实时事理知识库构建系统 系统平台 2020/3/18
LanguageKnowledgeGraph 语言政策领域知识图谱系统 系统平台 2018/3/14
LanguagePlatform 自然语言处理综合平台 系统平台 2018/3/6

知识问答

项目名称 中文名称 项目分类 更新日期
QASystemOnMedicalKG 医疗知识图谱问答 知识问答 2020/8/13
QAonMilitaryKG 武器装备知识图谱问答 知识问答 2020/4/19
ZhidaoChatbot 基于知道数据的机器问答 知识问答 2019/3/29
CrimeKgAssitant 法律罪名预测与机器问答 知识问答 2018/12/15
MusicLyricChatbot 基于es的歌词接龙问答 知识问答 2018/10/15

知识图谱

项目名称 中文名称 项目分类 更新日期
AbstractKnowledgeGraph 抽象上下位知识图谱数据集 知识图谱 2019/8/6
PersonGraphDataSet 人物关系图谱数据集 知识图谱 2021/1/26
CausalCollocation 因果搭配抽取数据集 知识图谱 2019/4/22
ProductKnowledgeGraph 产品知识图谱数据集 知识图谱 2019/4/1

语言资源

项目名称 中文名称 项目分类 更新日期
DomainWordsDict 领域特征词汇知识库 语言资源 2021/8/28
ChineseDiachronicCorpus 中文历时语料库 语言资源 2021/1/13
ChineseSemanticKB 中文语义知识库数据集 语言资源 2020/7/18
CausalCollocation 百度知道类问答数据集 语言资源 2019/8/6
HistoryHotEventBase 历时热点事件数据集 语言资源 2019/4/22
ChineseNLPCorpus 中文开放语料数据集 语言资源 2018/12/16
ChineseEmbedding 基于word2vec的中文向量数据集 语言资源 2018/12/15
BaikeKnowledgeSchema 百科分类知识库数据集 语言资源 2018/4/25

语言工具

项目名称 中文名称 项目分类 更新日期
ChineseAntiword 中文反义词组件 语言工具 2018/8/26
ChineseCixing 中文字形拆解组件 语言工具 2018/8/26
QueryCorrection 基于HMM的问句纠错 语言工具 2018/5/27
Pinyin2Chinese 基于HMM的拼音转汉字 语言工具 2018/4/24
Word2Vector 基于共现、PCA、CBOW的词向量生成 语言工具 2019/4/22
Pinyin2Chinese 基于HMM的拼音转汉字 语言工具 2018/4/24
HuanNLP 手写的分词、词性标注、依存句法分析组件 语言工具 2018/4/14
WordSegment 基于HMM、最大切分的中文分词 语言工具 2018/3/27
Sentence2Vector 基于CBOW的句子向量生成 语言工具 2018/3/25

信息抽取

项目名称 中文名称 项目分类 更新日期
EventTriplesExtraction 主谓宾事件三元组抽取 信息抽取 2021/1/12
DescriptionKBExtraction 概念描述三元组抽取 信息抽取 2020/7/24
PersonRelationKnowledgeGraph 基于boostrapping的人物关系抽取 信息抽取 2018/12/15
QueryCorrection 基于HMM的问句纠错 信息抽取 2018/5/27
LawCrimeMining 法律条文知识抽取 信息抽取 2018/12/15
MedicalNamedEntityRecognition 医疗命名实体识别 信息抽取 2018/12/15
HyponymyExtraction 基于百科数据的上下位抽取 信息抽取 2018/10/7
TextFeatureExtraction 基于 CHI、DF、 IG、MI的文本特征词提取 信息抽取 2018/4/18
KeyInfoExtraction 基于TFIDF、TextRank的关键词、摘要提取 信息抽取 2018/4/17
WordCollocation 基于MI的词语搭配抽取 信息抽取 2018/4/5
BaikeInfoExtraction 面向百科的半结构化信息抽取 信息抽取 2018/3/30

信息采集

项目名称 中文名称 项目分类 更新日期
WeiboIndexSpyder 微博指数采集 信息采集 2018/5/29
AliIndexSpyder 阿里商品指数采集 信息采集 2018/8/26
QueryCorrection 基于HMM的问句矫正 信息采集 2018/5/29
BaiduIndexSpyder 百度指数采集 信息采集 2018/5/27
SougouWordsCollector 基于搜狗输入法的领域词收集 信息采集 2018/4/25

文本生成

项目名称 中文名称 项目分类 更新日期
Seq2seqAttGeneration 序列到序列加注意力机制的文本生成 文本生成 2021/1/11
Seq2seqGeneration 序列到序列的文本生成 文本生成 2021/1/6
Seq2SeqTranslation 基于seq2seq的中英翻译 文本生成 2018/5/27

文本计算

项目名称 中文名称 项目分类 更新日期
SinglepassTextCluster 基于Singlepass的增量快速文本聚类 文本计算 2021/09/04
SiameseSentenceSimilarity 基于孪生网络的句子相似度计算 文本计算 2019/12/5
IdealWordCloudKit 自定义词云可视化 文本计算 2019/1/26
EventMonitor 基于搜索引擎的事件监测 文本计算 2018/12/15
SentenceSimilarity 基于规则与向量化的句子相似度计算 文本计算 2018/12/15
ChineseTextualInference 中文文本蕴含推断 文本计算 2018/12/15
WordMultiSenseDisambiguation 基于百科的词语消歧 文本计算 2018/12/15
TopicCluster 基于lda与k-means的话题聚类 文本计算 2018/12/15
ImportantEventExtractor 事件重要性判定与时间线生成 文本计算 2018/10/7
PoemMining 基于诗歌数据的诗人足迹挖掘 文本计算 2018/10/7
TextGrapher 基于关键信息的文本图谱化 文本计算 2018/10/6

事理抽取

项目名称 中文名称 项目分类 更新日期
SequentialEventExtration 基于游记的顺承事件抽取 事理抽取 2018/12/15
CausalityEventExtraction 基于规则的因果事件抽取 事理抽取 2018/12/15
ComplexEventExtraction 基于规则的复合事件抽取 事理抽取 2018/12/15

情感计算

项目名称 中文名称 项目分类 更新日期
DocSentimentAnalysis 篇章级情感分析 情感计算 2019/6/11
ChineseHumorSentiment 中文幽默情感计算 情感计算 2018/12/15
ZhuguanDetection 基于规则的主观性计算 情感计算 2018/10/6
SentimentWordExpansion 基于SO-PMI的情感词扩展 情感计算 2018/4/5
SentenceSentimentClassifier 基于MLP, CNN, RNN的情感分类 情感计算 2018/3/24