刘焕勇,NLP开源爱好者与践行者,主要研究方向为知识图谱大模型数据挖掘、评估知识增强

我的github项目:https://liuhuanyong.github.io

我的csdn技术博客:https://blog.csdn.net/lhy2014

我的技术公众号及社区:老刘说NLP

懂语言者,得天下。得语言资源者,定天下。掌语言逻辑者,游得天下



对外技术分享(部分)

分享主题
老刘说NLP社区:【第十一讲】《老刘说NLP的2024年第一个半月总结-关于MOE、RAG搜索增强以及大模型进展的一些事儿》
老刘说NLP社区:【第十讲】《老刘说NLP的2023年年终总结-关于大模型和知识图谱的一些事儿》
CCF中国计算机学会:《浅谈大模型与知识图谱的结合:近期的几点方向探索与心得总结》
复旦大学:《领域知识(事件)图谱的构建、关键技术与工业应用落地探索》
AIDD2023-深圳:《KG+LLM在行业知识管理场景的应用》
DatafunTalk 2023-深圳:《大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索》
DatafunTalk:《大模型研发核心:数据工程、自动化评估及与知识图谱的结合》
老刘说NLP社区:【第九讲】《大模型研发的基本理论到若干实践》
老刘说NLP社区:【第八讲】《大模型、知识图谱与文档智能的落地技术结合范式、开源案例及几点思考》
老刘说NLP社区:【第七讲】《一些有趣的行业微调大模型实现范式及几点思考》
老刘说NLP社区:【第六讲】《面向小白的知识图谱与NLP入门建议与进阶学习路径》
老刘说NLP社区:【第五讲】《事件驱动下的情报演化分析技术与代表案例-以学迹、eventregistry等为例》
老刘说NLP社区:【第四讲】《KBQA知识图谱问答关键技术与开源项目实操》
老刘说NLP社区:【第三讲】《面向KG构建的文本标注任务、工具、策略与动手实践》
老刘说NLP社区:【第二讲】《领域事理图谱的构建与应用初探》
老刘说NLP社区:【第一讲】《领域知识与事件图谱的建设挑战与落地应用探索》

老刘说NLP技术专题(部分)

技术主题
预训练模型:关于大模型数据、评估、训练的一些技术总结
知识图谱:关于知识图谱的理论、实践及思考
事件图谱:关于事件、事理图谱的理论、实践及思考
大模型RAG问答:关于知识增强的一些策略与范式

开源项目(68项)

常识推理

项目名称 中文名称 项目分类 更新日期
CommonSchemaKG 开放通用实体与事件schema工程 常识推理 2021/04/27
CognitiveInference 认知图谱及其推理 常识推理 2020/8/30
EventPredictBasedOnEG 基于因果事理的事件预测 常识推理 2019/3/29

系统平台

项目名称 中文名称 项目分类 更新日期
EventKGNELL 实时事理知识库构建系统 系统平台 2020/3/18
LanguageKnowledgeGraph 语言政策领域知识图谱系统 系统平台 2018/3/14
LanguagePlatform 自然语言处理综合平台 系统平台 2018/3/6

知识问答

项目名称 中文名称 项目分类 更新日期
QASystemOnMedicalKG 医疗知识图谱问答 知识问答 2020/8/13
QAonMilitaryKG 武器装备知识图谱问答 知识问答 2020/4/19
ZhidaoChatbot 基于知道数据的机器问答 知识问答 2019/3/29
CrimeKgAssitant 法律罪名预测与机器问答 知识问答 2018/12/15
MusicLyricChatbot 基于es的歌词接龙问答 知识问答 2018/10/15

知识图谱

项目名称 中文名称 项目分类 更新日期
AbstractKnowledgeGraph 抽象上下位知识图谱数据集 知识图谱 2019/8/6
PersonGraphDataSet 人物关系图谱数据集 知识图谱 2021/1/26
CausalCollocation 因果搭配抽取数据集 知识图谱 2019/4/22
ProductKnowledgeGraph 产品知识图谱数据集 知识图谱 2019/4/1

语言资源

项目名称 中文名称 项目分类 更新日期
DomainWordsDict 领域特征词汇知识库 语言资源 2021/8/28
ChineseDiachronicCorpus 中文历时语料库 语言资源 2021/1/13
ChineseSemanticKB 中文语义知识库数据集 语言资源 2020/7/18
CausalCollocation 百度知道类问答数据集 语言资源 2019/8/6
HistoryHotEventBase 历时热点事件数据集 语言资源 2019/4/22
ChineseNLPCorpus 中文开放语料数据集 语言资源 2018/12/16
ChineseEmbedding 基于word2vec的中文向量数据集 语言资源 2018/12/15
BaikeKnowledgeSchema 百科分类知识库数据集 语言资源 2018/4/25

语言工具

项目名称 中文名称 项目分类 更新日期
ChineseAntiword 中文反义词组件 语言工具 2018/8/26
ChineseCixing 中文字形拆解组件 语言工具 2018/8/26
QueryCorrection 基于HMM的问句纠错 语言工具 2018/5/27
Pinyin2Chinese 基于HMM的拼音转汉字 语言工具 2018/4/24
Word2Vector 基于共现、PCA、CBOW的词向量生成 语言工具 2019/4/22
Pinyin2Chinese 基于HMM的拼音转汉字 语言工具 2018/4/24
HuanNLP 手写的分词、词性标注、依存句法分析组件 语言工具 2018/4/14
WordSegment 基于HMM、最大切分的中文分词 语言工具 2018/3/27
Sentence2Vector 基于CBOW的句子向量生成 语言工具 2018/3/25

信息抽取

项目名称 中文名称 项目分类 更新日期
EventTriplesExtraction 主谓宾事件三元组抽取 信息抽取 2021/1/12
DescriptionKBExtraction 概念描述三元组抽取 信息抽取 2020/7/24
PersonRelationKnowledgeGraph 基于boostrapping的人物关系抽取 信息抽取 2018/12/15
QueryCorrection 基于HMM的问句纠错 信息抽取 2018/5/27
LawCrimeMining 法律条文知识抽取 信息抽取 2018/12/15
MedicalNamedEntityRecognition 医疗命名实体识别 信息抽取 2018/12/15
HyponymyExtraction 基于百科数据的上下位抽取 信息抽取 2018/10/7
TextFeatureExtraction 基于 CHI、DF、 IG、MI的文本特征词提取 信息抽取 2018/4/18
KeyInfoExtraction 基于TFIDF、TextRank的关键词、摘要提取 信息抽取 2018/4/17
WordCollocation 基于MI的词语搭配抽取 信息抽取 2018/4/5
BaikeInfoExtraction 面向百科的半结构化信息抽取 信息抽取 2018/3/30

信息采集

项目名称 中文名称 项目分类 更新日期
WeiboIndexSpyder 微博指数采集 信息采集 2018/5/29
AliIndexSpyder 阿里商品指数采集 信息采集 2018/8/26
QueryCorrection 基于HMM的问句矫正 信息采集 2018/5/29
BaiduIndexSpyder 百度指数采集 信息采集 2018/5/27
SougouWordsCollector 基于搜狗输入法的领域词收集 信息采集 2018/4/25

文本生成

项目名称 中文名称 项目分类 更新日期
Seq2seqAttGeneration 序列到序列加注意力机制的文本生成 文本生成 2021/1/11
Seq2seqGeneration 序列到序列的文本生成 文本生成 2021/1/6
Seq2SeqTranslation 基于seq2seq的中英翻译 文本生成 2018/5/27

文本计算

项目名称 中文名称 项目分类 更新日期
SinglepassTextCluster 基于Singlepass的增量快速文本聚类 文本计算 2021/09/04
SiameseSentenceSimilarity 基于孪生网络的句子相似度计算 文本计算 2019/12/5
IdealWordCloudKit 自定义词云可视化 文本计算 2019/1/26
EventMonitor 基于搜索引擎的事件监测 文本计算 2018/12/15
SentenceSimilarity 基于规则与向量化的句子相似度计算 文本计算 2018/12/15
ChineseTextualInference 中文文本蕴含推断 文本计算 2018/12/15
WordMultiSenseDisambiguation 基于百科的词语消歧 文本计算 2018/12/15
TopicCluster 基于lda与k-means的话题聚类 文本计算 2018/12/15
ImportantEventExtractor 事件重要性判定与时间线生成 文本计算 2018/10/7
PoemMining 基于诗歌数据的诗人足迹挖掘 文本计算 2018/10/7
TextGrapher 基于关键信息的文本图谱化 文本计算 2018/10/6

事理抽取

项目名称 中文名称 项目分类 更新日期
SequentialEventExtration 基于游记的顺承事件抽取 事理抽取 2018/12/15
CausalityEventExtraction 基于规则的因果事件抽取 事理抽取 2018/12/15
ComplexEventExtraction 基于规则的复合事件抽取 事理抽取 2018/12/15

情感计算

项目名称 中文名称 项目分类 更新日期
DocSentimentAnalysis 篇章级情感分析 情感计算 2019/6/11
ChineseHumorSentiment 中文幽默情感计算 情感计算 2018/12/15
ZhuguanDetection 基于规则的主观性计算 情感计算 2018/10/6
SentimentWordExpansion 基于SO-PMI的情感词扩展 情感计算 2018/4/5
SentenceSentimentClassifier 基于MLP, CNN, RNN的情感分类 情感计算 2018/3/24