yongzhuo/Macropodus

自然语言处理工具Macropodus，基于Albert+BiLSTM+CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现，关键词，文本摘要，文本相似度，科学计算器，中文数字阿拉伯数字(罗马数字)转换，中文繁简转换，拼音转换。tookit(tool) of NLP，CWS(chinese word segnment)，POS(Part-Of-Speech Tagging)，NER(name entity recognition)，Find(new words discovery)，Keyword(keyword extraction)，Summarize(text summarization)，Sim(text similarity)，Calculate(scientific calculator)，Chi2num(chinese number to arabic number)

4 Releases

Latest: 5y ago

Macropodus版本v0.0.7v0.0.7Latest

yongzhuo·5y ago·December 31, 2020

GitHub

fix pip install .whl bug of numpy-pandas

Macropodus版本v0.0.6v0.0.6

yongzhuo·6y ago·May 14, 2020

GitHub

1. 默认不加载深度学习框架相关的包； 2. 引入nlg-yongzhuo； 3. preprocess数据预处理修复; 4. 修复textrank-gensim的bug等； 5. dag切词字典格式修改

Macropodus版本v0.0.5，新增albert+bilstm+crf模型(词性标注-命名实体提取)v0.0.5

yongzhuo·6y ago·January 21, 2020

GitHub

📋 Changes

1.1 新增albert_bilstm_crf训练模型,包括命名实体提取(ner_albert_people_1998)和词性标注(tag_albert_people_1998),
1.2 新增tookit常用小工具: 中文繁简转化, 罗马数字与阿拉伯数字转化, 中文拼音转化等功能。
1.3 新增训练模型CRF(单独), 新增tf.keras预测模块与高并发模块(model_streamer待适配), 新增n-gram的embedding模式；
2.1 修改项目排版, 最外层只保留macropodus和test两级目录,并把evulate/report/image等放入test；
2.2 修改log打印方式(修复重读引用, 打印多次日志bug), base目录下log设为全局(只打印一次);
2.3 修改dl数据预处理模块, 涉及fit_generator多epcoh迭代(preprocess中迭代完), 不同embedding中label适配(<PAD>, <LCS>, <SEP>);
2.4 修改文本摘要中n_tops, 使之适配sklearn版本(>0.19);
2.5 修改graph模型架构中CRF的loss和acc等计算模块, 使减少代码量;
+ 1 more

Macropodus最初的版本，初始化v0.0.3

yongzhuo·6y ago·January 16, 2020

GitHub

📋 Changes

中文分词：最大概率-动态规划分词，双向最小分词，最大反向切词，最大正向切词；
新词发现：左熵，右熵，凝固度，词频
关键词：textrank + word2vec
文本摘要：支持 text_pronouns, text_teaser, word_sign, textrank, lead3, mmr, lda, lsi, nmf都抽取式摘要
文本相似度：word2vec + (cosine or jaccard)
科学计算器：支持从文本到计算结果，加减乘除括号等四则运算，乘方开方指数对数阶乘分数等复杂运算
中文数字阿拉伯数字转换：中文数字转阿拉伯数字，阿拉伯数字转中文数字
深度学习算法：network 构建好 albert + bilstm + crf 算法代码 (未训练模型)
+ 1 more

← Back to Macropodus wiki