GitPedia
yongzhuo

yongzhuo/Macropodus

自然语言处理工具Macropodus,基于Albert+BiLSTM+CRF深度学习网络架构,中文分词,词性标注,命名实体识别,新词发现,关键词,文本摘要,文本相似度,科学计算器,中文数字阿拉伯数字(罗马数字)转换,中文繁简转换,拼音转换。tookit(tool) of NLP,CWS(chinese word segnment),POS(Part-Of-Speech Tagging),NER(name entity recognition),Find(new words discovery),Keyword(keyword extraction),Summarize(text summarization),Sim(text similarity),Calculate(scientific calculator),Chi2num(chinese number to arabic number)

4 Releases
Latest: 5y ago
Macropodus版本v0.0.7v0.0.7Latest
yongzhuoyongzhuo·5y ago·December 31, 2020
GitHub

fix pip install .whl bug of numpy-pandas

Macropodus版本v0.0.6v0.0.6
yongzhuoyongzhuo·6y ago·May 14, 2020
GitHub

1. 默认不加载深度学习框架相关的包; 2. 引入nlg-yongzhuo; 3. preprocess数据预处理修复; 4. 修复textrank-gensim的bug等; 5. dag切词字典格式修改

Macropodus版本v0.0.5,新增albert+bilstm+crf模型(词性标注-命名实体提取)v0.0.5
yongzhuoyongzhuo·6y ago·January 21, 2020
GitHub

📋 Changes

  • 1.1 新增albert_bilstm_crf训练模型,包括命名实体提取(ner_albert_people_1998)和词性标注(tag_albert_people_1998),
  • 1.2 新增tookit常用小工具: 中文繁简转化, 罗马数字与阿拉伯数字转化, 中文拼音转化等功能。
  • 1.3 新增训练模型CRF(单独), 新增tf.keras预测模块与高并发模块(model_streamer待适配), 新增n-gram的embedding模式;
  • 2.1 修改项目排版, 最外层只保留macropodus和test两级目录,并把evulate/report/image等放入test;
  • 2.2 修改log打印方式(修复重读引用, 打印多次日志bug), base目录下log设为全局(只打印一次);
  • 2.3 修改dl数据预处理模块, 涉及fit_generator多epcoh迭代(preprocess中迭代完), 不同embedding中label适配(<PAD>, <LCS>, <SEP>);
  • 2.4 修改文本摘要中n_tops, 使之适配sklearn版本(>0.19);
  • 2.5 修改graph模型架构中CRF的loss和acc等计算模块, 使减少代码量;
  • + 1 more
Macropodus最初的版本,初始化v0.0.3
yongzhuoyongzhuo·6y ago·January 16, 2020
GitHub

📋 Changes

  • 中文分词:最大概率-动态规划分词,双向最小分词,最大反向切词,最大正向切词;
  • 新词发现:左熵,右熵,凝固度,词频
  • 关键词:textrank + word2vec
  • 文本摘要:支持 text_pronouns, text_teaser, word_sign, textrank, lead3, mmr, lda, lsi, nmf都抽取式摘要
  • 文本相似度:word2vec + (cosine or jaccard)
  • 科学计算器:支持从文本到计算结果,加减乘除括号等四则运算,乘方开方指数对数阶乘分数等复杂运算
  • 中文数字阿拉伯数字转换:中文数字转阿拉伯数字,阿拉伯数字转中文数字
  • 深度学习算法:network 构建好 albert + bilstm + crf 算法代码 (未训练模型)
  • + 1 more