当前位置: 首页 > biancheng >正文

jieba库使用

jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,我们可以通过jieba库来完成这个过程。

安装

conda install jieba
pip install jieba

模式介绍

在这里插入图片描述

函数使用

jieba.cut()

参数有四个:

  1. 需要分词的字符串
  2. cut_all:是否采⽤全模式(理解全模式与精确模式)
  3. HMM:是否采⽤HMM模型(有兴趣的可以进⼀步了解其算法原理)
  4. use_paddle:⽤来控制是否使⽤paddle模式下的分词模式,paddle模式采⽤延迟加载⽅式,通过enable_paddle接⼝安装paddlepaddle-tiny,并且import相关代码;
  5. 返回值为迭代器
import jieba
content = "成群结队的蜜蜂,呼扇着黄色的翅膀,嗡嗡地忙着采蜜"
jie = jieba.cut(content, cut_all=False)
for i in jie:
    print(i)

在这里插入图片描述

函数使用

jieba.lcut()

参数有四个:

  1. 需要分词的字符串
  2. cut_all:是否采⽤全模式(理解全模式与精确模式)
  3. HMM:是否采⽤HMM模型(有兴趣的可以进⼀步了解其算法原理)
  4. use_paddle:⽤来控制是否使⽤paddle模式下的分词模式,paddle模式采⽤延迟加载⽅式,通过enable_paddle接⼝安装paddlepaddle-tiny,并且import相关代码;
  5. 返回值为列表
import jieba
content = "成群结队的蜜蜂,呼扇着黄色的翅膀,嗡嗡地忙着采蜜"
jie = jieba.lcut(content, cut_all=False)
print(jie)

在这里插入图片描述

jieba.cut_for_search()

该方法适合用于搜索引擎构建倒排索引的分词,粒度比
参数有两个:
1.需要分词的字符串
2.HMM:是否采⽤HMM模型
3. 返回值为迭代器

jieba.lcut_for_search()

该方法适合用于搜索引擎构建倒排索引的分词,粒度比
参数有两个:
1.需要分词的字符串
2.HMM:是否采⽤HMM模型
3. 返回值为列表

import jieba
content = "成群结队的蜜蜂,呼扇着黄色的翅膀,嗡嗡地忙着采蜜"
jie = jieba.lcut_for_search(content)
print(jie)

在这里插入图片描述

jieba.add_word

增加新词

import jieba
content = "成群结队的蜜蜂,呼扇着黄色的翅膀,嗡嗡地忙着采蜜"
jie = jieba.lcut_for_search(content)
print(jie)
jieba.add_word("黄色的翅膀")
jie = jieba.lcut_for_search(content)
print(jie)

在这里插入图片描述

相关文章:

  • 牛客练习赛#84 F 莫比乌斯反演+杜教筛+技巧+斐波那契数列和gcd的结论+矩阵快速幂
  • ZZNUOJ_用C语言编写程序实现1342:支配值数目(附完整源码)
  • java毕业设计后勤管理系统餐饮评价监督系统(附源码、数据库)
  • 前端基础学习笔记
  • 【TS】联合类型--类型断言--类型推断
  • 谈笑风声的秘密
  • QT影城网上售票系统
  • NetCDF数据在ArcMap中的使用
  • 打怪升级(考验思路)
  • 持续精进,改变自己