快捷搜索:

机器学习算法原理与编程实践,用机器学习怎样

作者: 365bet亚洲版官网  发布:2019-09-25

深入分析原因开采,经过切词后,有成都百货上千的 title 为空,或许 title 独有相当少单词的气象。形成的风味较弱,这种单词很少的景观是导致识别率不高的最主因。比方title 唯有一个单词 video,由于该词在色情语料中属于高频词汇,在正规词汇中冒出的功用也不低,由此只根据title 就使得识别结果会随着语言材料的例外而各异。纵然对于找寻引擎来讲,title 的权重大于 deion,deion 的权重大于 keywords。

2.3 分类算法:朴素贝叶斯

本节主要斟酌朴素贝叶斯算法的基本原理和python完毕

新词,专门的学问术语称为未登陆词。也正是那一个在字典中都尚无选用过,但又真正能称为词的那个词。最卓越的是真名,人方可很轻巧精通句子“杜威虎去特拉维夫了”中,“蒋亮虎”是个词,因为是一人的名字,但如若让Computer去辨别就不便了。就算把“凯文·波利虎”做为二个词收音和录音到字典中去,满世界有那么多名字,并且随时都有新扩充的全名,收音和录音那几个人名自身正是一项伟大的工程。尽管那项专门的工作得以做到,依旧会设至极,举个例子:在句子“李磊虎头虎脑的”中,“斯蒂夫虎”仍是可以够不能够算词?

当然在条分缕析最后识别结果的历程中,还开掘苗头相当多的色情语料被标识成了例行语言材质。原因在于,符合规律语言材料的来源是 alex 排行靠前的网址。在那其间是有局地的不可描述网址的。

2.2.7 分类结果评估

机器学习园地的算法评估的指标:
(1)召回率(查全率):检索出的相干文书档案数和文书档案库中兼有的有关文书档案数的比值,是衡量检索系统的查全率
召回率=系统查找到的相干文书/系统有着有关的文书档案总的数量
(2)正确率(精度):检索出的相关文书档案数与追寻出的文书档案总量的比率
准确率=系统查找到的连带文书/系统有着检索到的公文化总同盟数
(3)Fp-Measure
Fp=(p2+1)PCRUISER/(p2P+Tucson),P是准确率,Lacrosse是召回率
p=1时,就是F1-Measure
文件分类项指标归类评估结果评估:代码见文件

import numpy as np
from sklearn import metrics

def metrics_result(actual,predict):
    print '精度:{0:3f}'.format(metrics.precision_score(actual,predict))
    print '召回:{0:0.3f}'.format(metrics.recall_score(actual,predict))
    print 'f1-score:{0:3f}'.format(metrics.f1_score(actual,predict))

metrics_result(test_set.label,predicted)

#输出形式如
#精度:0.991
#召回:0.990
#f1-score:0.990

这种分词方法是透过让计算机模拟人对句子的知晓,到达识别词的机能。其主题思虑正是在分词的同偶然间进行句法、语义解析,利用句法音讯和语义音讯来管理歧义现象。它一般包罗多少个部分:分词子系统、句爱尔兰语义子系统、总控部分。在总控部分的和煦下,分词子系统可以赢得有关词、句子等的句法和语义音信来对分词歧义实行决断,即它模拟了人对句子的知情进程。这种分词方法须求利用多量的语言文化和消息。由于中文语言文化的暧昧、复杂性,难以将种种语言音讯公司成机器可径直读取的花样,由此近年来基于明白的分词系统还处于试验阶段。

透过频频Infiniti制的根据 7:3 的比例切分常常语料和香艳语言质感分别作为磨练集和测验集发掘,以

2.4.1 KNN算法的原理

1,算法观念:借使贰个样书在特色空间的k个最近邻(近期似)的范本中的大相当多都属于某一体系,则该样本也属于这一个体系,k是由友好定义的表面变量。

2,KNN算法的步调:

先是品级:鲜明k值(就是近年来邻的个数),一般是奇数
第二品级:分明距离衡量公式,文本分类一般采纳夹角余弦,得出待分类数分局与具有已知类别的样本点,从中挑选离开近年来的k个样本
夹角余弦公式:cos =AB/|A|*|B|
其三品级:总括k个样本点中逐条品类的数量,哪个品种的数目最多,就把数总部分为何种类

还能将上述种种艺术相互结合,比方,能够将正向最大相称方法和逆向最大相配方法结合起来构成双向相称法。由于中文单字成词的表征,正向最小相称和逆向最小相称一般比非常少使用。一般说来,逆向相配的切分精度略高张静向相称,蒙受的歧义现象也非常少。总括结果注脚,单纯施用正向最大相称的错误率为1/169,单纯运用逆向最大相配的错误率为1/345。但这种精度还远远不能够知足实际的急需。实际应用的分词系统,都以把机械分词作者为一种初分手腕,还需通过行使各个别的的言语音信来进一步提升切分的准确率。

网络中蕴涵着海量的内容新闻,基于那一个音信的挖沙始终是相当多天地的钻研热销。当然不相同的园地急需的新闻并分化样,有的钻探必要的是文字消息,有的钻探需求的是图片新闻,有的研讨必要的是音频音讯,有的切磋要求的是摄像音讯。

2.3.2 朴素贝叶斯算法完成

样例:使用轻巧的法文语料作为数据集,代码见文件

# 编写导入的数据
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him','my'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
                # 使用简单的英语语料作为数据集,有6个文本

    classVec = [0,1,0,1,0,1]     # 文本对应的类别

    return postingList,classVec  # postingList是训练集文本,classVec是每个文本对应的分类

###########################################################################

# 编写贝叶斯算法(sklearn已有贝叶斯算法包,现在是理解贝叶斯算法原理后,自己编写算法代码)


#(1)编写一个贝叶斯算法类,并创建默认的构造方法

class NBayes(object):     # 创建贝叶斯算法类

    def __init__(self):       #初始化类的属性
        self.vocabulary = []  #词典
        self.idf = 0          #词典的IDF权值向量
        self.tf = 0           #训练集的权值矩阵
        self.tdm = 0          #P(x|yi)
        self.Pcates = {}      #P(yi)是一个类别词典P(yi)的值:{类别1:概率,类别2:概率}
        self.labels = []      #对应每个文本的分类,是一个外部导入的列表
        self.doclength = 0    #训练集文本数
        self.vocablen = 0     #词典词长
        self.testset = 0      #测试集 


#(2)导入和训练数据集,生成算法必需的参数和数据结构

def train_set(self,trainset,classVec):  # 传入训练集文本和对应的分类类别

    self.cate_prob(classVec)    # 计算每个分类在数据集中的概率P(yi),cate_prob函数在下面创建
    self.doclength = len(trainset) # 用len函数计算训练集trainset的文本数,赋给类的doclength属性

    tempset = set()  # 使用set(),初始化一个空的集合:是一个无序不重复元素集
    [tempset.add(word) for doc in trainset for word in doc] #生成词典  ,add是往集合添加元素
    # doc遍历trainset,word遍历doc,再将word添加进tempset集合里
    # 训练集文本trainset实际上是一个矩阵,doc遍历取得向量,即单个文本,word遍历取得文本内的词,再添加进集合
    self.vocabulary = list(tempset) # 将tempset转换为列表list,添加进类的vocabulary属性,即词典
    self.vocablen = len(self.vocabulary) #len函数计算词典的长度(这里的词典实际上是一个不重复的词袋空间)

    self.calc_wordfreq(trainset)  # 计算数据集的词频(word frequency):tf和idf ,调用了calc_wordfred函数,传入训练集trainset
    self.build_tdm()  # 按分类累计向量空间的每维值P(x|yi),调用了build_tdm函数


# (3) cate_prob函数:计算数据集中 每个分类的概率P(yi)

def cate_prob(self,classVec):  # 该函数用于计算每个类别在数据集中的概率,被上面的train_set函数调用
    self.labels = classVec     # classVec是导入的训练集文本对应的类别
    labeltemps = set(self.labels)  # 获取全部分类,set()集合:无序不重复元素集,本例就两类:{0,1}
    for labeltemp in labeltemps:    # 遍历所有分类{0,1}
        self.labels.count(labeltemp)  #统计self.labels里类别的个数:类别0的个数和类别1的个数
        self.Pcates[labeltemp] = float(self.labels.count(labeltemp))/float(len(self.labels))
        # 每种类别个数/类别类别总数:6,在Pcates字典里,创建键值对{'0':概率,'1':概率}


# (4) calc_wordfred函数:生成普通的词频向量  TF-IDF

def calc_wordfred(self,trainset):   # 用于计算词袋(词典)内每个词的词频,被上面的train_set函数调用

    self.idf = np.zeros([1,self.vocablen]) # 全0矩阵,矩阵大小:1x词典长度,self.vocablen是上面计算出的词典长度(词袋长)
    self.tf = np.zeros([self.doclength,self.vocablen]) #构造全0矩阵:训练集文件数x词典数,doclength是上面计算出的训练集文本数:6,vocablen是计算出的词典长度 
    #构造训练集的IDF和TF向量模型,IDF是一行,TF是文档数,行,初始化全为0

    for indx in xrange(self.doclength):  # xrange与range用法相同,结果不同,生成的不是列表,而是生成器,适合数字序列较大时,不用一开始就开辟内存空间
    # indx遍历训练集文本数列表,indx取得的是数
        for word in trainset[indx]: #word 遍历trainset中的每一文本的词,##word取得的是词
            self.tf[indx,self.vocabulary.index(word)] +=1    # 权值矩阵的第index行,第k列,加1
            # 词典列表的index方法,返回word的索引位置k
            #  生成了TF词频矩阵

        for signleword in set(trainset[indx]):  # signleword遍历训练集文本里每一文本构成的集合(取得每一文本不重复的词),
            self.idf[0,self.vocabulary.index(signleword)] +=1  # idf权值矩阵的第k个加1
            #index返回每一文本不重复词的索引位置
            #生成IDF矩阵           
## 实际上本函数生成的是训练集的TF矩阵和词袋的IDF矩阵(绝对数形式,非频率)        


# (5) build_tdm函数:按分类累计计算向量空间的每维值P(x|yi),已知类别为yi,求是x的概率

def build_tdm(self):   #计算P(x|yi),被train_set函数调用

    self.tdm = np.zeros([len(self.Pcates),self.vocablen])  #构造全0矩阵,大小:类别词典长度2(在cate_prob函数里)x 词典长度(train_set函数里)
    sumlist = np.zeros([len(self.Pcates),1])  # 构造全0矩阵:大小:类别词典长度x1
    #统计每个分类的总值,sumlist两行一列

    for indx in xrange(self.doclength):    #indx遍历训练集文本数生成的列表[0,1,2,3,4,5],取得的是数字 

        #将同一类别的词向量空间值tf加总
        #即:tf权值矩阵值,六行,分为两类,同类相加,变为两行
        self.tdm[self.labels[indx]] += self.tf[indx]   # labels[indx]是训练集文本对应类别里的第indx个(在cate_prob函数里)即[0,1,0,1,0,1]里的第indx个,对应tdm的第某行
        # tf[indx]是tf权值矩阵的第indx行(在calc_wordfred函数里)

        #统计每个分类的总值--是一个标量
        sumlist[self.labels[indx]] = np.sum(self.tdm[self.labels[indx]]) 
        #利用np.sum计算tdm矩阵的和,赋值给sumlist矩阵的?
        # sumlist得到的结果:0:总值
                            #1:总值

    self.tdm = self.tdm/sumlist   # tdm即:P(x|yi)=P(xyi)/P(yi)
    #得到的结果tdm是一个两行,词典长列的矩阵,表示着P(a1|yi),P(a2|yi)……
  #tdm是一个向量,sumlist是一个值


(3)-(5)函数都被train_set函数调用  
#####################################################################################



# (6) map2vocab函数:将测试集映射到当前字典

def map2vocab(self,testdata):  # 传入测试集数据 testdata
    self.testset = np.zeros([1,self.vocablen])  #构造全0矩阵,大小:1*词典长度
    for word in testdata:    # word遍历测试集(某个文本)
        self.testset[0,self.vocabulary.index(word)] +=1 # testset矩阵的第k个加1
        # vocabulary.index(word)返回字典的与word匹配的词的索引位置
# 本函数是将测试集文档转换为以频数表示的[   ]矩阵   


# (7) predict函数:预测分类结果,输出预测的分类类别

def predict(self,testset):    #传入测试集数据

    if np.shape(testset)[1] != self.vocablen: #如果测试集长度与词典长度不相等,则退出程序
        print "输出错误"
        exit(0)

    predvalue = 0  #初始化类别概率
    predclass = ""  # 初始化类别名称

    for tdm_vect,keyclass in zip(self.tdm,self.Pcates): 
       #P(x|yi) P(yi)    #      变量tdm,计算最大分类值
    #zip函数将tdm和Pcates打包成元组,并返回元组组成的列表。
    #tdm是P(x|yi),Pacates是类别词典P(yi)

        temp = np.sum(testset*tdm_vect*self.Pacate[keyclass])  #测试集testset乘tdm_vect乘Pcates[keyclass]  ,并求和
        #测试集向量*P
        if temp > predvalue:  
            predvalue = temp
            predclass = keyclass
    return predclass   # 输出预测的类别(概率最大的类别)

#########################################################################

#算法的改进:为普通的词频向量使用TF-IDF策略

#calc_tfidf函数:以TF-IDF方式生成向量空间

def calc_tfidf(self,trainset):        # 传入训练集数据
    self.idf = np.zeros([1,self.vocablen])   #构造全0矩阵,大小:1*词典长度
    self.tf = np.zeros([self.doclength,self.vocablen])  #构造全0矩阵,大小:文本数*词典长度

    for indx in xrange(self.doclength):   #indx遍历文本数生成的列表,取得的是数字      
        for word in trainset[indx]:        #word遍历训练集的第indx个文本里的词
            self.tf[indx,self.vocabulary.index(word)]+=1  #tf矩阵的某个值加1
            #消除不同句长导致的偏差
        self.tf[indx] = self.tf[indx]/float(len(trainset[indx]))  #计算的是频率而不是频数

        for signleword in set(trainset[indx]):
            self.idf[0,self.vocabulary.index(signleword)] +=1
    self.idf = np.log(float(self.doclength)/self.idf)

    self.tf = np.multiply(self.tf,self.idf) # 矩阵与向量的点乘TFxIDF

######################################################################

#执行创建的朴素贝叶斯类,获取执行结果

#coding=utf-8

import sys
import os
from numpy import *
import numpy as np
from NBayes_lib import *

dataSet,listClasses = loadDataSet() 

 # 导入外部数据集,loadDataSet是自己创建的函数,返回值为两个,postingList是训练集文本,classVec是每个文本对应的分类
# dataset为句子的词向量
# listclass为句子所属类别 [0,1,0,1,0,1]

nb = NBayes()  #实例化 NBayes是我们创建的贝叶斯算法类
nb.train_set(dataSet,listClasses) # 训练数据集。train_set是创建的类的函数,用于训练
nb.map2vocab(dataSet[0])   # 随机选择一个测试句 #map2vocab函数将测试集映射到当前词典
print nb.predict(nb.testset)  # 输出分类结果,predict函数用于预测分类结果,输出预测的分类类别

# 最后运行程序,看似没有数据间传递,实则是在类属性中已定义好并赋值给属性

分词中的难点

由上述深入分析能够明白 title、deion 和 keywords 等部分重要的网页新闻对于不可描述网址以来都是经过精心设计的,和网页所要表述内容的相称度非常之高。尤其比相当多网址在海外某个国家是法定的,因而对此经营这个网址的人口的话,优化那几个新闻一定是确定。小编曾经看过一份数据突显在某段时间某寻觅引擎前十名中,绝大非常多的风骚相关的。因而大家能够将其看作重大的语言材质音讯。

普通话语言的文书分类技能和流程:

1)预管理:去除文本的噪声音讯:HTML标签,文本格式调换
2)粤语分词:使用普通话分词器为文本分词,并删除停用词
3)构建词向量空间:计算文本词频,生成文书的词向量空间
4 ) 权重战术--TF-IDF方法:使用TF-IDF开采特征词,并抽取为呈现文书档案大旨的本性
5)分类器:使用算法练习分类器
6)评价分类结果:分类器的测量检验结果剖析

1、基于字符串相称的分词方法

招来引擎的办事原理正是率先将互联英特网海大学部分的网页抓取下来,并遵从一定的目录实行仓储形成快速照相,每一种条款标标题正是原网址title(平日是 60 个字节左右,也便是 30 个汉字也许 60 各葡萄牙共和国语字母,当然搜索引擎也会对此 title 做一定的管理,比如去除一些没用的词),条约标陈诉部分常见对应原网址deion。

2.2.4 向量空间模型:文本分类的结构化方法

1,向量空间模型:将文件表示为三个向量,该向量的每一种特征表示为文本中出现的词
2,停用词:文本分类前,自动过滤掉某个字或词,以节省积累空间。依照停用词表去除,表可下载。代码见文件

 

keywords(0.8912319644839067,0.8890122086570478,0.8901220865704772,0.8912319644839067,0.8856825749167592)

2.2 文本分类项目

2、新词识别

本文由365bet体育在线开户发布于365bet亚洲版官网,转载请注明出处:机器学习算法原理与编程实践,用机器学习怎样

关键词:

上一篇:要么靠北京,互联网巨头的海外战事
下一篇:没有了