高档茶楼装修效果图-上海办公家具厂

python_sklearn机器学习算法系列之LogisticRegression(逻辑回。。。
2023年4月21日发(作者:家居产品设计)

python_sklearn机器学习算法系列之LogisticRegression(逻辑

回。。。

本⽂主要⽬的是通过⼀段及其简单的⼩程序来快速学习python 中sklearn的LogisticRegression这⼀函数的基本操作和使⽤,注意不

是⽤python纯粹从头到尾⾃⼰构建LogisticRegression,既然sklearn提供了现成的我们直接拿来⽤就可以了,当然其原理⼗分重要,下

⾯最简单介绍:

虽然名称中有回归但其功能多实现的是分类,

逻辑回归本质上是线性回归,只是在特征到结果的映射中加⼊了⼀层逻辑函数g(z),即先把特征线性

求和,然后使⽤函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0 和1。

详细的原理请⼤家百度,本⽂的主要⽬的是看怎么⽤该算法

在正式给出代码之前我们先了解⼀下中⽂短信的特点,它不像外⽂那样每个单词都以空格分开,我们中⽂的词都是连在⼀起的,⽽我

们要实现识别短信这⼀功能最主要的就是要看词在正常和垃圾短信⾥⾯分别出现的次数这⼀参数,所以我们必须要做的就是对短信进⾏分

词,关于分词技术有很多,我们这⾥使⽤jieba分词技术,⼤家可以使⽤命令pip install jieba进⾏安装,关于它的使⽤⾮常简单,这⾥给⼀

个简单的⼩例⼦:

import as pseg

words=("你就是我的全部")

for key in words:

print (,)

输出为:

接下来介绍TF-IDF权重:

TFIDF的主要思想是:如果某个词或短语在⼀篇⽂章中出现的频率TF⾼,并且在其他⽂章中很少出现,则认为此词或者短语具有很好的类别

区分能⼒,适合⽤来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向⽂件频率(Inverse Document Frequency)。

TF表⽰词条在⽂档d中出现的频率,(inverse document frequency,IDF)是⼀个词语普遍重要性的度量。某⼀特定词语的

逆向⽂件频率

IDF,可以由总⽂件数⽬除以包含该词语之⽂件的数⽬,再将得到的商取对数得到。

所以我们在得到分词后就要计算每个词的TF-IDF权重依此为参数作为算法的特征值,是否为垃圾短信为分类类型值

总结下步骤就是:分词------------计算TF-IDF权重------------选⽤算法就⾏分类(本⽂⽤LogisticRegression逻辑回归)

程序分为两个模块: 模块⼀是测试训练后的模型的试准确率,召回率等信息

模块⼆是预测待判断的短信

⼤家可以分开运⾏查看结果

其中train_是⽤来训练的数据集如下:每⼀⾏代表⼀条短信,开头为0代表正常信息,1为垃圾信息

0/商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之⼀

1/您好,渤海银⾏双节理财xxx天收益x%五万起,三⽉⼗号起息,只能柜台购买,数量有限欲购从速!渤海银⾏祁新星

0/⼜来⼀个⽔乡~苏州博物馆随便⼀拍都好有情调

0/⼿机已经占领了我们整个⽣活

1/哦。除此之外,还有超值礼品赠送,⼗克⾦条等你来拿哦!兴⼒达诺贝尔磁砖 王燕期待您的光临!活动时间:xxxx.x.x-x.x !活动地址

1/陕西甲级设计单位急需⼀名签⼀年的⼀注结构,有考虑的请联系得⼠兰顾问刘鑫冉,电话:xxxxxxxxxxxQQxxxxxxxxxx

1/信和有拍卖房出来,你有考虑吗?单介x.xx万平⽶,要求⼀次性付款,税费各付。房⼦为限购,xxx号起拍

0/今天去派出所办⽼⼈投靠⼦⼥落户之事

0/⽬前四城市已确定20家定点医疗机构

0/同时净化⽑孔吸附溶解⽑孔⾥的⿊头

0/升级winxx先是搜不到⾃⼰家的路由器

0/两年期满后减为15年以上20年以下有期徒刑

0/想买⼀台1K以内的⼿机作备⽤机

0/与其他汽车⽣产⼚商相同的是

0/其实每个⼈对旅游的观念不⼀样

1/祝您及家⼈元宵节快乐!实惠满意在国美,⿊⾊星期五国美给您超低价!德国西门⼦家电,专注品质、专注卓越!家电中的领航者.

1/⾳,数学,英语强化班开始报名了。即⽇起⾄xx⽇,凡在本中⼼报绘画课程,⽼学员享受x.x折优惠,前xx名新会员享受x折优惠。欢迎各位新

1/亲,伊芙嘉⼥装春款全新上市了,所有冬装清仓甩卖全场x.x折偏宜到家了,机不可失快来抢购吧! 伊芙嘉⼥装店

0/我直接从⽇本亚马逊⽹上买了寄回国内的

0/烟囱扰民70业主雇⼈强拆有关部门曾两次责令整改⽆果

0/但到达青岛时飞机落地分秒不差

0/现在逼着作维持决定的复议机关成为共同被告

0/总有渣的update帐号发些⽆图⽆真相的消息说莉渣在⼀起⼲嘛⼲嘛

1/欢迎致电聚雅酒店,酒店为你提供午晚饭市,早夜茶市,各式豪华,标准客房。我们将以最优质的服务让您宾⾄如归!餐饮部电话:xxxx-xxxx

0/市市场监管局于722⽇起在全市范围内开展2015红盾⽹剑专项⾏动

0/公交、地铁、办公室?甚⾄马桶上都埋头玩⼿机玩到与世隔绝的你

0/健康与财富同步启航这是我的微店

1/深圳市鱼美⼈减肥研究院罗湖分院欢迎您!专业为您提供减肥美容美体等.电话忙如有业务需求请拨xxxxxxxxxxx竭诚服务!

1/东会计名额紧张收尾中,⾼效权威,⼏⼩时轻松掌握,xxx%包过线,Qxxxxxxxx,欢迎咨询了解

0/乌拉盖管理区司法局不断创新⼯作⽅式

0/U型的厨房采⽤镂空的⽊质墙壁作为隔断

1/您好!现jeep 休闲内⾐专柜全场五折!时间三⽉五号⾄⼋号、欢迎光临选购

1/新年愉快!⼯银信⽤卡中⼼办理信⽤卡,额度xx-xxx万。下卡快,前期⽆费⽤,下卡后付费x%。李主任,xxxxxxxxxxx

0/他们就是看公司不作为才更加放肆

1/优惠券+空调清洗、三元催化系统清洗、喷油嘴清洗折扣券;x⽆限次免费抢修服务;x精美礼品⼀份。联系电话:xxx-xxxx-xxxx/xx

1/业管理师培训,ABC证,七⼤员证,特种⼯证,学历⾼起专,专升本,研究⽣,企业资质升级咨询服务等 业务电话:xxxxxxxxxxx徐⽼师

1/亲爱的会员朋友们或咨询朋友们,⼒魄尔舞蹈⼯作室世纪城店已开始正常营业上课了哦,现准备开设新项⽬课程----晨瑜伽。有意愿的朋友欢迎咨询

0/甚⾄新款诺基亚1100也出现在了Geekbench跑分⽹站

0/亳州机动车违法⾏为交警正在严查

1/蒙娜丽莎瓷砖全体员⼯祝您及家⼈元宵节快乐!xxx⽇之前预订可享受全场买⼀赠⼀及多款出⼚价,可免费上门测量、设计,兴华北⼤街路东蒙娜丽

1/万⽅⾸席⽣态⼤盘,千亩湿地公园近在咫尺,毗邻康桥国际学校,周边⽣活配套完善,约xx-xxN+x户型即将上市!智能⽣活从这⾥开始!期待

0/家价格即x.x折扣,并且还有许多精美礼品相送!请⼤家千万别错过这省钱⼜能得⼤礼的好机会哦!⽯柱爱戴内⾐(⾦⿍店)

0/河南淅川公安针对农资市场特点

1/正⽉⼗五闹元宵! ⼠林夜市祝福到! xx号下午x:xx在台湾⼠林不夜城举⾏元宵节客户推介会,凡到场客户均有礼品相送: ⼀重礼:精美汤

1/友邦吊顶A股成功上市⼀周年粉丝众筹节开幕啦!x元抢购,xx元抢厨卫板材,xxx元抢暖风!全国限量,开抢吧!世贸⼴场⼀楼xxx

0/家⽤锁APP上还有摇摇开锁功能

0/本⼈已经报警了未婚⽆⼦的赌博是违法的我不可能参与的制造玛⽒病毒杀我本⼈马上就要死了死刑必须死刑

0/我院将于93⽇推出抗战题材特⾊原创展览皖江洪流——安徽军民抗战史实展

1/您好,元宵快乐。我是安贞美容科全医⽣,安贞美容迎x.x优惠活动正进⾏:双眼⽪、眼袋、提眉各xxxx元,其他⼿术x.x折酬宾。预定从速。

1/魅⼒⼥⼈节,实惠在迎宾!⽟兰油专柜买满xxx元⽴减xx元,欢迎光临选购![玫瑰][玫瑰][玫瑰]

0/乔丹的⾝体⼒量在NBA是什么⽔平

demand 为要预测的短信:(每⼀⾏代表⼀条短信)

我要当Google的脑残粉了

换了⾼透膜觉得整个⼿机都不⼀样了

妹,嘉宝奶粉xxx⽈在爱婴室上架销售了,促销⼒度很⼤购买xx听⽴减xOO元,在其他宝宝店上市后⼝碑很好深受家长欢迎,你瑞铂奶粉留x

患有⼼⾥疾病的⼈是不负法律责任的

暑假去旅游怎么能少了旅游装呢

我公司的x-xx万的⽆抵押⽆担保信⽤贷款,欢迎您来电详询!VIP专线xxxxxxxxxxx

前⼆⼗名报名还可得xxxx元理财基⾦!现场还有免费抽奖活动,丰厚⼤奖等着你哦!中凯装饰咨询顾问:⼩李欢迎您的到来!

不要贪玩携带仿真枪进站乘车

美国股市⾃2008年⾄今⼀路飚升

尊敬的电信⽤户您好,中国电信x⽉提速xxM仅需xxx/年!⾼清电视直播仅需xxx/年!详情请拨打[吴松烨xxxxxxxxxxx]

教授给⼤家罗列了⽆锡的⼀些⽼话

在飞机上三四个⼩时熬夜画的orzzzAPHLL有海囚有东⽅

简单的认为她是straightgirl

新年快乐,北城中环城抢房拉 隆重开启不是降价是清盘,⾸次年关前⼤优惠,合肥独⼀⽆⼆的优惠项⽬、限量、限价,机会不容错

属您楼盘的⽅案深度解析,xxx万红包疯抢,主材返现,百家知名材料商现场助阵给予最⼤优惠!地址:合作化路与望江路交汇处!来时电话,李秀齐

碰见⼀位174象全智贤的新疆医⽣

交通路唐朱迪服装店,三⼋妇⼥节活动开始了,xx~xx(x_x件折上再x折,x件起再x)欢迎新⽼顾客光临惠顾。

源程序如下:

#总体思路就是:分词-----计算TF-IDF权重-----选⽤模型预测

import warnings

import numpy as np

import as plt

from als import joblib

import pandas as pd

import matplotlib as mpl

from sklearn import metrics

import as pseg

from _validation import train_test_split

from e_ import TfidfVectorizer

from _ic import LogisticRegression

#忽略⼀些版本不兼容等警告

warnings("ignore")

#从磁盘读取y原始数据进⾏训练

X = []

Y1 = []

Y2 = []

f = open('train_')

for v in f:

([('n').split('/')[0],('n').split('/')[1]]) #strip('n')是去除换⾏符n

()

#进⾏分词,分词后保存在Y

for i in range(len(X)):

words=(X[i][1])

str1=""

for key in words:

str1+=

str1+=' '

(str1) #短信内容

(X[i][0]) #是否是垃圾的标志

#将样本分为训练集和测试集

x_train_Chinese, x_test_Chinese, y_train, y_test = train_test_split(Y1,Y2,train_size=0.99)

#通过TfidfVectorizer算出TF-IDF权重

vectorizer=TfidfVectorizer()

x_train=_transform(x_train_Chinese)

'''

#模块⼀:测试准确率,召回率等信息表

#核⼼代码

classifier=LogisticRegression()

(x_train,y_train)

y_tanin_predict=t(x_train)

print(fication_report(y_train,y_tanin_predict)) #包含准确率,召回率等信息表

print(ion_matrix(y_train,y_tanin_predict)) #混淆矩阵

'''

#模块⼆:预测信息

#读取待预测的短息读取到X1

X1 = []

X2 = []

f = open('demand ')

for v in f:

(('n'))

()

#进⾏分词,分词后保存在X2

for i in range(len(X1)):

words=(X1[i])

str1=""

for key in words:

str1+=

str1+=' '

(str1) #短信内容

#计算待预测短息的TF-IDF权重

x_demand_prediction=orm(X2)

#预测

classifier=LogisticRegression()

(x_train,y_train)

y_predict=t(x_demand_prediction)

#输出

print('----------------------------------------短信预测结果------------------------------------------')

for i in range(len(X1)):

if int(y_predict[i])==0:

print('正常短信:'+X1[i]+'n')

else:

print('垃圾短信:'+X2[i]+'n')

模块⼀的结果:

模块⼆结果:

从结果来看并不是很理想起码第六条短信(我公司的X万...........)就没有预测成功,因为我的学习集太少了,如果给与⾜够多的样本让其学习,

结果会更好,本⽂重在说明原理,所以就选取了很少的样本,⼤家可以⾃⼰去下载⼀些数据测试

关于预测英⽂的类同,⼀定程度上更简单,因为不⽤分词,关于英⽂的数据⽹上有很多,这⾥就可出⼀个吧

其中结尾的ham代表正常邮件,Spam代表垃圾邮件,如果⼤家感兴趣可以⾃⼰试⼀试吧

更多算法可以参看博主其他⽂章,或者github:/Mryangkaitong/python-Machine-learning

欧普浴霸官方网站-一室一厅装修图片简约

python_sklearn机器学习算法系列之LogisticRegression(逻辑回。。。

更多推荐

双眼皮吊顶