文本分析
# 1、作用
文本分析功能覆盖了从数据预处理到深度洞察的全流程,其中包括了文本准备、词云分析、主题分析、网络关系分析、情感分析几部分功能;
(1)文本准备:分析的 “数据地基”
是所有后续分析的前提,核心是让文本数据变 “干净”“可用”。
- 新词探索:挖掘数据中未被常规词典收录的高频词(如机器学习,若是正常分词会被分成机器和学习,通过新词探索可提取机器学习),避免关键信息遗漏。但是若系统没有识别到新词,将会跳过此步骤;
- 无用词过滤:可自行对无用词进行去除,减少数据噪音。
- 词语检索:快速定位特定关键词 / 短语在文本中的出现位置、频率,支持精准信息提取。
(2)词云分析:直观的 “关键词可视化”
方法原理:将文本中高频词汇以可视化图表呈现,核心价值是 “一眼抓重点”。词汇出现频率越高,在词云中的字体越大、颜色越突出。
(3)主题分析:文本的 “核心内容提炼”
方法原理:从文本中自动识别潜在的核心主题,把零散文本归类到明确话题下,无需手动标注就能实现无监督分类。
(4)网络关系分析:词语 / 实体的 “关联挖掘”
方法原理:分析词语之间的关联强度,核心是构建 “关系网络”(如 A 词和 B 词同时出现的频率越高,关联越紧密)。
(5) 情感分析:文本的 “态度判断”
方法原理:使用AI模型,核心步骤包括“属性提取”+“观点提取”+“情感匹配”:先找用户在说什么(属性),再看用户怎么描述(观点),最后判断用户是满意还是不满(情感),不仅对用户情感进行判断,同时对用户评价对象进行汇总,查看用户偏向在于的方面;
# 2、实验创建
在文本分析模块中,点击【新建分析】,填写文本分析名称和分析说明,即可创建分析记录;
# 3、实验步骤
(1)文本准备
(1.1)导入文本支持两个方式:文件上传和粘贴文本;
(1.2)文本上传成功后,将会预览上传的文本内容;
(1.3)携带文本进入分词过程,首先,会对新词进行探索;
系统会自动挖掘数据中未被常规词典收录的高频词(如【机器学习】,若是正常分词会被分成【机器】和【学习】,但事实上这是一个组合表达,通过新词探索可提取【机器学习】),避免关键信息遗漏。
注意:若系统没有识别到新词,将会跳过此步骤;
左熵:左熵越高,说明左侧能搭配的词汇种类越多,更可能是独立短语;
右熵:右熵越高,说明右侧搭配词汇种类越多,更可能是独立短语;
PMI:衡量词语间的 “内部关联性”,****用于判断两个词(如 “深度” 和 “学习”)是否为强关联的固定搭配,而非随机共现;
同时满足 “高 PMI + 高左熵 + 高右熵” 的词串,即为稳定、独立的短语;
页面底部有个开关:选中的词语添加至新词词库中:若打开此开关,系统会将本次选中的新词添加到新词词库中,在未来的分词过程中会自动应用此词库中的新词;
(1.4)无用词过滤
“无用词过滤” 是提升分析精度的关键步骤,核心是剔除那些无实际语义、仅起语法作用或干扰分析的词汇。取消勾选即将该词进行过滤,还可以选中某一词性,进行批量取消勾选;
页面底部有个开关:未选中的词语添加至停用词词库中:若打开此开关,系统会将本次没有被勾选的词添加到停用词词库中,在未来的分词过程中会自动过滤到此词库中的词;
(1.5)文本检索
完成以上工作后,就相当于分词阶段已经结束了,可以点击词语、快速定位特定关键词 / 短语在文本中的出现位置、频率。
(2)词云分析
选定指定的词进行词云分析,词云图中字体越大的词,出现频次越高或权重越重,能瞬间看出文本的主题焦点(如房间、价格、体验、位置、周边、洗漱是用户比较关注的点,直接点明核心主题)

点击右上角的绘图设置,可对词云图的元素进行设置;
(3)主题分析
指定主题个数,系统会对自动词语进行分类,在图表中指定图表,红色柱状图展示该主题内的估计术语频次,即代表该主题中比较重要的词语;
由下方结果可以看到,3类主题词语可以总结成:
1:酒店设施
2:酒店周边
3:酒店性价比
(4)网络关系图
网络关系图用与分析词语之间的关联强度:主要关注节点之间的连线粗细,连线越粗说明两个词在同一句子中出现的次数越多;
比如说【卫生间】与【味道】连在一起、【走路】【位置】【方便】连在一起,可以找到用户主要关注的点;
(5)情感分析
AI情感分析基于AI大模型(将会消耗AI点数),核心步骤包括“属性提取”+“观点提取”+“情感匹配”;
最终结果会整合成一张表格,表格中会整合用户在说什么(属性)、用户怎么描述(观点)、用户是满意还是不满(情感);
情感分析可视化包括四部分:
- 属性分析:将所有文本提取出来的属性进行柱状图和词云图可视化,直观体现核心讨论对象,比如说“服务”“卫生”;
- 属性+观点分析:将所有文本提取出来的属性和属性对应的观点进行柱状图和词云图可视化,重点突出高频观点,比如说“服务很好”、“卫生干净”;
- 属性+情感分析:将所有文本提取出来的属性和属性对应的情感进行柱状图和词云图可视化,重点突出观点的情感,比如说“服务正向”、“卫生正向”;
- 句子情感分析:将所有句子中的情感进行统计,示直观反映整体情感倾向。
(6)我的词库
在文本分析中,新词和停用词是提升分析精度的关键步骤,我的词库中可以对新词和停用词进行管理:
- 新词:指在通用词典中未收录,但在特定文本中高频出现且有实际意义的词(如行业术语、新兴词汇、固定搭配),比如说【机器学习】,是个固定搭配,但常规分词会被分成【机器】和【学习】,所以可以手动将其添加进新词词库中;
- 停用词:指在文本中高频出现但无实际语义价值的词(如虚词、助词、常见副词),过滤后可减少噪音,聚焦核心信息,比如说冗余副词【足足、将近、确实】;
# 4、案例文本
房间也太干净了吧!床软乎乎的,睡一晚超舒服~
房间还算干净,就是空间有点小,放两个行李箱就挤了
位置绝了!出门就是地铁站,逛街吃饭都超方便
位置还行,离地铁站不算太远,走路得十几分钟
前台小姐姐人超好,办理入住超快,还推荐了超好吃的本地小吃
前台服务中规中矩,办理入住不算快也不算慢
卫生间干湿分离太赞了,热水来得快,水温也稳定
热水供应还行,但偶尔会有点忽冷忽热,不太稳定
没想到隔音这么好,晚上安安静静的,睡得超香
隔音一般般,晚上能听到点走廊脚步声,不算太吵
早餐种类好多呀,味道也不错,性价比直接拉满
早餐种类不算多,能吃饱但没什么特色,味道也普通
网络巨稳定,刷剧办公都不卡,太满意了
网络有时候会卡顿,刷视频还行,办公有点费劲
空调制冷好快,调温也精准,住着很舒服
空调制冷还可以,就是噪音稍微有点大
房间比想象中大,放行李、活动都不挤,太可了
洗漱用品能用,但质量一般,建议自己带护肤品
离景区超近,走路十几分钟就到,省去好多麻烦
价格不算贵也不算便宜,中规中矩,没太惊喜也没太失望
洗漱用品挺好用的,吹风机风力也够,细节到位
周边有便利店,吃饭的地方不算多,得稍微找一下
价格真的亲民,这个体验真的物超所值
房间采光还行,就是通风一般,得经常开窗
周边好安静,远离吵闹,放松休息太合适了
电梯有时候要等挺久,尤其是早高峰的时候
保洁阿姨打扫得好干净,房间里一点灰尘都没有
床的软硬还可以,就是枕头有点高,不太习惯
自驾来的,停车场位置够多,停车超方便
保洁打扫还算及时,就是角落有点没擦干净
有洗衣服务太省心了,衣服洗得干净还烘干得快
酒店位置不难找,但导航到门口有点绕
服务人员好热情,还主动帮提行李,太贴心啦
提供免费饮用水,就是一瓶不够
离高铁站不远,赶车不用慌,出行超便利,
床头插座好多,手机、电脑充电都不用抢
整体体验超棒,下次来还选这家!
房间设施有点老旧,电视画面不够清晰,看着不舒服
卫生间味道有点重,通风再做好点就好了
价格偏高,实际体验和价格不太匹配,有点失望
迷你吧饮品挺多,价格也不贵,想喝就能拿
走廊地毯踩着软软的,走路也没声音,不影响别人
酒店公共区域干净整洁,无杂乱感
入住流程简单,支持线上办理,很便捷
房间配备书桌,办公学习很方便
窗帘材质厚实,遮光又隔音,体验很好
晚上隔壁房间噪音太大,敲门提醒后也没改善,影响休息
洗漱台水龙头水流太小,洗漱很不方便
前台态度冷漠,问问题不耐烦,体验感很差
床品感觉没换干净,有明显污渍,太影响心情了
酒店周边配套完善,便利店、药店都很近
空调制热效果差,冬天住着有点冷,反馈后没及时处理
早餐时间跨度长,起晚了也能吃到,很人性化
停车场收费太贵,性价比不高
房间窗帘遮光性好,早上不会被阳光吵醒
网络信号差,连不上网,联系工作人员也没解决
提供免费饮用水,水质不错,解渴方便
房间卫生堪忧,角落有灰尘污渍,地面也没擦干净
电梯运行平稳快速,不用长时间等待
酒店位置偏僻,周边没什么配套,出行很不方便
# 5、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
