简体   繁体   English

文本挖掘-挖掘描述性Excel工作表数据的最佳方法是什么

[英]Text Mining - What is the best way to mine descriptive excel sheet data

I have university placement data pulled from databases in excel sheet. 我有从Excel工作表中的数据库中提取的大学排名数据。 I need to text mine the job description offered by companies, which is a descriptive field for all the rows and then come up with the analysis of profiles in demand. 我需要发短信说明公司提供的职位描述,该职位描述是所有行的描述性字段,然后提出需求概况的分析。 Here is a snapshot of the data 这是数据的快照 在此处输入图片说明

Could anyone help me to kick start this activity? 有人可以帮我开始这项活动吗?

Thanks Saurabh 谢谢索拉卜

I am not a data expert but I have some data mining experience. 我不是数据专家,但是我有一些数据挖掘经验。 I would try following these steps for starters: 对于初学者,我将尝试按照以下步骤操作:

  1. Excel is not a good for such an analysis. Excel不适用于此类分析。 Find some tool dedicated to data mining eg RStudio. 找到一些专门用于数据挖掘的工具,例如RStudio。 R has many useful out-of-the-box algorithms for data mining. R具有许多有用的开箱即用的数据挖掘算法。

  2. Cleanse the data eg all texts to lower case, remove stop words, remove punctuation, remove additional white spaces. 清理数据,例如将所有文本都转换为小写字母,删除停用词,删除标点符号,删除其他空格。

  3. Tokenize the data eg 1 word tokens - "finance", "bachelor" 标记数据,例如1个单词的标记-“财务”,“单身汉”

  4. Decide on how you will assert if a certain profile is in demand or not? 确定如何确定是否需要特定配置文件? If by profile you mean that you need the information on the frequency of certain tokens appearing in the data more often then others eg "finance", "bachelor" etc. then simply create a frequency matrix. 如果通过概要文件表示您需要更多有关出现在数据中的某些令牌的频率的信息,则需要其他令牌(例如“财务”,“单身汉”等),然后只需创建一个频率矩阵。 R allows you to create a visualisation of this - Word Clouds. R允许您创建可视化内容-词云。

This is to start you off :). 这是开始您的:)。 I am sure there is much more to be suggested in this matter. 我相信在这件事上还有很多建议。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 将大型Excel工作表加载到Informix表的最佳方法是什么? - What is the best way to load a large Excel sheet to an Informix table? 使用 VBA 在大型 Excel 表中搜索值的最佳方法是什么? - What is the best way to search for a value in a large Excel sheet using VBA? 这是在C#中操作Excel文档的数据/工作表的最佳方法 - Which is the best way to manipulate data/sheet of an excel document in C# 从自动化框架的 Excel 表中存储数据的最佳方法 - Best way to store data from excel sheet for automation framework 在 Python 中显示 Excel 工作表的最佳(最简单?)方法 - Best (easiest?) way to display an Excel sheet in Python excel 中的自动标记/文本挖掘 - Automated tagging/text mining in excel 使用 Talend Job 在 excel 中添加数据透视表的最佳方法是什么? - What is the best way to add a pivot table sheet in excel using Talend Job? 通过 REST 调用将多达 100 万条记录导出到 excel 工作表的最佳方法是什么? - What is the best way to export upto 1 million records into excel sheet via REST call? 比较 excel 和相同数据的文本文件的最佳方法 - Best way to compare excel and text file for same data 在两个Excel工作簿之间自动进行数据连接的最佳方法是什么? - What is the best way to automate a data connection between two Excel workbooks?
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM