{"id":2197,"date":"2022-02-10T15:20:28","date_gmt":"2022-02-10T15:20:28","guid":{"rendered":"https:\/\/talently.tech\/blog\/?p=2197"},"modified":"2022-03-23T04:23:53","modified_gmt":"2022-03-23T09:23:53","slug":"que-es-un-dataset","status":"publish","type":"post","link":"https:\/\/talently.tech\/blog\/que-es-un-dataset\/","title":{"rendered":"\u00bfQu\u00e9 es un dataset o un dataframe?"},"content":{"rendered":"<p><span style=\"font-weight: 400;\">\u00bfSabes qu\u00e9 es un dataset o un dataframe? Son <strong>t\u00e9rminos muy utilizados en lo que respecta el trabajo de BigData<\/strong> y entender estos conceptos es primordial en el mundo de la programaci\u00f3n en general.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">No obstante, si eres un amante del <a href=\"https:\/\/talently.tech\/blog\/tendencias-desarrollo-software-2022\/\" target=\"_blank\" rel=\"noopener\">desarrollo de software<\/a> en el \u00e1rea de Big Data, esta informaci\u00f3n no solo es importante, sino necesaria.\u00a0<\/span><\/p>\n<h2>\u00bfQu\u00e9 es el Big Data?<\/h2>\n<p><span style=\"font-weight: 400;\">Para entender el concepto de la Big Data, es necesario entender el t\u00e9rmino como un conjunto de datos que tambi\u00e9n puede ser combinaciones de varios conjuntos de datos, cuyo tama\u00f1o, complejidad y velocidad de crecimiento es exponencial.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La complejidad y crecimiento masivo de la informaci\u00f3n y datos es tal, que <strong>es necesario implementar m\u00e9todos o herramientas de estudio capaces de analizar tal informaci\u00f3n<\/strong>. De ah\u00ed, es que entran en juego los programadores, quienes desarrollan dichas herramientas capaces de analizar y arrojar resultados en conjuntos de Big Data.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Esto se debe a que, por medios convencionales, ser\u00eda una tarea casi imposible para un humano de poder analizar una gran cantidad de informaci\u00f3n.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00bfPara qu\u00e9 sirve la Big Data?<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">La big data no es solamente un conjunto o varios conjuntos de datos e informaci\u00f3n sin sentido. <strong>El objetivo de esta es almacenar la informaci\u00f3n sobre un aspecto que se quiera conocer<\/strong>, por ejemplo, la cantidad de usuarios interesados en un producto.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Dicha informaci\u00f3n se recolecta, y con una herramienta de an\u00e1lisis de Big Data, obtenemos unos resultados que nos ayudar\u00e1n a tomar mejores decisiones estrat\u00e9gicas para actuar en consecuencia.\u00a0<\/span><\/p>\n<h2><b>\u00bfQu\u00e9 es un dataset?<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Un dataset, podr\u00eda definirse como una de las partes que conforman la Big Data, pero \u00bfde qu\u00e9 forma? Esto se construye alrededor de su propio concepto, siendo que la traducci\u00f3n de dataset es conjunto de datos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Ahora bien, estos datos se representan un conjunto en particular de informaci\u00f3n, representado en una especie de tabla o matriz de an\u00e1lisis. La tabla se conforma por columnas, y cada columna representa una variable de datos, y las filas, representan un grupo de datos espec\u00edficos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Es decir, las filas podr\u00edan considerarse como las categor\u00edas de los datos, y las columnas, las variables particulares que la conforman. Esta combinaci\u00f3n entre columnas y filas, es lo se conoce y define pues, como la dataset.\u00a0<\/span><\/p>\n<h2>\u00bfQu\u00e9 es un dataframe?<\/h2>\n<p><span style=\"font-weight: 400;\">El dataframe se podr\u00eda definir a trav\u00e9s de una posible traducci\u00f3n no literal, como <strong>una hoja de datos o matriz de datos<\/strong>. Este tipo de matriz se utiliza en el desarrollo de programaci\u00f3n en R.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Cuando se est\u00e1 estudiando diversos objetos en la programaci\u00f3n, y se necesita de una estad\u00edstica, e<strong>l dataframe proporciona el medio o la herramienta necesaria para analizar los objetos de una muestra de datos.<\/strong> Esta, tambi\u00e9n se conforma por filas y columnas, cuyas filas representan a cada objeto de la muestra y la columna a las variables.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Si bien es cierto que un dataframe es como una matriz de an\u00e1lisis, aqu\u00ed radica una diferencia importante. Mientras que una matriz solo admite datos num\u00e9ricos, en un dataframe, se admiten datos alfanum\u00e9ricos.\u00a0<\/span><\/p>\n<h2>\u00bfCu\u00e1les son los usos de los datasets?<\/h2>\n<p><span style=\"font-weight: 400;\">Los datasets funcionan como un <strong>almacenador de informaci\u00f3n<\/strong> que son usados en un proyecto para obtener una estad\u00edstica espec\u00edfica. Dicho uso se puede definir a trav\u00e9s de los diferentes tipos de datasets que existen. Por ejemplo:<\/span><\/p>\n<h3>Archivo<\/h3>\n<p><span style=\"font-weight: 400;\">Un tipo de dataset que se caracteriza por ser <strong>seguro, r\u00e1pido y eficiente<\/strong>, al poner a disposici\u00f3n un conjunto de datos en un archivador que es autom\u00e1tico. Al momento de realizar el procesamiento, se accede al archivador correspondiente.<\/span><\/p>\n<h3>Folder<\/h3>\n<p><span style=\"font-weight: 400;\">Aqu\u00ed <strong>se almacenan diversos datasets<\/strong>, es decir, una gran cantidad de informaci\u00f3n, que, a su vez, se encuentran interconectados unos con otros. Estos datos se deben almacenar en un mismo formato para que sean compatibles, lo que permite el an\u00e1lisis masivo de informaci\u00f3n.<\/span><\/p>\n<h3>Base de datos<\/h3>\n<p><span style=\"font-weight: 400;\">Estos datasets <strong>son utilizados en programas y aplicaciones espec\u00edficos<\/strong>, dependiendo del tipo de formato que posean dichos datos. Funcionan muy parecido al tipo de dataset de Archivo.<\/span><\/p>\n<h3>Web<\/h3>\n<p><span style=\"font-weight: 400;\">Son los <strong>datos que se almacenan en una p\u00e1gina web<\/strong> y que normalmente se representan en URL, que contienen toda la informaci\u00f3n del sitio.\u00a0<\/span><\/p>\n<h2>\u00bfCu\u00e1l es la diferencia entre un dataset y un dataframe?<\/h2>\n<p><span style=\"font-weight: 400;\">B\u00e1sicamente, los datasets y dataframes son muy parecidos en cuanto a estructura. No obstante, <strong>la diferencia radica en que el dataframe usa una organizaci\u00f3n en forma de matriz<\/strong>, que admite datos alfanum\u00e9ricos, y la informaci\u00f3n es estructurada en columnas identificadas respectivamente.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Gracias a la estructura de almacenamiento y a la capacidad de poder usar datos alfanum\u00e9ricos en los dataframes, la consulta y modificaci\u00f3n de informaci\u00f3n en la hoja de datos es mucho m\u00e1s sencilla.\u00a0<\/span><\/p>\n<h2>\u00bfD\u00f3nde encontrar datasets?<\/h2>\n<p><span style=\"font-weight: 400;\">Existen muchos lugares en internet en la cual se pueden acceder a diferentes tipos de datasets con informaci\u00f3n relevante. Lo mejor de ello, es que el acceso a dichos sitios web son gratuitos, por lo que se puede investigar sin problemas y entender mejor c\u00f3mo funcionan los datasets.<\/span><\/p>\n<p><span style=\"font-weight: 400;\"><strong>UN Data <\/strong>es propio de las Naciones Unidas. En este sitio web se pueden obtener todos los datos p\u00fablicos que esta instituci\u00f3n posee en su haber. <\/span><\/p>\n<p><span style=\"font-weight: 400;\">Por otro lado, <strong>Worldbank <\/strong>es la dataset del Banco Mundial, y se puede conocer informaci\u00f3n tanto de econom\u00eda, como de salud, educaci\u00f3n y desarrollo tecnol\u00f3gico.<\/span><\/p>\n<p><span style=\"font-weight: 400;\"><strong>Google Public Data<\/strong> no solo posee sus propios datos, sino que recolecta la informaci\u00f3n de otros datasets. Y as\u00ed como estos muchos otros m\u00e1s, inclusive de los gobiernos de cada pa\u00eds.\u00a0<\/span><\/p>\n<h2>\u00bfQuieres dedicarte al mundo del Big Data y los datasets?<\/h2>\n<p>Si quieres dedicarte al rubro del Big Data, debes saber que es necesario tener conocimientos en matem\u00e1ticas, saber de metodolog\u00edas como Data Scrapping, dominar lenguajes de programaci\u00f3n como Python y estar actualizado en disciplinas como Machine Learning.<\/p>\n<p>En resumen, los profesionales de este rubro tienen perfiles mixtos. Puedes ser un Data Scientist, Analista de datos, Desarrollador Python o Ingeniero en Inteligencia Artificial. \u00a1Lo importante es que se destaque tu pasi\u00f3n por los datos!<\/p>\n<p>Si eres developer con m\u00e1s de 2 a\u00f1os de experiencia y quieres despegar tu carrera profesional en el rubro del Big Data, en Talently podemos ayudarte. Piensa en grande y no pierdas la oportunidad de trabajar en una compa\u00f1\u00eda tech reconocida en todo el mundo.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00bfSabes qu\u00e9 es un dataset o un dataframe? Son t\u00e9rminos muy utilizados en lo que respecta el trabajo de BigData y entender estos conceptos es primordial en el mundo de la programaci\u00f3n en general. No obstante, si eres un amante del desarrollo de software en el \u00e1rea de Big Data, esta informaci\u00f3n no solo es [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":2212,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[33],"tags":[],"class_list":["post-2197","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-habilidades-tecnicas"],"acf":[],"_links":{"self":[{"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/posts\/2197","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/comments?post=2197"}],"version-history":[{"count":0,"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/posts\/2197\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/media\/2212"}],"wp:attachment":[{"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/media?parent=2197"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/categories?post=2197"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/talently.tech\/blog\/wp-json\/wp\/v2\/tags?post=2197"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}