Introducción a crear un árbol de decisión
Con el reciente crecimiento rápido de la cantidad de datos generados por los sistemas de información, para manejar grandes conjuntos de datos, existe una necesidad dominante de que el árbol de decisiones reduzca la complejidad del cálculo. Un árbol de decisión puede considerarse el enfoque más importante para representar clasificadores. En otras palabras, podemos decir que los datos están estructurados usando una estrategia de divide y vencerás. hasta saber que solo hemos explorado. Un árbol de decisiones está estructurado como un marco para precisar los valores y la probabilidad de las decisiones de resultados para
m cada nivel del nodo, ayudando a los encargados de tomar decisiones a elegir predicciones correctas entre los diversos datos inapropiados. En este artículo, explicará cómo crear un árbol de decisión basado en datos de muestra de una manera simple.
¿Qué es el árbol de decisión?
Un árbol de decisión es una estructura jerárquica binaria que identifica la forma en que cada nodo divide un conjunto de datos en función de diferentes condiciones. Para construir un árbol óptimo con un enfoque modelo para clasificar una variable de respuesta que predice el valor de una variable objetivo con reglas de decisión simples (declaraciones if-then-else). El enfoque es el aprendizaje supervisado que se usa principalmente en problemas de clasificación y se considera un modelo predictivo muy efectivo. Se utilizan en diferentes dominios de aplicación como teoría de juegos, inteligencia artificial, aprendizaje automático, minería de datos y áreas como seguridad y medicina.
¿Cómo crear un árbol de decisión?
Un árbol de decisión se crea de manera simple con la forma de arriba hacia abajo; consisten en nodos que forman un nodo dirigido que tiene nodos raíz sin bordes entrantes, todos los demás nodos se denominan nodos de decisión (nodo interno y nodos hoja que corresponden a etiquetas de atributos y clases) con al menos un borde entrante. El objetivo principal de los conjuntos de datos es minimizar los errores de generalización al encontrar la solución óptima en el árbol de decisión.
A continuación se explica un ejemplo de un árbol de decisión con un conjunto de datos de muestra. El objetivo es predecir si una ganancia está baja o alta usando los atributos de la vida y la competencia. Aquí las variables del árbol de decisión son categóricas (Sí, No).
El conjunto de datos
Vida | Competencia | Tipo | Lucro |
Antiguo | si | Software | Abajo |
Antiguo | No | Software | Abajo |
Antiguo | No | Hardware | Abajo |
Medio | si | Software | Abajo |
Medio | si | Hardware | Abajo |
Medio | No | Hardware | Arriba |
Medio | No | Software | Arriba |
Nuevo | si | Software | Arriba |
Nuevo | No | Hardware | Arriba |
Nuevo | No | Software | Arriba |
Del conjunto de datos anterior: la vida, la competencia, el Tipo son los predictores y el beneficio del atributo es el objetivo. Existen varios algoritmos para implementar un árbol de decisión, pero el mejor algoritmo utilizado para construir un árbol de decisión es ID3, que hace hincapié en el enfoque de búsqueda codiciosa. El árbol de decisión sigue la regla de inferencia de decisión o la forma normal disyuntiva (^).
Árbol de decisión
Inicialmente, todos los atributos de entrenamiento se consideran la raíz. La prioridad de orden para colocar los atributos como raíz se realiza mediante el siguiente enfoque. Este proceso es conocido por la selección de atributos para identificar qué atributo está hecho para ser un nodo raíz en cada nivel. El árbol sigue dos pasos: construcción de un árbol, poda de árboles. Y los datos se han dividido en todos los nodos de decisión.
Ganancia de información
Es la medida del cambio en la entropía basada en la variable independiente. El árbol de decisión debe encontrar la mayor ganancia de información.
Entropía
La entropía se define como el conjunto finito, la medida de aleatoriedad en la predicción de datos o eventos, si la muestra tiene valores similares, entonces la entropía es cero y si se divide por igual con la muestra, entonces es uno.
Entropía para la clase
Donde p es la probabilidad de obtener ganancias para decir 'sí' y N es pérdida, decir 'No'.
por lo tanto, entropía = 1
Una vez que se calcula el valor de entropía, es necesario decidir un nodo raíz del atributo.
Entropía de la edad
De acuerdo con el conjunto de datos para el atributo Life, tenemos old = 3 down, mid = 2 down y one up con respecto a la etiqueta de ganancia.
Vida | Pi | ni | Yo (pi, ni) | |
Antiguo | 0 0 | 3 | 0 0 | |
Medio | 2 | 2 | 1 | |
Nuevo | 3 | 0 0 | 0 0 |
Ganancia = Entropía de clase - Entropía de vida = 1 - 0.4 = 0.6
Entropía (competencia) = 0.87
Competencia | Pi | ni | Yo (pi, ni) | |
si | 1 | 3 | 0.8 | |
No | 4 4 | 2 | 0.9 |
Ganancia = Entropía de clase - Entropía de la vida = 1 - 0.87 = 0.12
Ahora el problema surge en el atributo Vida donde el medio tiene la misma probabilidad de subir y bajar. por lo tanto, la entropía es 1. de manera similar, se calcula para el atributo type nuevamente, la entropía es 1 y la ganancia es 0. Ahora se ha creado una decisión completa para obtener un resultado preciso para el valor medio.
Ventajas del árbol de decisiones
- Son fáciles de entender y las reglas generadas son flexibles. Tiene poco esfuerzo para la preparación de datos.
- Un enfoque visual para representar decisiones y resultados es muy útil.
- El árbol de decisiones maneja el conjunto de datos de entrenamiento con errores y valores faltantes.
- Pueden manejar valores discretos y un atributo numérico. Funciona variables categóricas y continuas para entrada y salida.
- Son una herramienta útil para el dominio empresarial que tiene que tomar decisiones después de analizar bajo ciertas condiciones.
Desventajas del árbol de decisiones
- Los alumnos pueden crear un árbol de decisión complejo dependiendo de los datos capacitados. Este proceso se denomina sobreajuste, un proceso difícil en los modelos de árbol de decisión.
- Los valores preferidos son categóricos, si es continuo, el árbol de decisión pierde información que conduce a la propensión a errores. El crecimiento exponencial de los cálculos es mayor durante el análisis.
- Muchas etiquetas de clase conducen a cálculos complejos incorrectos y dan una baja precisión de predicción del conjunto de datos.
- La información obtenida en el algoritmo DT da una respuesta sesgada a valores categóricos más altos.
Conclusión
Por lo tanto, para concluir, los árboles de decisión proporcionan un método práctico y fácil para el aprendizaje y son muy conocidos como herramientas eficientes para el aprendizaje automático, ya que en poco tiempo funcionan bien con grandes conjuntos de datos. Es una tarea de aprendizaje que utiliza un enfoque estadístico para llegar a una conclusión generalizada. Ahora se entiende mejor por qué el árbol de decisión se usa en el modelado predictivo y para los científicos de datos son la herramienta poderosa.
Artículos recomendados
Esta es una guía para crear un árbol de decisión. Aquí discutimos cómo crear un árbol de decisión junto con varias ventajas y desventajas. También puede consultar nuestros otros artículos sugeridos para obtener más información:
- Descripción general del árbol de decisión en R
- ¿Qué es el algoritmo del árbol de decisión?
- Introducción a las herramientas de inteligencia artificial
- Las 10 preguntas principales de la entrevista de inteligencia artificial