*දත්ත එකතු කිරීම(Data Collection)*:
දත්ත විද්යාඥයින් දත්ත සමුදායන්, සංවේදක, වෙබ් අඩවි සහ තවත් බොහෝ ප්රභවයන්ගෙන් දත්ත රැස් කරයි. මෙයට ව්යුහගත දත්ත (දත්ත සමුදායන් වැනි) හෝ ව්යුහගත නොවන දත්ත (පෙළ හෝ රූප වැනි) ඇතුළත් විය හැක.
*දත්ත පිරිසිදු කිරීම සහ පෙර සැකසීම(Data cleaning and preprocessing)* :
අමු දත්ත බොහෝ විට අවුල් සහගත වන අතර දෝෂ, පිටස්තර සහ අදාළ නොවන තොරතුරු ඉවත් කිරීමට පිරිසිදු කිරීම සහ පෙර සැකසීම අවශ්ය වේ. මෙම පියවර දත්ත විශ්ලේෂණය සඳහා සුදුසු බව සහතික කරයි.
*ගවේෂණාත්මක දත්ත විශ්ලේෂණය(Exploratory data analysis) (EDA)*:
දත්ත විද්යාඥයින් දත්ත ගවේෂණය කිරීමට සහ තේරුම් ගැනීමට සංඛ්යානමය සහ දෘශ්යකරණ ශිල්පීය ක්රම භාවිතා කරයි. දත්ත කට්ටලය තුළ රටා, සහසම්බන්ධතා සහ විෂමතා හඳුනා ගැනීමට EDA උපකාර කරයි.
*විශේෂාංග ඉංජිනේරු(Feature Engineer)* :
යන්ත්ර ඉගෙනුම් ආකෘතිවල ක්රියාකාරිත්වය වැඩි දියුණු කිරීම සඳහා අදාළ විචල්යයන් (විශේෂාංග) තෝරා ගැනීම සහ පරිවර්තනය කිරීම මෙයට ඇතුළත් වේ. විශේෂාංග ඉංජිනේරු විද්යාව අනාවැකි ආකෘතිකරණයේ තීරණාත්මක පියවරක් විය හැකිය.
*යන්ත්ර ඉගෙනීම(Machine learning)*:
දත්ත විද්යාඥයින් අනාවැකි ආකෘති තැනීමට යන්ත්ර ඉගෙනුම් ඇල්ගොරිතම භාවිතා කරයි. මෙම ආකෘති වර්ගීකරණය, ප්රතිගමනය, පොකුරු කිරීම සහ නිර්දේශ පද්ධති වැනි කාර්යයන් සඳහා භාවිතා කළ හැක.
*ආදර්ශ ඇගයීම(Model evaluation)*:
යන්ත්ර ඉගෙනීමේ ආකෘතියක් පුහුණු කිරීමෙන් පසු, නිරවද්යතාවය, නිරවද්යතාවය, නැවත කැඳවීම සහ F1 ලකුණු වැනි ප්රමිතික භාවිතයෙන් එහි කාර්ය සාධනය ඇගයීම අත්යවශ්ය වේ. මෙම පියවර ආකෘතියේ ගුණාත්මකභාවය සහතික කරයි.
*දත්ත දෘශ්යකරණය(Data visualization)*:
දත්ත විශ්ලේෂණයේ ප්රතිඵල සන්නිවේදනය කිරීම ඉතා වැදගත් වේ. දත්ත විද්යාඥයින් ප්රස්ථාර, ප්රස්ථාර සහ අන්තර්ක්රියාකාරී දෘශ්යකරණයන් මගින් සොයාගැනීම් සහ තීක්ෂ්ණ බුද්ධිය තේරුම්ගත හැකි ආකාරයෙන් ඉදිරිපත් කරයි.
*විශාල දත්ත සහ බෙදා හරින ලද පරිගණකකරණය(Big data and distributed computing)*:
විශාල දත්ත පැමිණීමත් සමඟ, දත්ත විද්යාඥයින් බොහෝ විට දැවැන්ත දත්ත කට්ටල සැකසීමට සහ විශ්ලේෂණය කිරීමට Hadoop සහ Spark වැනි බෙදා හරින ලද පරිගණක රාමු සමඟ කටයුතු කරයි.
*වසම් දැනුම(Domain knowledge)*:
දත්ත ජනනය කරන විශේෂිත වසම හෝ කර්මාන්තය අවබෝධ කර ගැනීම ඉතා වැදගත් වේ. මෙම දැනුම දත්ත විද්යාඥයින්ට අදාළ ප්රශ්න ඇසීමට, ප්රතිඵල අර්ථ නිරූපණය කිරීමට සහ ක්රියා කළ හැකි නිර්දේශ කිරීමට උපකාර කරයි.
*සදාචාරාත්මක සලකා බැලීම්(Ethical considerations)*:
දත්ත විද්යාඥයින් පුද්ගලිකත්වය, පක්ෂග්රාහීත්වය සහ සාධාරණත්වය වැනි සදාචාරාත්මක ගැටළු පිළිබඳව දැනුවත් විය යුතු අතර, වගකීම් සහගත දත්ත හැසිරවීම සහ ආකෘතිකරණය සහතික කිරීමට පියවර ගත යුතුය.
*සන්නිවේදන කුසලතා(Communication skills)*:
දත්ත විද්යාඥයින් ඵලදායී සන්නිවේදකයින් විය යුතුය. තාක්ෂණික නොවන පාර්ශවකරුවන්ට ඔවුන්ගේ සොයාගැනීම් සහ තීක්ෂ්ණ බුද්ධිය පැහැදිලි කිරීමට ඔවුන්ට හැකි විය යුතුය.
මූල්ය, සෞඛ්ය සේවා, අලෙවිකරණය, ඊ-වාණිජ්යය සහ තවත් බොහෝ ක්ෂේත්රවල දත්ත විද්යාව බහුලව භාවිතා වේ. එය දත්ත මත පදනම් වූ තීරණ ගැනීමේ දී තීරණාත්මක කාර්යභාරයක් ඉටු කරන අතර විශාල දත්ත සහ උසස් විශ්ලේෂණ යුගයේ වඩ වඩාත් වැදගත් වී ඇත.
Data science is a multidisciplinary field that combines techniques from statistics, computer science, and domain-specific knowledge to extract insights and knowledge from data. It involves collecting, cleaning, and analyzing large sets of data to discover patterns, make predictions, and inform decision-making. Here are some key aspects of data science:
*Data Collection*:
Data scientists gather data from various sources, such as databases, sensors, websites, and more. This can involve structured data (like databases) or unstructured data (like text or images).
*Data Cleaning and Preprocessing*:
Raw data is often messy and requires cleaning and preprocessing to remove errors, outliers, and irrelevant information. This step ensures that the data is suitable for analysis.
*Exploratory Data Analysis (EDA)*:
Data scientists use statistical and visualization techniques to explore and understand the data. EDA helps identify patterns, correlations, and anomalies within the dataset.
*Feature Engineering*:
This involves selecting and transforming relevant variables (features) to improve the performance of machine learning models. Feature engineering can be a crucial step in predictive modeling.
*Machine Learning*:
Data scientists use machine learning algorithms to build predictive models. These models can be used for tasks such as classification, regression, clustering, and recommendation systems.
*Model Evaluation*:
After training a machine learning model, it's essential to evaluate its performance using metrics like accuracy, precision, recall, and F1 score. This step ensures the model's quality.
*Data Visualization*:
Communicating the results of data analysis is crucial. Data scientists use charts, graphs, and interactive visualizations to present findings and insights in a comprehensible way.
*Big Data and Distributed Computing*:
With the advent of big data, data scientists often work with distributed computing frameworks like Hadoop and Spark to process and analyze massive datasets.
*Domain Knowledge*:
Understanding the specific domain or industry where the data is generated is crucial. This knowledge helps data scientists ask relevant questions, interpret results, and make actionable recommendations.
*Ethical Considerations*:
Data scientists must be aware of ethical issues, such as privacy, bias, and fairness, and take steps to ensure responsible data handling and modeling.
*Communication Skills*:
Data scientists need to be effective communicators. They must be able to explain their findings and insights to non-technical stakeholders.
Data science is widely used in various fields, including finance, healthcare, marketing, e-commerce, and many more. It plays a critical role in data-driven decision-making and has become increasingly important in the era of big data and advanced analytics.