Python

Pythonデータサイエンス入門:環境構築・基礎からTitanic実践まで

ⓘ本ページはプロモーションが含まれています

もっとスキルを活かしたいエンジニアへ

スポンサードリンク
働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。


スポンサードリンク

環境構築と IDE 設定

Python データサイエンスの学習を始めるにあたって、まずは「実行環境」と「開発ツール」を整える必要があります。ここでは Anaconda と標準ライブラリだけで作れる venv の 2 通りのパターンを比較しつつ、VS Code と Jupyter Notebook を組み合わせた実践的なセットアップ手順を解説します。

Anaconda と venv の違いとインストール手順

Anaconda は科学計算向けに最適化された Python ディストリビューションで、パッケージ管理から環境作成まで一括で行える点が魅力です。一方、venv は標準ライブラリだけで仮想環境を構築できる軽量な手法です。どちらも 依存関係の衝突を防ぎ、プロジェクトごとに必要なパッケージだけをインストール できる点は共通していますが、以下のような違いがあります。

項目 Anaconda venv
インストーラサイズ 約 500 MB(GUI と多数の科学計算パッケージ同梱) 数 MB(Python 本体のみ)
パッケージ管理 conda (バイナリ配布が中心) pip(PyPI が唯一のソース)
環境作成コマンド conda create -n <env> python=3.11 … python -m venv <dir>
GPU / C ライブラリ対応 事前にビルド済みパッケージが多く、設定が楽 ソースからビルドする必要があることも

1️⃣ Anaconda のインストールと環境作成

  1. 公式サイト(https://www.anaconda.com/products/distribution)から「Python 3.11」版のインストーラをダウンロードし、画面の指示に従ってインストールします。
  2. インストール完了後、ターミナル(Windows は Anaconda Prompt)で以下を実行して新しい環境を作ります。

ポイント-y オプションで確認メッセージを省略し、インストール時間を短縮できます。

2️⃣ venv のインストールと環境作成

Python 本体が既にインストールされている前提です。以下の手順で仮想環境を構築し、必要なパッケージを pip でインストールします。

ポイントpip list --format=freeze > requirements.txt で依存関係を書き出すと、他のマシンへ環境を再現しやすくなります。


VS Code と Jupyter Notebook のセットアップ

VS Code は軽量ながら拡張性が高く、Python 拡張と Jupyter 拡張さえ入れればノートブック形式での実行・デバッグが可能です。

  1. VS Code を公式サイト(https://code.visualstudio.com/)からダウンロードしインストール
  2. 左側の「拡張機能」パネルで PythonJupyter を検索してインストールします。
  3. 画面左下に表示される Python バージョンをクリックし、先ほど作成した仮想環境(ds_env)を選択。

  4. Anaconda 環境の場合は conda env list で確認できる名前が一覧に出ます。

  5. venv の場合は .venv ディレクトリや ds_env フォルダが自動検出されます。

  6. 新規ファイル → 「Jupyter Notebook」 を選ぶと、.ipynb が作成され、セル単位でコードを実行できるようになります。

ポイント:VS Code のターミナルは仮想環境が自動的に有効化された状態で起動するので、conda activatesource …/activate を手入力する必要がありません。


Python 基礎文法とデータサイエンス向け基本操作

Python の構文を正しく理解すれば、pandas・scikit-learn といった高度なライブラリも自然に扱えるようになります。このセクションでは リスト・辞書・関数・ループ を中心に、データサイエンスで頻出するテクニックを実例とともに紹介します。

リスト・辞書・関数・ループの基礎

以下は「データ前処理」や「特徴量生成」でよく使われる基本構文です。コード中のコメントは実行結果のイメージですので、参考にしてください。

ポイント:DataFrame の列名はプロジェクト全体で統一(例: sexage)すると、キーエラーのリスクが減ります。

標準入出力と簡易デバッグ方法

print()logging を活用すれば、変数の状態を手軽に確認できます。Jupyter Notebook ではセルごとの出力が自動的に表示されるため、インタラクティブなデバッグが可能です。


NumPy と pandas を使ったデータ処理

大量の数値計算は NumPy が高速に、表形式データの操作は pandas が得意です。ここでは配列生成・ベクトル演算と、DataFrame の基本的な前処理手順を実践します。

NumPy 配列の作成と基本演算

NumPy のインポート忘れが起きやすいので、コードブロック冒頭に必ず import numpy as np を記述してください。

pandas DataFrame の読み込み・集計・欠損値処理

pandas を使用する際は必ず import pandas as pd を書き、列名の大小文字を統一しておくとエラーが防げます。

ポイントread_csvdtype 引数で文字列列を明示的に指定すると、予期せぬ型変換エラーを回避できます。


matplotlib / seaborn によるデータ可視化

可視化はデータの分布や相関関係を直感的に把握するための必須スキルです。ここでは matplotlib のベーシックな設定と、seaborn が提供する美しいテンプレートを組み合わせた描画例を示します。

ヒストグラムと散布図の描画

以下のコードはすべて import matplotlib.pyplot as pltimport seaborn as sns を冒頭に書くことで、実行エラーを防ぎます。

箱ひげ図とペアプロットで多変量を可視化

箱ひげ図は外れ値の有無や四分位範囲を、一目で把握できる便利なチャートです。ペアプロットは数値特徴量同士の相関を網羅的に確認できます。


scikit-learn で始める機械学習モデル構築と評価

本章では 線形回帰ロジスティック回帰 を題材に、データ分割・学習・予測・評価までのフローを実装します。評価指標はそれぞれ回帰・分類タスクに適したものを選びました。

線形回帰モデルの作成と評価指標

ポイント:回帰問題では mean_absolute_error も併せて見ると、外れ値の影響度が分かりやすくなります。

ロジスティック回帰による分類と混同行列

ポイントclassification_reportdigits 引数で小数点以下桁数を調整すると、レポートが見やすくなります。


実践チュートリアル:Titanic データで学ぶ分析フロー全体と GitHub 公開手順

実際のデータセットを使って 取得 → 前処理 → 可視化 → モデル構築 → バージョン管理 の一連の流れを体験します。最後に GitHub へコードをプッシュし、他者と共有できる形に仕上げます。

データ取得から前処理・可視化・モデル構築までの全工程

以下は Jupyter Notebook のセルごとに区切ったサンプルです。すべて import 文が先頭にあるので、実行エラーは起きません。

コードの保存方法と GitHub へのプッシュ手順

1️⃣ ローカルリポジトリの作成

ターミナルでプロジェクトディレクトリに移動し、以下を実行します。

2️⃣ GitHub に新規リポジトリ作成

GitHub の UI で 「New repository」 をクリックし、次の情報を入力します。

項目 設定例
Repository name titanic-tutorial
Description 「Titanic データ分析チュートリアル(Python)」「Anaconda 環境構築手順付き」
Public / Private 任意(学習目的なら Public が便利)
Initialize with README チェックしない(ローカルの README を使う)

3️⃣ リモートリポジトリを紐付けてプッシュ

実例 URLhttps://github.com/yourusername/titanic-tutorial.gityourusername を自分のユーザー名に置き換えてください)

4️⃣ README の作成例(Markdown)

ライセンス

MIT License
`


まとめ

  • 環境構築は Anaconda と venv のどちらでも実現可能ですが、パッケージのバイナリ互換性が必要なときは Anaconda が便利です。手順を本文に示した通りに進めれば、数分で作業用仮想環境が完成します。
  • VS Code + Jupyter の組み合わせは軽量かつ高機能で、セル単位の実行やデバッグが容易です。拡張機能だけ入れればすぐに使えます。
  • Python 基礎文法(リスト・辞書・関数・ループ)をマスターすると、pandas の apply や scikit-learn のパイプライン構築が自然に思えるようになります。
  • NumPy と pandasで高速計算と欠損値処理を行い、matplotlib / seabornでデータの分布や相関を可視化すれば、分析の方向性が明確になります。
  • scikit-learn を使った線形回帰・ロジスティック回帰は、機械学習入門として最適です。MSE・R²・accuracy・混同行列といった指標でモデル性能を客観的に評価できます。
  • 実践チュートリアルでは Titanic データセットを通じて「データ取得 → 前処理 → 可視化 → モデル構築 → バージョン管理」のフロー全体を体験し、GitHub へコードを公開するまでの手順も網羅しました。

この一連の流れを自分の PC 上で再現すれば、実務でも通用する データサイエンス基礎スキル が身につきます。次は好きなデータセット(Kaggle や UCI など)に挑戦し、モデル改善やハイパーパラメータチューニングへステップアップしてみてください。

スポンサードリンク

もっとスキルを活かしたいエンジニアへ

スポンサードリンク
働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。


-Python