【PyAutoGUI徹底解説】マウスやキーボードをPythonで自動操作！

2025年3月17日

本ページにはプロモーションが含まれています。

こんにちは、fuyutsukiです。

マウスやキーボードを自動操作することで、PC操作を効率化したいと思ったことはありませんか？

こういったPCの自動操作にはPythonのライブラリであるPyAutoGUIを使うことが有用です。

PyAutoGUIについて私はかなりの試行錯誤を繰り返してきました。

PyAutoGUIを使い込んでいる私だからこそ言える注意事項もあるかと思いますのでぜひご参考ください。

Pythonの仮想環境構築

例によっていつものようにこちらの記事でPythonの仮想環境を構築します。

　PyAutoGUIの基本操作

PyAutoGUIを使う上での心得

PyAutoGUIを使う上での基本的な心構えとして先に3点述べます。

各操作の間に時間を空けてあげると動作が安定する。

少なくとも0.1秒、安定させたいなら1秒、画像認識を行う際には3~5秒ほど必要になることもあります。どの程度時間を空ければ良いのかに関しては、PCの処理能力に依存します。

例えばキーボードを操作させるにしても全く時間を空けないとPCのスペック次第では処理が追いつきません。

あくまで人間の動きを真似ているのだということを心に留めておきましょう。

この”時間を空ける”という操作はPythonではtime.sleep()を使うことで実現します。

import pyautogui
import time
# ～～PyAutoGUIで何らかの操作を行う～～
time.sleep(1) # 1秒間処理を止める

マウス操作(画像認識)を行わずにキーボード操作にした方が安定する。

画像認識でマウス操作をする時の注意点は以下の通りです。

不意にポップアップ通知などが表示されてしまうとエラーになります。
画像認識させる画像を撮影する際に意図していない線などが画像に入っていたり、あまりにも狭い領域を撮影していたりするとエラーになります。
PCやディスプレイが変わった場合にも注意が必要で、再度画像を撮りなおさないと画像認識をしてくれなくなります。

そのため、可能な限りマウス操作ではなくキーボード操作で自動化することをおすすめします。

アプリに応じてキーボードショットカットを調べることで、キーボードで操作を完結するようにしましょう。

PCをディスプレイに繋いでいる方は注意が必要。

例えばあるアプリの操作を自動化することを想定します。

Windowsの仕様上、アプリが立ち上げるのがPC側かディスプレイ側かということを決めることは困難です。つまり、マウス操作をするための座標を決めたり、画像認識させる画像を用意することが困難となります。

そもそも、デフォルトでPyAutoGUIの画像認識はデュアルディスプレイに対応していません。

pip installした際のPyAutoGUIのライブラリのコードをいじれば画像認識をデュアルディスプレイに対応させることもできますが、それでも画像認識させた後にその場所をクリックしようとするとエラーとなります。

if文をネストさせることで対応する方法もありますが、保守性の観点からあまりおすすめできるものではありません。

デュアルディスプレイ(PCをディスプレイに繋いでいる方)は基本的にマウス操作は行わず、キーボード操作のみとした方が動作が安定することは心に留めておきましょう。

PyAutoGUIは極力使わない

PyAutoGUIの解説をするのに何を言っているんだと思われるかもしれませんが、PyAutoGUIを使用するのは最終手段です。

例えばアプリを操作するのであればアプリに対応したライブラリを使用するべきです。

Excelであればopenpyxl、PowerPointであればpython-pptxというライブラリがあります。

こういったアプリ対応のライブラリを使用する方がtime.sleep()関数で時間を空けなくても動作が安定します。結果的に処理が終わる時間が短くて済みます。

また、パソコンに何かしらトラブルがありキーボード入力が効かないといった場合だと、PyAutoGUIではエラーとなりますが、アプリ対応のライブラリであれば多少のトラブルは関係なく動作します。

PyAutoGUIを使用するのは、ライブラリが用意されていないアプリの操作を自動化したいといった、他に手段がない局面で使用しましょう。

マウスの自動操作

カーソルを好きな場所に移動

PC画面上の座標(x,y)をクリックします。

import pyautogui as pg
pg.moveTo(5, 30 , 1) # x=5, y=30の位置に1秒かけて移動

ここでいう座標は、画面の左上を(0, 0)とします。画面の右方向にいくにつれてxが増加し、画面の下方向にいくにつれてyが増加します。

xとyの上限は、画面のサイズに依存します。pg.size()関数を使用することで、PC画面のサイズを取得することができます。

import pyautogui as pg
pg.size() # PC画面のサイズを取得する

カーソルを好きな場所に移動する方法について解説しましたが、実際はこれから紹介するように、クリックしたい座標の位置を先に確認することの方が多いと思います。

クリックしたい座標の位置を先に確認する

import pyautogui as pg

# クリックしたい位置の座標を確認
x,y = pg.position()
print(x,y)
# 上記でわかった座標をクリック
pg.click(x, y) # 左クリック
pg.rightClick # 右クリック
pg.doubleClick # ダブルクリック
# 上記でわかった座標にドラッグ
pg.dragTo(x,y) # 座標(x,y)まで(絶対座標)
pg.drag(x,y) # 現在の位置から右にx,下にy(相対座標)

pyautogui.position()で事前にクリックしたい場所を把握することができます。

一度把握したら次からは座標を確認しなくて済むようになります。

ただし、PCが変わったりディスプレイが変わったりすると、当然ながら座標も変わってしまうため注意が必要です。

そのため、実際には後程紹介する画像認識を使ってクリックする座標を決定することが多いです。

キーボードの自動操作

前述しているように、キーボード操作は使用する機会が多いです。

文字の入力

文字の入力は日本語には非対応です。そのため、クリップボードを操作するpyperclipを利用して日本語を入力します。

import pyautogui as pg

# 文字を入力
pg.typewrite('Hello')
# 日本語を入力する場合はクリップボードにコピーしておく。
pyperclip.copy('こんにちは')
# Ctrl+vで貼り付け
pg.hotkey('ctrl', 'v')

キーボードの操作

使用する機会が多いのはpg.press()関数とpg.hotkey()関数です。

import pyautogui as pg

#キーボードの'enter'を押す
pg.press('enter')
# キーボードを同時押しする。
pg.hotkey('ctrl', 'shift', 'esc')

頻繁に使用するキーを表にまとめました。他に試したいキー入力があればこちらの公式ドキュメントを確認しましょう。

CtrlキーやShiftキーなどでエラーになるなと思ったら、Ctrlキーでは’ctrl’ではなく’ctrlright’や’ctrlleft’を試してみると良いかもしれません。

ファンクションキー	‘fn’, ‘f1’, ‘f2’など
Ctrlキー	‘ctrl’, ‘ctrlright’, ‘ctrlleft’
Shiftキー	‘shift’, ‘shiftright’, ‘shiftleft’
Altキー	‘alt’, ‘altright’, ‘atlleft’
Enterキー	‘enter’
Winキー(Windows)	‘win’, ‘winright’, ‘winleft’
Commandキー(Mac)	‘command’
Optionキー(Mac)	‘option’
PageUpキー / PageDownキー	‘pageup’, ‘pagedown’
Deleteキー / BackSpaceキー	‘delete’, ‘backspace’
矢印キー(→←↓↑)	‘right’, ‘left’, ‘down’, ‘up’
Tabキー	‘tab’
Escキー	‘esc’
Volumeキー	‘volumemute’, ‘volumeup’, ‘volumedown’
Pauseキー	‘pause’

PyAutoGUIでのキーボード操作

キーボードショートカットを覚えよう

例えばPyAutoGUIを使ってPCをスリープモードにしたいと思ったときはどうするでしょうか？

マウスを動かしてWinボタンをクリック-電源ボタンをクリック-スリープボタンをクリック、とするかもしれません。

しかし、PyAutoGUIの場合はマウスで操作するよりもキーボードで操作する方が動作が安定します。

PCをスリープモードにする場合は下記のようにコードを記述しましょう。

import pyautogui as pg
import time

pg.hotkey('win','x') # 'win'キーと'x'を同時押し
time.sleep(3) # 時間を空ける
pg.press('u') # 'u'を押す
time.sleep(3) # 時間を空ける
pg.press('s') # 's'を押す

このように、Windowsや各アプリのキーボードショートカットで操作するように心掛けましょう。

キーボードショートカットが分からない！という方は自分がしたい操作のショートカットをググっても良いですし、

下記画像の“スリープ(S)”といったように、どのキーを押せば良いのか示してくれていることが多いです。

画像認識

マウス操作をする際に、pg.position()関数で毎回座標を確認するのはあまりに面倒です。

そのため、マウス操作をする際にはこれから紹介するように画像認識によって座標を決定するという手法を取ることが多いです。

例えば、Adobe Acrobat Reader DCで画像認識を試してみましょう。以下のような画面の時に、ホームボタンをクリックしたいとします。

Adobe Acrobat Reader DCにはPythonのライブラリが用意されていないため、PyAutoGUIで試してみましょう。

まず、クリックしたいホームボタンの写真をスクリーンショットします。

ここで気を付けたいのは、画像に余計な線を入れないようにすることです。

今回で言うとホームボタンの下に黒線(ツール画面を開いているため今はツールボタンの下にある黒線)が入らないように気を付ける必要があります。

スクリーンショットした画像はPC内に保存しておきます。

その後、以下のようにPythonコードを記述します。

import pyautogui as pg
import time

icon_path = 'XXXXXX' # 保存した画像のパス
icon = pg.locateOnScreen(icon_path)
if icon != None:
		time.sleep(1)
		x, y = pg.center(icon) # 画像の中心の座標を取得
		time.sleep(1)
		pg.click(x,y) # 画像の場所をクリック

画像認識が成功すればiconに画像の座標が入ります。

while文の無限ループを使って画像認識に成功するまで無限ループする、といったこともできますね。

画面遷移には時間がかかりますから、画面遷移を完了後、つまり画像認識に成功後に次の処理を行うといったことができます。

画像認識に失敗する時の対処法

画像認識に失敗するときがあります。画像に余計な線が入っていないかをまずはチェックしますが、それでもダメなときは画質が悪いなどの問題があるのかもしれません。

そういったときは以下のようにPythonコードを記述することで、画像認識が成功することがあります。

import pyautogui as pg
import opencv

icon = pg.locateOnScreen(icon_path, grayscale = True, confidence = .8)

grayscale = Trueとすることにより、画像を白黒で認識します。

何かしらのアップデートで画像の色と実際の色が異なっているときにはgrayscale = Trueとしてみると良いかもしれません。

また、grayscaleとすることで、画像認識の速度も向上します。その一方で、grayscale = Trueとすると、誤った画像認識をしてしまう可能性もあるため注意しましょう。

confidence = .8というのはどの程度いい加減に画像認識するかを指定するものです。

値を下げるほどいい加減に画像認識するようになります。スクリーンショットの画像が狭い領域だと、このconfidenceの値を下げる必要が出てくる可能性があります。

値を下げすぎると間違った画像認識をしてしまう可能性もあるため、注意が必要です。

PyAutoGUI実践編

困ったときはFaleSafe機能

PyAutoGUIにはFaleSafe機能というものがあります。

マウスやキーボードを自動で操作させるため、プログラムを中止しようとしても中止ボタンが押せないといったことが起こりえるんですよね。

そういったときにプログラムを止めるために用意された方法です。

FaleSafe機能を実行するにはマウスカーソルを(0,0)、すなわち画面の最も左上に移動させましょう。

これにより実行中のプログラムを止めることができます。

PyAutoGUI実践編のコードを記述

簡単ではありますが、実際に使う場面を想定してPyAutoGUIのコードを記述します。

骨組みとなるコードを記述していますので、後はご自由に拡張してください。

先程のAdobe Acrobat Reader DCでの画像認識と同様のイメージでコードを確認してください。

また別の記事で紹介しようと思いますが、オブジェクト指向でコードを記述してみます。

以下のようにvirtualenv環境構築の.batファイルをダブルクリックしてvenvの仮想環境を構築します。

まとめ：pyautoguiでRPAを簡単に始めよう

今回の記事ではマウスやキーボードを自動操作することで、PC操作を効率化するための方法について解説しました。

結論として、PCの自動操作にはPythonのライブラリであるPyAutoGUIを使うことが有用です。

また、PyAutoGUIを使い込んでいる私だからこそ言える注意点についても解説してきました。

PyAutoGUIはアイデア次第で、あらゆる操作を自動化できるポテンシャルを秘めています。

遊び心を大切に色々と試してみてください。

また、プログラミングを学習したいと思っている方はこちらの記事で紹介しているように、買い切り型のオンライン動画学習サービスUdemyがおすすめです。講師の方々のレベルがとても高いことが特長です。

この記事を書いた人

Fuyutsuki

快適なデスク環境で作業効率アップをテーマに、様々なガジェットを紹介している20代エンジニアです。

作業効率化につながるようなプログラミングの情報についても発信中。

【PyAutoGUI徹底解説】マウスやキーボードをPythonで自動操作！

Pythonの仮想環境構築

PyAutoGUIの基本操作

PyAutoGUIを使う上での心得

各操作の間に時間を空けてあげると動作が安定する。

マウス操作(画像認識)を行わずにキーボード操作にした方が安定する。

PCをディスプレイに繋いでいる方は注意が必要。

PyAutoGUIは極力使わない

マウスの自動操作

カーソルを好きな場所に移動

クリックしたい座標の位置を先に確認する

キーボードの自動操作

文字の入力

キーボードの操作

キーボードショートカットを覚えよう

画像認識

画像認識に失敗する時の対処法

PyAutoGUI実践編

困ったときはFaleSafe機能

PyAutoGUI実践編のコードを記述

まとめ：pyautoguiでRPAを簡単に始めよう

この記事を書いた人

コメント

コメントするコメントをキャンセル

【PyAutoGUI徹底解説】マウスやキーボードをPythonで自動操作！

Pythonの仮想環境構築

PyAutoGUIの基本操作

PyAutoGUIを使う上での心得

各操作の間に時間を空けてあげると動作が安定する。

マウス操作(画像認識)を行わずにキーボード操作にした方が安定する。

PCをディスプレイに繋いでいる方は注意が必要。

PyAutoGUIは極力使わない

マウスの自動操作

カーソルを好きな場所に移動

クリックしたい座標の位置を先に確認する

キーボードの自動操作

文字の入力

キーボードの操作

キーボードショートカットを覚えよう

画像認識

画像認識に失敗する時の対処法

PyAutoGUI実践編

困ったときはFaleSafe機能

PyAutoGUI実践編のコードを記述

まとめ：pyautoguiでRPAを簡単に始めよう

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

　PyAutoGUIの基本操作

コメントするコメントをキャンセル